貝瑞十年 | 被Deadline催生的大數據庫創新

發布時間:2020-05-26

講述人:
張巖,貝瑞基因DBA。
2015年8月加入貝瑞,張巖入職伊始正是臨床基因檢測數據激增的時期,他參與了貝瑞基因數據庫的搭建,并成長為一名具有基因大數據綜合管理能力的IT技術主管。以張巖為代表的IT人默默地耕耘在基因行業,為公司快速擴張及未來布局奠定了堅實的基礎。

 

每一次按質保量地提前交付給客戶測序數據時,張巖都會感覺自己和同事們的付出又一次得到了認可,對基因大數據這匹“野馬”又多了一些馴服經驗。張巖所在的部門是一個容易被大多數人誤解的部門,誤以為他們只是負責公司的電腦、網絡等事情,事實卻是,IT部門提供的基因大數據綜合管理方案對貝瑞基因而言是核心的存在。

 

貝瑞擁有業內數一數二的測序平臺,不僅型號更新快,數據產出量也呈幾何式上升,貝瑞的IT部門承擔的任務也就越來越重。在這背后,貝瑞基因的IT工程師們,默默地全力以赴保證每一次檢測快速且精準地完成、每一個檢測數據得到安全保存。

 

張巖覺得,來到貝瑞機會與挑戰并存,“基因大數據是全新的東西,我們常常是在遇到讓人頭痛的困難時,完成了大大小小的創新。”

 

比如,貝瑞數據拆分系統的誕生。

 

一個完整的測序服務流程包括樣本處理、文庫制備、上機測序、數據拆分、質控分析和交付五大步驟。交付數據并不是一個簡單的環節,因涉及到數據拆分,需要強大的計算能力和海量數據的支撐。

 

“四年前HiSeq測序儀是貝瑞的主要機型,每次下機數據只有幾十GB,相當于幾十部電影的存儲量,兩三個小時就拆分完了,可以很快把結果交付給客戶。可是,基因測序行業的發展速度太快了,很快公司有了NovaSeq測序儀,每次下機數據量達到了4TB,相當于近2000部高清電影的存儲量,從幾十GB到4TB,數據量增長超過了40倍。”張巖感嘆道。

 

數據處理量的增加意味著當前體系下分析時間的增加,每次交付前的拆分時間會拉長到15-20個小時。那段時間,張巖他們總是接到其它部門催數據的電話,用張巖的話說,他們每天早上一睜眼就面臨Deadline的連環奪命call。

 

之前公司采用了當時主流的“SGE集群+NAS存儲集中式架構”,明顯地現在這個架構有些吃力了。是升級這個架構還是徹底推翻重來,成為擺在IT工程師們面前的關鍵問題。

 

公司管理層和IT團隊花了整整一周的時間,反復考慮行業增長趨勢、數據增長趨勢和現有系統的擴充性,最后一致認為:數據系統的改革,底層架構是重中之重,只有底層架構足夠穩定、強大,日后再升級、擴容都不是問題。貝瑞必須打造一個擁有自主知識產權的、強大的數據拆分系統,以便支撐未來海量的數據。

 

IT工程師們不負眾望搭建了一個全新的架構。“以前8-12個小時完成的拆分,現在2個小時就可以做完,極速情況下可實現40分鐘完成。這是全行業里貝瑞獨有的技術。”張巖的雙眼里透出IT宅特有的驕傲,仿佛徹底遺忘了開發過程中的一切緊張和壓力。

 

張巖把基礎架構的工作比作房子打地基:“基礎環境規劃好了,無論是檢測100萬人還是檢測1億人,都可以在底層框架之上進行橫向擴展。今后貝瑞的測序機位將擴充到1000個,支持100萬人以上的全基因組數據的存儲和處理完全沒有問題。”

 

是的,張巖描述的情景并不夸張。基因大數據正日益展露其巨大價值,成為基因行業下游數據應用市場的決定性因素。在臨床上,可用于疾病篩查和診斷、用藥指導,預后監測;在藥物研發方面,大數據可以在藥物研發之初就設定更加清晰的治療目標,讓精準治療真正落地;在大眾健康方面,可以給出精準的、個性化的健康指導。可以想象的是,在不久的將來,基因大數據將會貫穿人類生活的始終。

 

2015年,貝瑞基因開始建設百萬人群的基因組數據庫,這是其布局基因大數據的第一步。2017年,貝瑞基因在福州市濱海新區的健康醫療大數據產業園里,率先打造數字生命產業園,通過基因測序技術將生命數字化,最終實現婚前、孕前、產前、新生兒、幼兒、少年、壯年到老年的全生命周期的健康管理。

 

生命數字化將成為人類發展的一個重要節點,張巖們成功跨界成為基因行業的IT大拿,一磚一瓦地推動著貝瑞實現其基因大計。

 

先利其器,再成其事。

 

三级片大全专用地址,猫咪av社区下载,美女色又黄·一级毛片,一级片网址,日本,韩国,香港三级视频黄