國際人類蛋白質組計劃(Human Proteome Project)是人類基因組計劃之后的又一重大國際合作大科學計劃,旨在鑒定所有人類基因組編碼蛋白,繪制人體蛋白質圖譜,作為研究蛋白質分子功能、推進疾病的診斷和治療的重要資源。相比于人類基因組計劃時中國僅負責1%的測序工作,中國科學家在人類蛋白質組計劃中的參與程度有了質的飛躍。目前,中國科學家負責了人類三條染色體上的蛋白質研究,分別是1號染色體、8號染色體、20號染色體。2022年起,暨南大學教授、承啟生物首席科學家張弓博士被選為國際人類蛋白質組計劃的常委,是唯一來自亞洲的常委。
國際人類蛋白質組計劃所產生的人類蛋白質數據載于neXtProt數據庫(www.nextprot.org),是目前人類蛋白質組最權威的數據庫,由瑞士生物信息學研究院(Swiss Institute of Bioinformatics)建立和維護。隨著中國科學界對蛋白質組高質量資源的需求與日俱增,洲際訪問neXtProt數據庫常常遇到速度緩慢和卡死狀況。為此,承啟生物從2021年末起承建neXtProt數據庫的亞洲分站(https://nextprot.cn/)。但由于中國和歐洲的網絡環境差異巨大,承啟生物做了許多調整與更改,復刻了主站的全部內容與結構,方便用戶的使用習慣。同時,兩個數據庫的內容也會定期同步。亞洲分站的建設完成,將大大提升中國和其他亞洲國家利用這些高質量蛋白質數據的便捷程度,對人類蛋白質的研究、疾病機制研究和藥物開發起到顯著的推動作用。
承啟生物是HUPO(人類蛋白質組組織)的長期合作伙伴,在人類蛋白質組計劃中有很大的投入。承啟生物以高精度的大規模測序比對算法FANSe系列和翻譯組測序技術(含RNC-seq, Ribo-seq)享譽業界,并為人類蛋白質組計劃免費提供翻譯組測序服務。
]]>深圳2022年9月19日 /美通社/ -- 近日,承啟生物攜手亞馬遜云服務(AWS),在AWS上成功部署了基于FANSe算法的全自主基因測序分析云平臺,并免費向全世界開放使用。承啟生物將依托AWS構建的云計算加速系統,充分發揮FANSe算法精確高效、便捷快速、可擴展性強等性能優勢,為全世界的基因測序企業和科研機構做好服務。FANSe算法在AWS平臺的運行也標志著中國自主研發的精準組學技術解決方案走出國門走向世界,為精準醫療的發展貢獻力量。
速度慢、算不準 傳統算法短板不容忽視
隨著數字化時代的全面到來,越來越多的企業開始將應用向云端遷移,而且從外圍輔助型應用,逐步深入到生產和決策等核心業務系統,而AWS作為全球最大的云服務商,為全球數百萬企業提供了安全性高、擴展性強、可靠性高的云基礎設施,同時,還提供了來自全球數據中心的超200種功能服務,搭建了極具活力的生態系統,其較高的整體網絡質量,低延遲、低數據包丟失,應用程序靈活度高等特點滿足了公共事業政府部門、傳統企業、老牌互聯網企業、創業科技公司等不同機構企業的多元化需求。由于云計算彈性好、帶寬大、算力高、按需付費的特點,似乎十分適合基因測序分析的場景,在AWS平臺上,此前也確實有部分大規模測序分析算法運行,比如一些基于BWT的算法,然而卻少有在精準醫學和科研中的實際應用,因為應用體驗其實算不得好,主要集中在速度慢、算不準兩個問題上。
當前主流的二代基因測序是將DNA或RNA隨機打斷成無數個小片段進行并行測序,數據量極大,一個人全基因組測序數據集動輒高達300GB以上,采用通用壓縮算法可將其壓縮至1/4,上傳仍然需要幾個小時,傳完還得解壓。隨后,需要進行序列過濾、序列比對、統計檢驗、數據庫匹配等大量計算才能得出有意義的檢測結果,傳統算法運算效能不高,例如基因組突變搜尋常需要幾十個小時才能跑完整個流程。為了提升算法的速度,國內有云計算服務商部署了FPGA硬件加速的基因測序分析系統,但此類分析系統成本高昂、應用單一,難以適應日新月異的應用需求。盡管如此,其單任務處理速度耗時依然較長,例如分析完成一個人全基因組測序數據集(不計網絡傳輸)仍需接近2個小時,這種速度顯然無法適應精準醫學時代每天海量樣品的分析需求。此外,傳統測序分析算法參數復雜,如若沒有相應的專業知識和經驗試錯,不易設置最優化的參數,從而直接影響檢出率和準確率。因此,企業寧愿自行購買維護昂貴的服務器集群、花大價錢雇傭生信分析員在本地進行分析,也極少愿意在實際業務中使用云平臺。
FANSe在AWS公有云平臺上線 為基因測序行業降本增效
FANSe算法由承啟生物全自主研發,歷經多次更新迭代,如今已發展到第四代,在基因組突變搜尋、轉錄組定量等常見應用中,其準確度和穩健性顯著超越傳統算法,是迄今為止穩健性和準確性最高的比對算法。在運行速度上,其曾創下并至今保持了單機5分鐘分析完一個30X人全基因組測序數據集的世界紀錄。承啟還自主開發了專用于FANSe的壓縮算法,能將測序數據壓縮至最高1/20進行傳輸,成倍降低了網絡傳輸耗時,且無需解壓即可被FANSe處理。承啟生物自主搭建的基于FANSe算法的私有云平臺表現出了優異的性能,用戶不必購買服務器,也不必掌握艱深的生物信息學知識,點點鼠標即可完成測序分析,得到穩健而精準的結果。但在私有云上由于帶寬的限制,隨著使用承啟云分析的客戶增多,就會出現數據"扎堆"傳不上,帶寬被"擠爆"的現象,這時,即使是FANSe這類快速精準的算法也失去了用武之地。
如今,基于FANSe算法的基因測序分析云平臺"搬"到了AWS公有云平臺上,首先解決的就是網絡帶寬問題。公有云分布式的網絡總帶寬極大,可以承載很多用戶海量數據的同時上傳,這對FANSe算法來說無疑是"如虎添翼",其極為高效的優勢在公有云彈性大的特點下得以充分展現:單任務完成速度快,小規模的應用上傳完畢稍等片刻即可得到結果,大型應用如全基因組測序分析也只是需要調用更多的計算核心而已。且FANSe完全不需要任何FPGA、GPU等硬件加速,僅靠CPU運算就可實現如此高的速度,通用性較好,云服務商也無需專門配置專用硬件,在現有硬件上就可以良好運行,易于不斷升級來適應層出不窮的新應用。
其次,基于FANSe算法的基因測序分析云平臺在AWS上的成功運行,可以讓來自全球的基因測序企業和科研機構在滿足各國敏感數據不出境的法律法規要求下享有精準高效的分析服務,此前,由于涉及人類遺傳資源,許多國家和地區政府立法規定基因測序數據和樣本不允許出境,這也就使得很多境外企業和科研機構不能應用FANSe云平臺進行基因測序數據分析。而由于AWS平臺在各國都設有數據中心,完美地符合法律法規要求,就可以讓全世界都獲得基于FANSe算法的基因測序分析服務,從而推動全球基因測序、精準醫學行業的快速發展。
于企業而言,FANSe在AWS的成功運行可以為其實現降本增效,而對于承啟生物而言,在如今中美貿易戰、科技戰愈演愈烈的國際大背景下,純國產自主研發的技術能獲得全球最大云服務商的高度認可并全球部署,是中美基因測序行業逆向技術溢出效應的一個良好開端,未來,承啟生物將繼續深耕組學技術領域,以更多的國產創新技術助推行業發展,在世界舞臺上發出更多的中國聲音,賦能"精準醫學更精準"。
]]>大規模測序,又稱新一代測序、二代測序,將DNA或RNA打斷成許多小片段進行平行測序,一次測序即可得到幾百萬至幾億個小片段的核酸片段序列信息,在生物學研究、疾病診斷、流行病溯源等領域有著廣泛的應用。但產生的海量數據必須經過大量運算才能得到有生物學意義的結論,通常這需要很強算力的計算機或服務器才能在數小時內給出結果。
然而,高性能CPU和GPU高度依賴進口,不但有被國外斷供"卡脖子"的危險,而且進口CPU還可能存在后門,有泄密風險。在政府等對安全性要求極高的場合,以往一直沒有純國產計算機能滿足大規模測序的分析需求,這是由于國產CPU難以滿足需求。
承啟一直在生物信息國產化處理領域做努力,經過深入調研發現,兆芯開先CPU架構的整數性能理論上比較優秀,實際應用時需要軟件的特定優化才能發揮其全部性能潛力,因此選擇了兆芯開先CPU作為FANSe算法適配優化的目標。
承啟生物自研的FANSe算法是目前唯一規模化商用的純國產高性能大規模測序比對算法,2020年其曾創下單機5分鐘分析完一個30X人全基因組測序數據集的世界紀錄,并一直保持至今。算法完全自研帶來了顯著的優勢,可以任意根據CPU的特性而進行特別優化,而依賴于國外知識產權的傳統算法則難以做到。
日前,FANSe算法在純國產平臺上運行成功,CPU是兆芯開先KX-U6780A,固態硬盤來自長江存儲,內存芯片來自長鑫。與之對比的是一臺雙Intel E5V3 (共28核56線程)的服務器,都部署在承啟基因測序分析云平臺上。在常見的轉錄組、翻譯組、細菌菌群宏基因組等應用中,純國產計算機的性能僅比服務器慢1%~12%,使用中幾乎感覺不到其性能差異。這也是純國產計算設備在大規模測序數據處理上第一次在實際應用性能上幾乎追平國際主流服務器。
此前,承啟生物和華大智造聯合發布了國產大規模測序的全流程,將測序儀、試劑、分析算法等全面實現國產化,不依賴國外知識產權,有力地捍衛了中國精準醫學的自主權。
如今,承啟再進一步,憑借專門優化的FANSe算法,將純國產計算設備的應用性能提高到比肩國際主流的水平,標志著中國的基因測序的安全性和自主可控達到一個全新的高度,不僅能支撐諸多精準醫學應用,更能在檢驗檢疫、流行病控制、生物戰防治、法醫鑒定等直接關系到國家安全的方面大顯身手。
]]>以多項領先科研成果 在全球學術舞臺上發出"中國聲音"
蛋白質是組成人體一切細胞、組織的必要成分,是生命活動的實際承擔者。在人類基因組計劃完成后,人類基因組各基因及其功能都有待在蛋白質層面予以揭示和闡明。事實上,蛋白質組比基因組復雜得多。據專家估計,人類基因組上約2萬個基因可變化出高達數百萬種蛋白質形體(Proteoforms),因此系統性研究人類蛋白質組勢在必行。為此,國際上成立了人類蛋白質組計劃(Human Proteome Project, HPP),這是人類基因組計劃之后的又一大型國際科學合作項目。2012年,"染色體中心的人類蛋白質組計劃(CHPP)"作為HPP的核心正式啟動,其主要目的是鑒定所有人類蛋白質,迄今為止仍在進行中。
此次,張弓教授被任命為國際人類蛋白質組計劃執行委員會常務委員,表明中國關于人類蛋白質的研究已躋身世界前列,并獲得國際學術界的高度認可,徹底掌握該領域的核心話語權。
事實上,此次張弓教授的當選絕非偶然,自2013年開始,張弓教授就和其他中國科學家一起,在人類蛋白質研究領域中不斷發出中國聲音。
2013年,張弓教授團隊研發成功翻譯組測序技術,并與王通教授、何慶瑜教授研究組一同提出,翻譯組測序可以為蛋白質組質譜解析提供獨立而精密的參考信息,從而極大提高解析蛋白質組的能力。該技術于2014年被作為CHPP的核心支柱之一,并在同年被人類蛋白質組組織列為國際人類蛋白質組計劃的首要突出貢獻;
2018年,張弓教授等人在核心生物期刊Nucleic Acids Research(《核酸研究》)上發表了目前最全的翻譯組學數據庫TranslatomeDB,該數據為蛋白質組研究提供了重要的參照資源和獨立質控數據源;
2019年,張弓教授、王通教授、何慶瑜教授研究組通過翻譯組測序和蛋白質組質譜技術,發現了數千個此前被認為的"非編碼RNA"實際上可翻譯出蛋白質。該研究系統性地重新注釋了人類基因組,打開了一個全新的人類"暗蛋白質組"世界,也為研究各種重大疾病的機制、研發新型診斷和治療方法探索出了更多可能。
翻譯組(RNC-mRNA)被作為國際人類蛋白質組計劃的核心支柱之一。Reprinted with permission from J. Proteome Res. 2014, 13, 1, 50–59. Copyright 2014 American Chemical Society.
由于其突出貢獻,張弓教授被推選為2022-2024年CHPP新一屆執行委員會常委。此次張弓教授在國際舞臺上榮膺國際人類蛋白質組計劃執行委員會常務委員,亦是對其在過去10年不斷在翻譯組測序技術和蛋白質組質譜技術相關領域的肯定。未來,在以張弓教授為首的中國科學家帶領下,中國的人類蛋白質研究還將取得更多新突破,為解密人體的"健康密碼"貢獻更多力量。
以技術創新破局 促推行業發展
在學術研究者的身份之外,張弓教授的另一個身份是承啟生物的聯合創始人,在其帶領下,承啟生物也不斷為國際人類蛋白質組計劃貢獻企業力量。
作為一家致力于用基因科技為人們提供精準醫療及健康管理服務的科技公司,承啟生物建立了極為豐富的翻譯組學研究,是目前僅少數能提供多物種翻譯組測序及分析,并掌握著一系列翻譯組測序技術專利的公司,得益于此,2017年,承啟生物宣布為國際人類蛋白質組計劃免費提供翻譯組測序服務,助力國際人類蛋白質組計劃早日完成。
自2022年起,國際人類蛋白質組計劃的官方數據庫neXtProt的亞洲分站也由承啟生物建設、運營和維護。這是國際人類蛋白質組計劃第一次將官方數據庫交由亞洲公司運維,需要團隊具備海量組學數據的精準處理能力和超大型生物信息數據庫的運維能力。最終,選由承啟生物作為該數據庫的承接者,對于中國在國際人類蛋白質組計劃中核心地位的提升具有重大意義。4月,位于瑞士的neXtProt數據庫團隊開始向承啟生物同步現有數據。
如果說,張弓教授是承啟生物的主心骨,那么其原創的"中國造"FANSe算法就是承接HPP官方數據庫建立的基石。FANSe系列核酸測序算法是迄今為止穩健性和準確性最高的比對算法,同時具備很高的容錯性,被CHPP指定為核心支柱的推薦算法,可單機5分鐘分析完一個人全基因組測序數據集,刷新世界紀錄。FANSe算法另一個特性是全自主開發,這使得其可移植性和擴展性幾乎沒有任何限制,可高效運行于全國產的計算機上,在目前國際貿易爭端形勢嚴峻的情況下,無論在軟件還是硬件層面,使用FANSe算法都不會被國外卡脖子。以FANSe算法為基礎,張弓教授團隊和承啟生物陸續成功研發了一系列高精度算法和實驗方案,橫跨核酸測序、蛋白質組、代謝組等,建立了完整的國產化全組學高性能、高精度分析體系,確保了中國精準醫學的精準與安全。
未來,承啟生物將繼續依托自身的技術優勢和資源,將更多更創新的基因測序、翻譯組學、蛋白質組學等技術應用于臨床與科研,為全面解析人類蛋白質組貢獻一己之力,推動"以蛋白質組學驅動精準醫學"的發展。
]]>國際人類蛋白質組計劃(Human Proteome Project, HPP)是國際人類基因組計劃(Human Genome Project, HGP)的后續國際合作項目,最早可追溯至2000年。彼時,人類基因組計劃尚未完成,科學家們就已經意識到搞清楚人類基因組并不能完全理解人的生理病理過程,因為一個基因可以變化出幾種至數千種不同的蛋白質形體(proteoform),而蛋白質才是各種生理和病理功能的實際執行者。因此,各國科學家又策劃了人類蛋白質組計劃,力圖研究所有的人類蛋白質,這樣才能解開生命的奧秘。經過12年的前期準備,2012年人類蛋白質組計劃正式啟動。
人類蛋白質組計劃的官方數據庫是neXtProt (www.nextprot.org),目的是建立一個人類蛋白質的百科全書。這個龐大的數據庫最初由瑞士生物信息學研究所(Swiss Institute of Bioinformatics) 和GeneBio SA 共同開發,不但存儲了大量的人類蛋白質知識庫,也有大量蛋白質組、微陣列、RNA、蛋白質相互作用、蛋白質-小分子相互作用等高質量數據集,其上的數據頻繁地更新,是人類蛋白質研究的集大成者,相當于研究人類蛋白質的基礎設施。
隨著人類蛋白質研究的不斷深入,neXtProt數據庫的容量越來越大,服務器負荷日漸沉重。中國日益增長的科研實力使得中國學者訪問該數據庫的需求與日俱增,但現有數據庫的資源卻遠遠不能滿足要求。為了推動人類科學界對人類蛋白質組的研究,尋找有實力、有口碑的單位進行合作就成為其最佳選擇。最終,承啟被選定為neXtProt亞洲分站的承建單位。
雖然承啟的主營業務主要是與大規模測序相關,由于其自研的FANSe系列高精度測序比對算法而被業界熟知,但承啟在蛋白質組上的積累很早就開始了。早在2014年,承啟首席科學家張弓教授所建立的翻譯組測序技術就被作為人類蛋白質組計劃的核心支柱之一,并連續被HUPO(人類蛋白質組組織)邀請在HUPO大會上做演講。2017年,承啟在HUPO大會上宣布免費為人類蛋白質組計劃提供翻譯組測序服務。2018年,承啟發布了當時世界上最強的翻譯組學數據庫,為蛋白質組研究提供了重要的參考,該數據庫被發表在國際權威期刊Nucleic Acids Research上。2019年,張弓教授發表重大成果,通過翻譯組測序技術發現了數千個原本認為不可能編碼蛋白質的“非編碼基因”實際上能翻譯出50個氨基酸以上的蛋白質,并且這些蛋白質穩定存在,在癌癥中發揮著重要作用,人類基因組需要被系統性地重新注釋。承啟在這一研究中提供了核心的生物信息學分析服務。因此承啟被委以此重任,絕非偶然。
對承啟而言,常年具備處理海量組學數據的能力,可以完全承擔建立neXtProt所需的服務器資源和技術資源,因此neXtProt亞洲分站的建設和運維都將由承啟負責。
承啟承建人類蛋白質組計劃官方數據庫neXtProt的亞洲分站,標志著中國在人類蛋白質組計劃中的核心地位提升,這是承啟為推動人類蛋白質組計劃進展、為中國和亞洲的蛋白質科學發展的又一貢獻。
本次優秀自然科學學術論文分新一代信息技術、生命健康、新材料三大類別進行評選,共有16篇論文獲獎,其中生命健康類僅有5篇論文獲獎。
11月18日上午,2021年深圳市科協學術活動月啟動儀式暨首屆優秀自然科學學術論文成果評選頒獎活動在深圳量子科學與工程研究院舉行,張弓教授以獲獎論文作者身份受邀出席活動,穿著他標志性的Hello Kitty衣服上臺領獎。
張弓教授的獲獎論文研究的是新冠病毒S蛋白與人類ACE2受體在不同溫度下的結合特性。結果顯示,38攝氏度及以上的體溫可以有效降低新冠病毒S蛋白與ACE2的結合力,因而在新冠初期,發燒可降低新冠病毒侵染性,減輕癥狀,降低死亡率。而在新冠晚期,由于體內侵染和擴散已完成,高燒體溫則只會給人體帶來損害,無法降低死亡率。這與國內外大量臨床數據十分吻合,簡言之,“能發燒就沒大事”。這篇文章對新冠治療中第一時間降低體溫的做法發出質疑,為新冠治療方法的改進提供了重要依據。
該項研究發表在《Computational and Structural Biotechnology Journal》上,隨即得到廣泛關注,科技日報專門撰文報道。(詳情請看鏈接:http://digitalpaper.stdaily.com/http_www.kjrb.com/kjrb/html/2021-01/06/content_460576.htm?div=-1)
中國日報(China Daily)也對此進行專訪,并將此成果作為 Fighting COVID-19: the Chinese way (抗擊新冠的中國道路)專刊的一部分。(詳情請看鏈接:https://covid-19.chinadaily.com.cn/a/202101/06/WS5ff5600ba31024ad0baa0de7.html)
難能可貴的是,這篇論文是本次獲獎的16篇論文中唯一一篇主要由公司完成的科研成果,其他論文均由大學或科研院所完成。2020年2月疫情爆發期間,全國多數大學和科研院所無法正常運轉。承啟組織力量,獨辟蹊徑采用分子動力模擬方法先行計算預測,得以在嚴格封城時推進研究,同時克服種種困難,利用公司的資源和力量進行實驗驗證,最終成就了這一重要成果。因此,此次獲獎彰顯了承啟高度的社會責任感與強大的科研實力。
這是國家權威機構對FANSe的“官方認證”。
目前,幾乎所有二代測序應用需要進行mapping(快速比對),鑒于所有生物學意義的分析都高度依賴于mapping的結果,尤其是存在于reads(短讀序列)中的錯配結果,因此mapping的速度和精度都很重要。但速度與精度通常不可兼得,比如基于BWT原理的算法速度提升,但對錯配的處理無法做到完美,在實際生物學應用中容易導致假陰性和假陽性問題,國際頂級科學雜志Nature斥之為“可重復性危機”(2012年)。2017年,JAMA Oncology雜志發布結果,將40份癌癥病人樣本送給兩家世界知名測序公司進行測序,絕大部分樣本的兩份突變報告完全不同。因此二代測序技術在臨床上亂象叢生,難以保證高通量下的準確性。
為此,張弓教授開始研發FANSe算法,力圖建立穩健精準的二代測序基礎技術。2011年,FANSe1代研發成功,奠定了準確穩健的數學基礎,錯誤率可低至10-9以下,一定條件之下可以100%保證得到數學最優解;2014年,FANSe2代研發成功,實現了并行化處理,同年開始部署在承啟生物的云平臺上;2015年起,高性能的FANSe3開始研發,2017年開始在國際權威科學期刊上亮相,2018年首次實現了單機1小時全基因組、1秒鐘全轉錄組的驚人分析速度;2020年,云平臺專用的FANSe4代在承啟生物創造了單節點5分鐘分析完一個人全基因組測序數據集的新紀錄。由于其強悍的性能和全自主的特點,FANSe被作為科技部國家重點研發計劃《醫學生命組學數據質量控制關鍵技術研發與應用》核酸測序的底層算法,為組學領域的質控標準貢獻關鍵力量。
承啟生物創始人、首席科學家張弓教授表示,“承啟生物的解決方案Chi-Cloud+FANSe3在攻破了無數個難題后,成功提升基因檢測分析速度。這一突破最值得關注的是全自主研發的FANSe算法,實現精準度之上的速度飛躍;此外,這項中國原創技術不依賴專用加速芯片,讓基因測序不再被國外供應商‘扼住咽喉’,大幅降低成本,為精準醫療、普惠醫療貢獻力量。”
全自主技術 基因測序不再被扼住咽喉
核心技術是國家與企業的安身立命之本,只有實現核心技術自主才能不被扼住命運的咽喉。承啟生物歷經6年自主研發的FANSe算法已進入第3代,張弓教授透露,這一算法不依賴專用加速硬件,從根本上避免芯片禁運風險,這項中國高端醫學技術將不再受制于人。
當前全球基因組測序大部分使用的基礎算法為國外的BWA、Bowtie等系列算法,單機運行效率并不高。為提高單機運算速度,常見方案是采用GPU、FPGA等專用芯片進行加速。但受國內芯片技術局限,目前國內僅有自主CPU,而高性能通用計算GPU、FPGA等芯片依然被國外壟斷。承啟的FANSe3算法只使用CPU進行計算,不依賴專用加速芯片,可做到在國產硬件上高效運行。此外,單機5分鐘分析全基因組的高效能,意味著在對數據保密性要求的特殊領域(如軍事、公共安全、特定的醫療場景等),可直接采用單機分析方式(Chi-Cloud小云模式),無需連接互聯網。算法針對國產測序儀進行特別適配和優化,保障精準醫學的國家安全。
為應對國產CPU性能與國際頂尖水平的現實差距問題,FANSe3和承啟云平臺架構在設計之初便支持大規模分布式運算和自適應任務調度,擴展性強,可利用多個CPU共同運算一個任務。“單機的性能弱了怎么辦?可以把2臺、3臺、4臺甚至100臺機器捆起來一起用,彌補單個CPU性能的不足,達到同樣甚至更好的使用體驗。”張弓教授說。
“單機5分鐘”推動精準醫學“更快、更便宜”
由于核心技術完全自主,承啟生物團隊可以對算法不斷改進,使FANSe3代算法在運算速度上實現遠超國外算法的飛躍。“單機5分鐘”的意義不僅限于提升時間和效率,更在于助推精準醫學普及。
目前先進的測序儀已能在一天內完成測序實驗,但數據分析用單機通常需要幾十個小時才能完成,但對許多臨床急性病癥,時間就是生命。使用國外算法,各大云服務提供商在使用幾十上百臺服務器的情況下,僅能將分析時間壓縮至半小時到一小時,而使用FPGA等專用加速芯片,也只能實現1-2小時的分析時間,而這些都需要巨額的硬件投入和專業維護,能耗也居高不下。
本次承啟生物實現的單機5分鐘分析突破,可讓大型測序中心擺脫超算集群和專業人員維護需求;硬件購置費用大大降低,能耗也大為降低,綠色環保。
單機5分鐘的速度,網絡傳輸是整體分析中的瓶頸。一個人全基因組測序數據文件可高達240GB以上,以千兆網的速度都需要傳輸40多分鐘。為解決這一問題,承啟為Chi-Cloud開發了獨有的壓縮算法,達到了1:10以上甚至1:20的壓縮率,縮短原本漫長的傳輸時間,多節點間的任務調配也更得心應手;與FANSe3算法深度配合,無需解壓即可直接運算。
使用高速的網絡接入,將數據傳輸至承啟生物的服務器上,測序中心甚至不需購買和維護服務器,基因組測序的分析成本降至幾乎可以忽略不計的程度。
所有這些,都讓全基因組測序分析“更快”。以超高速的運算助力重癥患者“與死神賽跑”,盡力避免治療“遲了一步”的遺憾,為醫生、患者爭取更多時間。
FANSe3算法+全鏈條穩健 實現“更精準”
與速度同樣重要的是算法的準確性,張弓教授強調,“準確性是所有優勢的前提。FANSe3是全球罕見的準確率有數學證明的算法,錯誤率已可穩定在十億分之一以下。經大量實驗表明,FANSe系列算法在基因組突變分析、轉錄組表達分析等應用上,準確度幾乎為100%,秒殺國外基于BWA、Bowtie等算法方案,并在醫學科研和臨床應用中分析超過50萬例樣本。”
2014年,FANSe算法成為國際人類蛋白質組計劃核心支柱的首選分析算法,為全面解析人類蛋白質組做出了關鍵貢獻。2017年9月,在國際人類蛋白質組計劃世界大會上,以張弓教授等為代表的廣東科學家團隊利用FANSe系列算法,發現數千個以往被認為不可能存在的人類“新蛋白質”。最近,承啟云平臺在中國自主研發的基因組測序標準數據集的評測上,突變鑒定準確性在全部幾十個標準數據集上均明顯高于國外主流算法。
算法足夠準確了,但另一個無法回避的事實是要實現基因測序的準確性,算法只是一方面,另一方面,從采樣、運輸、前處理到測序的實驗全過程必須萬無一失,承啟生物稱之為“全鏈條穩健”。
張弓教授對“全鏈條穩健”進行解讀:“為什么有些分析結果容易出問題?除部分算法不準確的因素,樣本本身在采集、保存和運輸過程中發生改變,也會導致誤差出現。而分散、小型化測序由于高度依賴專業人員,在現有的經濟條件下暫時無法大量推廣,也就無法避免樣品保存和長途運輸,無形中增加精準醫療普及的難度。”正因為國內基因測序受限于各種技術的不穩定性,市場仍未實現真正發展。
而承啟生物的“穩”,來源于對整個實驗過程細節的精益求精和自主研發。承啟生物通過自有的保存運輸技術方案,在不使用干冰、冰袋的情況下,DNA和RNA樣品可以經受住-55~45°C的溫差波動三天而保持完好。在樣本前處理和建庫階段,承啟研發的實驗方案與“標準實驗方案”不同,即便樣本發生降解,也能通過實驗方法和算法容錯等方法,實現近乎100%的準確性。原創技術帶來的穩健性擴寬了基因檢測的應用場景,讓基因檢測不再依賴大量專業人員,門檻大大降低。穩健的體系也減少了因中間步驟造成的重復測定,進一步壓縮了時間、降低成本。
“快、穩、準”制定標準,助力精準醫療大爆發
當未來全基因組測序成為常規檢驗,全國每天處理的樣本將達到海量。基于承啟生物自主技術的超精準和超高速,可解決海量樣本分析中的瓶頸與痛點,讓基因測以低成本實現精準醫學的落地,迎來廣泛應用場景,為行業發展提供有力支撐。
當前,承啟生物的自主化“快、穩、準”的技術體系,被認定為國家重點計劃《醫學生命主學觀質量控制關鍵技術與示范應用》核酸組學部分的基礎,也將成為今后國家相關質控標準的重要依據。標準的建立,將規范整個行業,助力精準醫學應用的行業爆發,也為承啟生物開啟更廣闊的發展前景。
]]>