Basecamp Research發布Trillion Gene Atlas（萬億基因圖譜），規模化推動AI設計藥物研發

Basecamp Research

2026-03-20 09:48 2883

簡體中文

English
繁體中文
日本語
???
Malay
Thai

該圖譜將通過在全球數千個點位采集超過1億個新物種的全新基因組數據，將已知進化遺傳多樣性擴大100倍。
通過與Anthropic、Ultima Genomics和PacBio合作，并借助NVIDIA AI基礎設施的支持，Basecamp Research計劃將原本需要20多年的生物數據收集與分析工作壓縮至兩年內完成。
對EDEN模型的訓練揭示了新的擴展定律：隨著生物數據集規模擴大、信息愈加豐富，AI能力將實現跨越式提升，為構建能夠針對不同疾病和治療類型設計新型藥物的系統打開了大門。

得克薩斯州奧斯汀與加利福尼亞州圣何塞2026年3月20日 /美通社/ -- 前沿生物設計AI實驗室Basecamp Research今日宣布啟動Trillion Gene Atlas（萬億基因圖譜），這是一項里程碑式科研計劃，旨在實現萬億級基因規模的生物數據生成與建模。 Trillion Gene Atlas與Anthropic、Ultima Genomics和PacBio合作啟動，并依托NVIDIA AI基礎設施，目標是通過在全球數千個點位采集超過1億個物種的基因組數據，將已知進化遺傳多樣性擴大100倍。

這得益于Basecamp Research不斷擴大的全球生物多樣性合作網絡。項目的最終目標是為AI系統提供海量、多樣化的訓練數據，使其能夠通過學習進化規律，按需設計新型藥物。

Basecamp Research聯合創始人兼首席執行官Glen Gowers在奧斯汀舉辦的西南偏南（SXSW）大會上表示：“當前的生物AI模型僅基于地球上極小一部分生物樣本數據進行訓練。 Trillion Gene Atlas將已知基因領域的規模，拓展至遠超公共數據庫數個量級的水平。這一量級的訓練模型將為可編程治療藥物的設計建立新的范式。”

這個規模堪比人類基因組計劃（Human Genome Project）的項目，在西南偏南大會健康專場和圣何塞NVIDIA GTC大會期間正式發布。

破解生物數據瓶頸

隨著模型體量和算力大幅提升，多樣化數據已成為AI藥物開發和落地應用取得突破的關鍵推動因素。目前所有基于序列的基礎模型，都依賴于同一批公共數據庫的不同版本，其中80%的訓練數據來自一個序列總量不到2.5億條的公共數據庫。

Basecamp Research于今年1月發布的EDEN基礎模型，完全基于BaseData?專有基因組數據庫進行訓練，成功突破行業進化“數據壁壘”。該數據庫目前規模已超過所有公共資源數據庫總和的10倍以上。 EDEN模型通過學習100萬個新發現物種、數量達史無前例的100億個全新科學基因，為生物領域AI揭示了至關重要的新型擴展定律。

數據集多樣性的大幅提升，使EDEN超越了簡單的預測范疇，成為全球首個能夠直接根據疾病需求設計多樣化治療藥物的模型。在濕實驗室驗證中，EDEN無需任何人體或臨床數據，即可在人類原代T細胞中實現零樣本活性檢測。該模型已在多種前沿治療模態中產生有效成果，尤其開創性推出AI可編程基因插入（aiPGI）技術來植入健康基因，并設計出靶向抗菌肽，針對重點病原體的有效命中率達97%。

Trillion Gene Atlas正是基于這一技術路徑，大幅拓展了適用于AI訓練的已知“生物互聯網”中基因組數據廣度與場景深度。

Basecamp Research首席技術官Phil Lorenz補充道：“僅靠更大的模型是不夠的。 EDEN模型已證明，更高質量、全場景化的數據，能讓生物學領域的AI性能呈現更陡峭的提升曲線。 Trillion Gene Atlas將這一效應再放大100倍。”

全球生物多樣性合作網絡

過去六年間，Basecamp Research已在31個國家/地區建立了科研合作網絡，構建了一個專為AI訓練設計、可擴展的進化基因組學研究體系。公司創新融合新的監管與經濟合作框架，采用完全離網的DNA測序技術，從傳統實驗室無法觸及的生態系統中采集高質量的基因組數據。

此類合作以知識交流、本土科研能力建設為基礎，同時遵循新興數字序列信息監管法規，簽訂公平的獲取與利益共享協議。該框架能夠實現負責任、大規模、高質量的基因組數據采集，也為合作地區投入科研基礎設施建設與人才培養。

作為圖譜發布的一部分，Basecamp宣布在智利、阿根廷達成新的合作伙伴關系，并拓展南極洲的協作，進一步擴大其全球生物多樣性網絡。

攜手Ultima Genomics、PacBio和NVIDIA，實現數據生成和算力升級

Trillion Gene Atlas的實現得益于超高通量短讀長和長讀長測序技術以及加速計算的進步。 Basecamp已與Ultima Genomics和PacBio達成合作，實現工業化規模的測序，涵蓋數據豐富、高精度的長讀長測序。

Ultima是超高通量下一代測序（NGS）系統開發商。 Ultima最新測序系統UG200系列升級了獨有的晶圓基測序架構，能夠以低成本實現工業化規模的高通量、全基因組及多組學測序，為Trillion Gene Atlas等項目的開展提供了支撐。

Ultima Genomics創始人兼首席執行官Gilad Almogy表示：“與語言或計算機視覺等其他領域相比，生物學領域長期以來一直面臨數據匱乏的問題，因為研究人員缺乏大規模生成數據的工具。我們堅信，AI將對人類對生物學與健康的認知產生深遠影響。UG200系列從設計之初就旨在提供生物AI（BioAI）所需的海量數據集，以實現這一宏偉愿景。很高興我們的技術能夠支持Basecamp實現其愿景，并推動像Trillion Gene Atlas這樣的創新項目。”

PacBio總裁兼首席執行官Christian Henry表示：“PacBio的HiFi測序技術可提供高精度的長讀長數據，保留完整的基因組上下文信息，并能在復雜樣本中實現亞種甚至菌株級的分辨率解析。高保真數據為生物AI模型提供了可靠、信息豐富的基礎，使其能夠大規模地向自然學習，支撐Trillion Gene Atlas之類的項目推進。”

Trillion Gene Atlas將借助NVIDIA的加速計算基礎設施，處理拍字節級規模的海量基因數據。作為這項工作的一部分，Basecamp計劃利用NVIDIA Parabricks工具，大幅加速宏基因組組裝。此次合作聚焦于先進工程技術與新型算法策略的研發，優化復雜環境樣本的重構方式。得益于這種加速，原本需要20多年完成的千萬億級DNA堿基對處理工作，預計可在不到兩年的時間內完成。

通過并行數據處理、自動標注和大規模模型訓練，合作伙伴期望將原本需要20多年處理時間的任務壓縮到兩年以內。這種對測序、組裝、標注和模型訓練的效率升級，旨在擴展生物基礎模型在治療藥物研發領域的性能與應用范圍。

創建端到端的智能體治療藥物設計工作流

Anthropic參與此次合作，是其拓展生命科學領域能力、將Claude接入更多科研平臺的重要布局。通過與Claude for Life Sciences團隊合作，目標是利用Trillion Gene Atlas和EDEN，進一步提升Claude的科研協作能力，為科學家與臨床醫生提供更高效支持，助力科研機構向公眾落地前沿成果。

通過結合Claude的高級推理能力、EDEN的療法設計能力，以及NVIDIA CUDA-X Libraries來處理非結構化數據，該項目旨在創建一個集成工作流，用于解釋復雜的臨床數據，并將其直接轉化為治療藥物設計。

Trillion Gene Atlas建立在三大支柱之上：大規模DNA測序、全球數據供應合作以及先進計算技術。結合能夠推理復雜數據的AI系統，這些基礎有助于將龐大的數據集轉化為治療藥物研發成果。通過將可供AI使用的進化數據再增加100倍，Basecamp Research致力于實現更高效、更系統化的藥物設計，延續 EDEN模型在基因治療和抗擊耐藥細菌等領域取得的前期進展。

消息來源：Basecamp Research