可從海量生物文獻(xiàn)中發(fā)現(xiàn)具有目標(biāo)功能的關(guān)鍵基因。

中科院+北大,推出基因挖掘大模型

2025-04-16 09:27:33發(fā)布     來源:多知    作者:Penny  

  多知4月16日消息,中國科學(xué)院深圳先進(jìn)技術(shù)研究院與北京大學(xué)合作團(tuán)隊(duì)近日在《Science Advances》發(fā)表研究成果,推出全球首個(gè)面向合成生物學(xué)元件挖掘的大語言模型SYMPLEX。該模型通過融合領(lǐng)域大語言模型訓(xùn)練、專家知識庫對齊及生物信息分析,實(shí)現(xiàn)了從海量文獻(xiàn)中自動化挖掘高價(jià)值功能基因,并精準(zhǔn)評估其工程化應(yīng)用潛力。

  該模型能夠自動高效地從海量生物文獻(xiàn)中發(fā)現(xiàn)具有目標(biāo)功能的關(guān)鍵基因,并進(jìn)行精準(zhǔn)篩選和功能驗(yàn)證,為后續(xù)的蛋白質(zhì)功能設(shè)計(jì)、生物制劑開發(fā)以及生物制造的應(yīng)用提供科學(xué)依據(jù)。

  研究團(tuán)隊(duì)以mRNA疫苗關(guān)鍵酶——加帽酶為驗(yàn)證案例,成功挖掘出催化效率超國際商業(yè)產(chǎn)品2倍以上的新型酶。SYMPLEX平臺采用模塊化設(shè)計(jì),具備文獻(xiàn)智能提取、基因功能標(biāo)注及知識中樞三大核心功能,現(xiàn)已開放免費(fèi)使用。

  根據(jù)介紹,SYMPLEX突破性在于通過結(jié)構(gòu)化知識庫規(guī)避大模型幻覺,同時(shí)生成細(xì)粒度基因功能知識樹,為合成生物學(xué)研究提供新范式。