《科創(chuàng)板日報》3月7日訊(記者 金小莫)在需求欄中輸入對目標蛋白質(zhì)的描述參數(shù),比如序列長度、結構對稱性、目標功能、結合配體結構、化學計量等;點擊“運行任務”鍵;很快,電腦屏幕上就顯示出了符合參數(shù)要求的蛋白質(zhì)三維結構。
(資料圖)
這是記者在天壤XLab看到的相關應用。
2022年10月,天壤XLab上線了蛋白質(zhì)自由設計平臺xCREATOR,面向高校師生免費開放,不足半年,該平臺已累積有五六百用戶。日前,《科創(chuàng)板日報》記者從天壤XLab處進一步了解到,今年2月下旬,團隊自主研發(fā)的蛋白質(zhì)擴散模型也已正式上線。
支撐這些平臺的技術就是蛋白質(zhì)結構的自動生成技術,后者也是ChatGPT的核心技術之一。另有跡象表明,自動生成技術在生命科學領域的應用正在逐漸增多:
今年2月,科創(chuàng)板合成生物學上市公司凱賽生物宣布領投AI蛋白質(zhì)設計平臺公司分子之心的新一輪戰(zhàn)略投資;同在2月,初創(chuàng)企業(yè)賽得康宣布完成了數(shù)千萬元的種子輪融資,AI設計+蛋白模塊是企業(yè)的關鍵詞。
“其實,ChatGPT所依托的AI生成技術并非新技術,很多公司都已經(jīng)有所積累并陸續(xù)開始應用了。之前有個語言模型BERT就被用于蛋白質(zhì)生成了,取得了不錯的成果?!币患倚袠I(yè)企業(yè)對記者表示,只不過,當ChatGPT走熱之后,AI生成技術在生命科學領域的應用也逐漸走進了公眾的視野。
記者注意到,當互聯(lián)網(wǎng)科技向AI迭代升級后,很快,AI的應用就從TMT涌向了生物醫(yī)藥,AI+藥物發(fā)現(xiàn)一度成為一級市場的投資熱詞;類似的情況,會不會也發(fā)生在ChatGPT+藥物發(fā)現(xiàn)上呢?
▌氨基酸恰類似于大數(shù)據(jù)
記者了解到,自動生成技術之所以可應用到蛋白質(zhì)的發(fā)現(xiàn)上,有這樣的科學邏輯支撐:
蛋白質(zhì)是由氨基酸通過不同的排列組合聚合而成,每個蛋白質(zhì)的三維結構又決定了它的功能作用。在算法人的眼中,氨基酸就類似于數(shù)據(jù)、蛋白質(zhì)的三維結構類似于圖像,通過數(shù)據(jù)及圖像的不同排列組合訓練,AI就能實現(xiàn)自生成。
在業(yè)內(nèi),這一邏輯也被稱為AIGP,即AI Generated Protein(AI生成蛋白質(zhì))。
在天壤XLab,記者看到了相關應用:
在需求欄中輸入對目標蛋白質(zhì)的描述參數(shù),比如序列長度、結構對稱性、目標功能、結合配體結構、化學計量等;點擊“運行任務”鍵;很快,電腦屏幕上就顯示出了符合參數(shù)要求的蛋白質(zhì)三維結構。
去年10月,具備該功能的xCREATOR工作臺正式上線,面向高校師生免費開放;今年2月下旬,團隊自主研發(fā)的蛋白質(zhì)擴散模型也正式上線。
“我們還附加了一系列設計蛋白質(zhì)的分析功能,可以對各類由算法自動生成的蛋白質(zhì)結構進行打分,分數(shù)越高表示該自動生成的蛋白質(zhì)結構的可實現(xiàn)性越高?!碧烊繶Lab實驗室負責人苗洪江博士介紹稱。
在ChatGPT中,需要人工對數(shù)據(jù)進行標注、打分,以此來訓練算法更會聊天;AIGP也是類似的邏輯,但不同的是,如果科研人員要想知道某一由算法自動生成的蛋白質(zhì),其可實現(xiàn)性到底高不高,還需要通過進一步的濕實驗來驗證,因此,AIGP的技術壁壘也就更高。
為了降低這一技術門檻,引入打分模型算法是很多企業(yè)的選擇。
前述行業(yè)企業(yè)對《科創(chuàng)板日報》記者進一步解釋了生成算法與打分算法的工作邏輯:首先,由生成模型算法生成蛋白質(zhì);其次,由人工對經(jīng)打分模型篩選出的、得分較高的蛋白質(zhì),再進行實驗驗證,并反饋給打分模型算法?!岸呔拖窭项B童的左右兩手互搏,通過不斷增強學習,來提高算法的質(zhì)量?!?/p>
▌探索大分子宇宙
有了AIGP,對于科研人員來說,最大的獲益無疑是加速了研發(fā)的進展。
“以100個氨基酸長度的蛋白質(zhì)為例,其序列的排列組合有高達20^100=1.3×10^130種可能!相比之下,人類可觀測宇宙總原子數(shù)量僅有10^82,以人力來測試、構想這樣龐大的蛋白質(zhì)空間可以說是不可能完成的任務?!泵绾榻Q,如今AI模型能夠精準定位到符合要求的蛋白質(zhì)再由研發(fā)人員進行實驗檢驗,蛋白質(zhì)設計效率前所未有的提升使其終于可以走進產(chǎn)業(yè)應用中去。
更重要的是,過去基于偶然性的開發(fā)工作也極大限制了人類對于蛋白質(zhì)的開發(fā),人類已知的天然蛋白質(zhì)數(shù)量為10^15,而潛在的從頭設計蛋白質(zhì)數(shù)量遠超于已知天然蛋白質(zhì)。
以人體內(nèi)的蛋白質(zhì)來說,“目前大多數(shù)人類蛋白質(zhì)功能研究都聚焦于約5000種研究較多的人類蛋白質(zhì),而人體內(nèi)還存在著一個巨大的蛋白質(zhì)世界。事實上,這些功能未知的蛋白質(zhì)可能掌握著打開解決人類重大疾病的鑰匙,如癌癥、阿爾茲海默癥以及多種罕見病?!泵绮┦拷忉尫Q。
除生命科學外,新材料、新能源和食品等領域?qū)δ艿鞍踪|(zhì)也存有巨大的需求。“整個蛋白質(zhì)世界還擁有巨大的潛在探索空間,蘊藏著無窮無盡的資源,具有極大應用價值!”天壤CEO薛貴榮博士表示,蛋白質(zhì)領域的ChatGPT會成為像水、電、煤一樣成為工業(yè)發(fā)展支撐,開辟出全新的科學時代。
《科創(chuàng)板日報》記者進一步了解到,如何獲取行業(yè)數(shù)據(jù)、如何通過實驗驗證來對數(shù)據(jù)進行標注進而得到高質(zhì)量的反饋數(shù)據(jù)仍然是限制AIGP大爆發(fā)的主要攔路虎。基于此,開源共享仍是目前行業(yè)企業(yè)們的主要選擇。
關鍵詞:
網(wǎng)站首頁 |網(wǎng)站簡介 | 關于我們 | 廣告業(yè)務 | 投稿信箱
Copyright © 2000-2020 hngelin.com All Rights Reserved.
中國網(wǎng)絡消費網(wǎng) 版權所有 未經(jīng)書面授權 不得復制或建立鏡像
聯(lián)系郵箱:920 891 263@qq.com
吕梁市| 上林县| 松阳县| 垦利县| 禹州市| 聂荣县| 黄平县| 芮城县| 波密县| 永嘉县| 望江县| 社会| 阳高县| 遂昌县| 东阿县| 福安市| 延长县| 弥勒县| 乌恰县| 普定县| 叶城县| 泸西县| 南部县| 锦州市| 喜德县| 定陶县| 拉萨市| 鹿邑县| 阳高县| 神木县| 海安县| 湄潭县| 任丘市| 万州区| 泾源县| 津南区| 启东市| 东莞市| 鹿邑县| 宜春市| 上饶市|