久久日精品,国产亚洲精品合集久久久久,污污污污污污网站,伊人亚洲综合影院首页,日本亲与子乱人妻hd

百圖生科首席AI科學(xué)家宋樂:人工智能落地進入“大模型”時代

今年,百圖生科首席AI科學(xué)家宋樂教授擔(dān)任ICML(International Conference on Machine Learning)大會主席,作為Program Chair,全面負責(zé)大會程序委員會的組建和論文評選等管理工作。中國生物計算企業(yè)高管出任AI頂級學(xué)術(shù)會議的此類職位,也可以被視作中國生物計算行業(yè)崛起的風(fēng)向標(biāo)。ICML作為國際機器學(xué)習(xí)學(xué)會主辦的國際會議,被公認是人工智能、機器學(xué)習(xí)領(lǐng)域最頂級的國際會議之一,在整個計算機科學(xué)領(lǐng)域享有崇高聲望。

據(jù)悉,作為全球著名的機器學(xué)習(xí)和圖深度學(xué)習(xí)專家,宋樂自2008年起就在卡內(nèi)基梅隆大學(xué)和喬治亞理工學(xué)院從事生物計算相關(guān)研究,利用機器學(xué)習(xí)技術(shù)對靶點挖掘、藥物設(shè)計取得了一系列突破成果。在多年學(xué)界探索之后,他于去年8月加入百圖生科,“投身業(yè)界,更多是因為可觀測的生物數(shù)據(jù)量越來越多,比如說蛋白質(zhì)的序列數(shù)據(jù)已經(jīng)超過十億條。其次是計算能力的提升,再次是AI算法能力的積累,AI和制藥領(lǐng)域出現(xiàn)了很多新的模型和方法,能夠更準(zhǔn)確的預(yù)測。當(dāng)然,目前的研究僅僅是冰山一角,AI+Drug還有無比廣闊的探索空間,我對這個賽道非常期待。”

“從ICML今年收錄的千篇論文情況來看,像醫(yī)學(xué)、生物學(xué)、蛋白質(zhì)、藥物、分子、化學(xué)等關(guān)鍵詞在文章標(biāo)題和摘要被提及次數(shù)總計超過200次,成為單一最大的研究方向之一。我們已經(jīng)看到越來越多的人工智能專家在開始關(guān)注生物醫(yī)藥這個領(lǐng)域”,宋樂表示。

人工智能落地已經(jīng)進入“大模型”時代。大規(guī)模預(yù)訓(xùn)練模型使用自監(jiān)督學(xué)習(xí)的方法讓模型對海量無標(biāo)注數(shù)據(jù)中的規(guī)律和知識進行提煉、學(xué)習(xí),當(dāng)面向任務(wù)和場景應(yīng)用時,只需要少量的任務(wù)標(biāo)注數(shù)據(jù),就能通過持續(xù)微調(diào)得到在應(yīng)用場景中非常好用的模型,對具體任務(wù)的賦能效果顯著,大規(guī)模預(yù)訓(xùn)練模型在NLP、CV等多類任務(wù)上已經(jīng)展現(xiàn)出強大的優(yōu)勢。

在宋樂看來,人工智能大模型的下一個奇跡,將出現(xiàn)在生物計算領(lǐng)域,生物計算行業(yè)將出現(xiàn)規(guī)模最大、效果最好、價值最高的大模型,成為行業(yè)的重大基礎(chǔ)設(shè)施,不僅徹底改寫藥物研發(fā)的技術(shù)能力,也將對人工智能底層技術(shù)發(fā)展起到巨大的推動作用,反哺其他行業(yè)的AI技術(shù)發(fā)展。

“人體這個多尺度的復(fù)雜網(wǎng)絡(luò),加上多模態(tài)、高噪音的超大規(guī)模生物數(shù)據(jù),需要獨有的超大模型來提升研發(fā)效果,這也是百圖生科在全力攻堅的事”。根據(jù)宋教授的介紹,百圖生科正圍繞建模免疫系統(tǒng)復(fù)雜運作機理的需求,構(gòu)建一系列對不同生物物質(zhì)、不同互作關(guān)系具有表征能力的大模型,覆蓋細胞、蛋白、基因、免疫系統(tǒng)等多個層面,而不只局限于熱門的蛋白質(zhì)結(jié)構(gòu)預(yù)測領(lǐng)域。但即使在蛋白質(zhì)結(jié)構(gòu)預(yù)測這個已經(jīng)被AlphaFold2充分挖掘的問題上,大模型也能帶來顯著的提升。百圖生科與百度合作開發(fā)了這個領(lǐng)域的大規(guī)模預(yù)訓(xùn)練模型模塊,在沒有同源序列的幫助下對蛋白質(zhì)的結(jié)構(gòu)預(yù)測,對標(biāo)AlphaFold2預(yù)測的TM score結(jié)果,從0.3顯著提高到0.67。

“這只是起點,我們正在開發(fā)的是超過千億參數(shù)的超大規(guī)模多模態(tài)預(yù)訓(xùn)練模型體系,我們把它稱作BioMap X(xTrimo,Cross-modal Transformer Representation of Interactome and Multi-Omics),它將是全球最大的生物多模態(tài)預(yù)訓(xùn)練模型體系,可用于生物醫(yī)藥領(lǐng)域包括靶點發(fā)現(xiàn)和藥物開發(fā)的多個環(huán)節(jié)”。利用這個大規(guī)模預(yù)訓(xùn)練模型的初步基礎(chǔ),百圖生科已經(jīng)在一系列具體任務(wù)問題上,特別是一些已有數(shù)據(jù)很少的問題上,收獲了明顯的效果。例如,圍繞組合藥物協(xié)同效應(yīng)的預(yù)測,大幅度的超過了SOTA水。目前,在一些實驗數(shù)據(jù)很稀缺的免疫細胞上進行的靶點發(fā)現(xiàn)任務(wù),也取得了良好的前期效果,即將完成驗證后對外公布。

超大規(guī)模模型是AI行業(yè)的明珠,背后需要巨大的投入和綜合的底層技術(shù)能力。“藥物發(fā)現(xiàn)問題的商業(yè)價值極高,比起其他任務(wù)場景,更能支持大規(guī)模模型的建設(shè)投入,目前百圖生科作為臺型生物計算企業(yè)敢于這樣做,未來一定也會有更多企業(yè)投身到這個趨勢中,最終推動生物計算大模型成為AI屆最亮的明珠”。

超大規(guī)模模型建設(shè)離不開超大規(guī)模的計算資源和高能高并發(fā)計算能力。據(jù)介紹,百圖生科的團隊,包括一大批百度主任架構(gòu)師、阿里P9專家這樣的高級人才,他們在學(xué)術(shù)上累計發(fā)表過上千篇論文,在工程上實際構(gòu)建過超大規(guī)模的知識圖譜、計算集群,具有豐富的計算經(jīng)驗。百圖生科也得益于百度的助力,搭建了高彈的超大規(guī)模計算集群,實現(xiàn)了大模型的高效訓(xùn)練。同時,大模型能力的芯片化是下一步的關(guān)鍵方向。百圖生科正與包括百度昆侖芯科技等領(lǐng)先芯片企業(yè)合作,共同研發(fā)生物計算的專用芯片,通過探索與前沿生物計算算法相匹配的前沿芯片設(shè)計,將大模型和生物計算特色需求的能力固化到芯片上。

超大規(guī)模生物數(shù)據(jù)無疑是建設(shè)大模型的另一個關(guān)鍵點。截止目前,百圖生科的免疫圖譜已經(jīng)形成了超十億級的實體數(shù)據(jù)、百億級的互作關(guān)系數(shù)據(jù)、千億級的關(guān)聯(lián)數(shù)據(jù),為大模型的打造提供了基礎(chǔ)。這些海量數(shù)據(jù)的形成,來自于百圖生科從創(chuàng)立之初就多管齊下的大投入決心和AI、生物技術(shù)能力建設(shè)。

宋樂認為,公開數(shù)據(jù)此前一直被認為存在較高的噪音和不準(zhǔn)確,但這正是大模型所能消化的數(shù)據(jù)燃料,也是AI知識圖譜等技術(shù)在數(shù)據(jù)清洗上的優(yōu)勢所在。百圖生科構(gòu)建了大規(guī)模的挖掘引擎,從論文挖掘和知識抽提,到大規(guī)模生物數(shù)據(jù)庫的清洗整合、AI提升batch effect(批次效應(yīng))消除,再到利用知識圖譜推理技術(shù)發(fā)現(xiàn)分歧。運用高通量濕實驗?zāi)芰θヲ炞C,公開數(shù)據(jù)的整合挖掘仍然大有可為。

更關(guān)鍵的是海量自產(chǎn)數(shù)據(jù)的獲得。“高通量干濕實驗閉環(huán)是生物計算的未來,這也是百圖生科一直打造的差異化優(yōu)勢,過往一年我們也在不斷努力,構(gòu)建了一萬多米的高通量實驗室,自主研發(fā)了世界首創(chuàng)的免疫模擬系統(tǒng),從而能產(chǎn)生海量的數(shù)據(jù)和高速的驗證閉環(huán)。我們的系統(tǒng)具有對蛋白質(zhì)、細胞的高通量讀寫能力,能實現(xiàn)把物理世界的生物體快速讀取,獲得他們的幾十個參數(shù)維度,也能實現(xiàn)對多種蛋白、細胞的快速制備/編輯/改寫,讓他們能驗證模型的結(jié)果,形成快速的閉環(huán)。”

在高通量實驗系統(tǒng)打造的過程中,百圖生科融合了世界一流的生物技術(shù)團隊和AI團隊。生物團隊中,上百位來自大藥企、著名實驗室的專家,參與過100個以上的新藥研發(fā)項目,掌握全鏈條的世界領(lǐng)先技術(shù),例如免疫細胞的基因編輯技術(shù)等。AI團隊中,有一批在細胞視覺、運籌優(yōu)化等領(lǐng)域經(jīng)驗豐富的專家,他們和生物團隊融合,利用細胞視覺大大提升原有生物檢測方法的參數(shù)維度、反應(yīng)速度、成本優(yōu)勢,不僅可以帶來更好的數(shù)據(jù),還可以用于閉環(huán)控制、確保生物系統(tǒng)的穩(wěn)定。“這就是我們自己研發(fā)的激光雷達,有獨家的激光雷達能力,我們希望能成為最強大的‘自動駕駛’公司”。

在技術(shù)能力之外,百圖生科還通過強大的臨床合作網(wǎng)絡(luò),為高通量實驗?zāi)芰φ业礁嗟挠梦渲亍?ldquo;多組學(xué)數(shù)據(jù)、臨床科研數(shù)據(jù)對于模型構(gòu)建和算法提升幫助很大,因此公司成立之初就投入10億元建設(shè)‘免疫圖譜卓越計劃’,已經(jīng)與十余家中國TOP 30的醫(yī)院建立了合作,一批臨床醫(yī)院的著名專家、院長、主任成為了我們的合作PI,我們也很快會推出‘卓越計劃’二期來加速這個過程。”宋樂說。

目前,宋樂的團隊已經(jīng)擁有數(shù)十名專家,累計發(fā)表了1000篇論文,獲得過300個專利,人才來源覆蓋了國內(nèi)外的頂級計算生物學(xué)院系,和頭部的AI科技大廠。值得關(guān)注的是,這里面很多人才并沒有計算生物學(xué)、生物信息學(xué)等生物相關(guān)的背景。百圖生科還成立了研究院,圍繞生命體精細化觀測、新型蛋白質(zhì)合成和細胞編輯、前沿多組學(xué)技術(shù)等方向建立了研究小組,與國內(nèi)外眾多一線高等院校、科研院所合作,利用公司的場景優(yōu)勢、生物和計算基礎(chǔ)設(shè)施優(yōu)勢,與高校雙軌制培養(yǎng)優(yōu)秀人才,使其兼具研發(fā)能力和工業(yè)落地的實踐精神

“現(xiàn)在的生物計算行業(yè)其實很像二十多年前互聯(lián)網(wǎng)行業(yè)爆發(fā)的前夜,有人說21世紀(jì)是生物學(xué)的世紀(jì),也有人說21世紀(jì)是人工智能的世紀(jì),我覺得人工智能技術(shù)賦能下的生物醫(yī)藥行業(yè),將會成為這個世紀(jì)最有潛力的方向。隨著越來越多的交叉學(xué)科人才涌入這個行業(yè),這個行業(yè)的人才競爭也會加劇,但現(xiàn)在還是提早上車的最好時候。”宋樂說。

關(guān)鍵詞: 人工智能 百圖生科 生物計算行業(yè) 激光雷達

來源:光明網(wǎng)
編輯:GY653

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作媒體供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責(zé)任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

  • 相關(guān)推薦

相關(guān)詞