AI大模型在生物醫藥領域到底都有怎樣的前景?百度智能云與NVIDIA在生物醫藥行業的成果又有哪些?
為了探索這些問題,本次藥智訪談專訪百度智能云泛科技行業總經理張瑋,NVIDIA互聯網行業大客戶總監劉川,為我們深度解析AI大模型以及它對制藥行業帶來的影響!

Q:大模型領域現在發展如何?它的發展趨勢又是怎樣的?
張瑋:大模型的發展非常之快,可謂日新月異,這波熱潮是從去年ChatGPT的發布開始席卷全球。
實際上從百度的角度來說,我們對大模型整個的研發非常早,早在2019年文心系列的大模型就已開始研發。10月17日,我們發布了最新的文心大模型4.0版本。透過大模型的演進和發展可以看到,隨著算力數據和算法的不斷提升,新的大模型在不斷增強,從而改變各個行業。
第一個帶來改變的是傳統信息產業,也就是互聯網行業。可以看到已經出現非常多成功的產品,并且在被用戶所使用。而隨著模型能力的增強,以及更多的垂直行業與大模型行業融合發展,比如生命科學行業,可預見會有越來越多結合大模型能力、垂直行業的知識、應用場景以及研發方向的行業大模型出現。在此趨勢之下,我認為大模型可以為垂直行業創造更多的價值,具有巨大的想象空間和發展前景。
Q:目前大模型領域在國內外市場的競爭都非常激烈,那么大模型領域面對的挑戰有哪些?
劉川:目前大模型在落地層面有兩個階段,也是最具挑戰的兩階段。
第一階段是要訓練一個FoundationModel(基礎模型),這是極具挑戰性的事情。首先是要求企業要有足夠多的數據、要有能力將數據變成token,并應用于整個數據工程,這個過程非常考驗技術實力。其次,訓練一個FoundationModel需要萬卡以上的集群,我們要思考萬卡集群在訓練過程中,如何讓算力的有效利用率達到極致,這對整個技術團隊和整個資源管理團隊充滿挑戰。
第二階段是在訓練好FoundationModel之后,落地到行業里需要解決的核心問題——怎么把行業數據/know-how遷移到行業模型里,讓行業模型既能學到行業知識,又不降智,而恰恰這些智能是需要從行業實踐中得出的。
所以從整個市場來說,百度目前是處于領先地位,百度文心大模型早在2019年就已開始研發,并不斷累積經驗進行更新迭代,也正因如此,才能使其走在大模型研發的最前沿,才能第一個發布中國的4.0版本大模型。
事實上,各個行業的早期客戶已有很多進入大模型的第二階段的驗證中,這些都是來自應用場景的直接挑戰,它需要企業逐步把數據放進來,把效果做出來,把精度調上去。這些工作需要全部落地、很辛苦,但唯有腳踏實地的做好,才能把模型真正做到應用落地并達到好的效果。
以上這兩個階段是我認為大模型從FoundationModel到進入行業的兩個非常重要的階段。
Q:我們的企業在這樣的競爭潮流中怎樣才能有效提升自己的競爭優勢?
劉川:我們可以看到現在的企業有幾類。
第一類是企業應用相對簡單,直接擁抱大模型,盡快調用FoundationModel,讓能力跟業務相適配,進而把業務流的效率提升上去。
第二類是對于一些垂類領域的行業,尤其是在具有高壁壘的領域行業中,如醫藥、制造、金融領域等,這些行業有非常深厚的行業know-how,需要類似百度這樣的計算機算法科學家及其提供的大模型,和企業業務側的行業專家,以及助力AI業務加速的NVIDIA的高級工程技術團隊三方聯合在一起,快速融合,才能讓大模型能力變成行業的先進生產力,助力企業在相應領域中成為最領先的player,帶來行業格局的改變。
Q:針對剛剛所提及的兩個階段的挑戰,NVIDIA和百度分別可以提供哪些幫助,來助力大模型領域突破瓶頸?
張瑋:首先在算力層面,百度智能云跟NVIDIA緊密合作。在大模型的算力基礎之上,結合應用及訓練過程做非常多的軟件開發,充分發揮雙方的技術,通過合作使整個大模型的基礎設施變得更強大。
此外,百度智能云千帆大模型平臺是圍繞模型訓練、模型生命周期管理的一套AI生產工具,也是面向企業的一套工具鏈平臺。它可以方便企業應用該平臺管理數據,管理訓練過程,還可以通過平臺去使用AI的基礎算力,獲得更多關于模型應用相關的服務。
算力與百度智能云千帆大模型平臺這兩個部分形成了與企業客戶合作的底座。
同時,百度智能云也為企業提供大模型API調動服務,客戶可以通過直接調用文心的API,將API集成到自己的業務流程當中,利用大模型的能力增強自身產品的競爭力,乃至可以利用上述的三種服務去做自己真正的AI原生應用。
劉川:剛才已經說到百度智能云從資源、從環境、從整個工具鏈層面已經提供了一個非常好的基礎設施來支持大模型的運用,那么NVIDIA和百度智能云的合作是在做什么?
我們知道,頭部客戶以及其場景模型是非常個性化的,模型所追求的也是極限效果,所以NVIDIA和百度智能云的合作就是一起把模型在剛才所述的資源上聯合做極致優化。我們希望頭部大模型不僅要在業務側有真正意義的指標收益,更重要的是在整個端到端的pipeline落地之后,發現它創造的價值要遠大于其成本。百度智能云和NVIDIA一直在創造這樣的場景和機會,希望通過我們的聯合深度優化,讓整個企業模型訓練和推理側的效率提升,具有高性價比,對業務的促進產生強大推動力,進而在推動行業大模型落地過程中產生質變。
Q:大模型技術開始入局醫藥行業,兩位認為大模型技術將會對藥物研發起著怎樣的幫助和作用?
張瑋:新藥研發其實是一個高投入、高風險、長周期的行業。傳統來看新藥研發有著雙十困境,一款新藥的研發至少是十年的投入、十億美元的投資,也被稱作長跑候選的業務。
隨著AI,尤其是隨著大模型浪潮的發展,可以看到面向新藥研發環節中,大模型有非常多的用武之地。拆開整個藥物研發環節可發現,AI技術已經遍地生根。如果大模型技術加持醫藥研發行業,那將會有更多基于大模型技術的行業模型涌現出來。
目前蛋白質結構預測和分子的篩選已有相應大模型的應用,且隨著大模型技術不斷地加深采用,對整個醫藥行業起到的作用是毋庸置疑的。無論是原先的雙十困境,或是對某一些關鍵環節、關鍵領域的優化均能起到重要的幫助。
此外目前的大模型對于知識管理、領域知識的學習能力很強,與之前相比有很大的進步,它在面對復雜的know-how中,面對有眾多行業知識、領域知識的生物醫藥行業中,能在各種各樣的知識管理場景里創造價值。
劉川:如張總所言,在藥物研發分子篩選過程、早期的匹配過程、預測結構中都有大模型領域的用武之地,這中間需要一些跨界的聯合,醫藥科學家、化學科學家往AI走一步,AI科學家向醫藥專家所處的領域跨一步,有效碰撞和融合。
在這個領域中要大膽假設、小心求證。證明技術有效需要做很多基礎工作,尤其在物理化學層面上,其底層是AIforScience的范疇。從上層的業務表現和底層的分子動力學、化學等領域入手,證明AI的新方法可以替代傳統方式,打通從技術底座到商務變現的整個鏈條,做賽道上的創新。
Q:百度智能云與NVIDIA的合作如何助力大模型在藥物研發上的應用落地?
劉川:首先NVIDIA在大模型領域中有著通用能力,服務例如NVIDIA有NeMoframework,它是大模型訓練的一個框架,可以提高整個訓練的算力利用率,承載了不同大模型的開源和各個賽道的基礎能力。
其次NVIDIA有一款面向生物制藥領域的“服務”——BioNeMo,主要基于Transformer結構做蛋白質的預測和結構,包括性質預測、docking、embedding,這些可理解為是NVIDIA做的探索和驗證。
那么NVIDIA跟百度智能云怎么合作?我們是利用同樣的技術棧,聯合將客戶場景應用于大模型去做驗證,分析在哪些環節中大模型可以提供有效的幫助,讓其研究或預測變得更快、更準。我們已經跟百度的一些頭部客戶合作,在行業中是頭部玩家,這是開端;后續NVIDIA跟百度智能云一起將形成客戶、云和AI技術聯合在一起的長效合作機制,從一個點進行突破,產生收益,再從點到面,做出成果慢慢影響整個行業。把整個Pipeline的業務過程優化到最優,將瓶頸打通,我們一直用這樣的方法論支持客戶,包括跟百度智能云的深入合作,助力云上的客戶業務效果最優。
張瑋:百度智能云本身可以提供幾個層面的方案給到有不同需求和不同階段的客戶。上述已提到百度智能云本身有非常好的AI計算基礎算力平臺,面向有能力結合自己的數據、需要去做自研行業大模型訓練的客戶,我們會提供高性價比、高效率的算力服務。這種算力服務本身也會基于大模型訓練的特點,從而賦予相應的優化;同時會針對行業模型自身應用場景的單體環節做優化,尤其是生物醫藥領域。
在生物醫藥行業大模型里,數據閉環非常重要,它甚至可以被稱為是行業大模型中最核心的競爭力之一;面對數據閉環在生物醫藥領域里的使用,尤其是干濕實驗的數據閉環中,如何才能把閉環的效率提升到最佳?應該采用什么樣的算力方案去幫助AI訓練的行業模型實現更好的數據閉環?這是AI算力的基礎服務本身要去替客戶解決的問題,把這樣的問題解決好,幫助行業模型快速落地,為新藥研發提供更多的服務與支持,這是第一類。
另一類是基于百度在生物計算領域當中的投入和研究而訓練并持續發布出的系列行業大模型,如百度自主研發的生物計算大模型——PaddleHelix。它們能面向如蛋白質的結構預測、化合物的通用表征等類似于生物醫藥研發領域的各個場景;包括百度今年發布的mRNA序列設計工具等在內的系列算法側工具,都能以SaaS服務的方式提供,幫助新藥研發領域的客戶研發及提升效率。
結合以上兩類場景,百度大膽開拓融合方案,通過將自身產品和能力的組合,尤其是結合大模型的組合,與NVIDIA在單個pipeline業務的環節上做端到端的優化,不僅助力單個企業,而是幫助整個行業提升效率。
Q:10月17日,百度智能云全面升級了“云智一體”戰略,請張總為我們解讀一下這個戰略。
張瑋:10月17日,云智一體的戰略內涵全面升級為“云智一體,深入產業,生態繁榮,AI普惠”。面向客戶落地大模型的五類需求提供全站服務方案;人工智能與云計算的深度結合是企業快速落地AI原生應用的關鍵,這也是百度智能云始終倡導和踐行的“云智一體”理念。
目前,百度集團所有應用和服務全部基于”云智一體“技術架構運行在百度智能云上。此外,面向客戶落地大模型的五類需求,百度智能云基于千帆大模型平臺打造的“大模型超級工廠”分別給出了最佳服務方案。
一直以來,云智一體的戰略是百度智能云的核心戰略,AI加上圍繞AI應用和研發的算力底座,可稱之為智能云。是百度面向千行百業提供技術方案、提供技術賦能的一個基礎。從戰略視角來看百度的智和云兩者其實是相輔相成的,換而言之,云是為AI能力提供的基礎,從云來看百度也是最懂AI訓練、AI推理以及AI應用的算力基礎設施。
故而,我們希望通過云智一體不同方案的輸出給予客戶更多的幫助;在云智一體戰略之下,針對云和智的深度融合生成不同方向的解決方案,并通過最佳組合及優化,把方案惠及各個行業。
Q:百度智能云目前在大模型助力藥物研發上的布局與成果能分享一下嗎?
張瑋:首先是文心大模型系列,以及基于行業場景的推出的行業大模型,且已在各個行業領域都有落地應用。
百度不斷加大研發投入,10月17日,百度世界大會上正式發布了文心系列EB4.0。圍繞4.0的百度AI原生產品都已做了相應的升級,例如搜索、文庫、網盤、地圖等面向C端用戶的產品均已實現AI原生的升級。
從面向B端企業客戶的角度來說,百度已助力了不同行業或領域的客戶,尤其是在生物醫藥領域,已有頭部企業基于百度智能云的解決方案做出自己的生物醫藥大模型,并已在新藥研發當中開始投入使用。
Q:請劉總來總結一下NVIDIA在生命科學領域的先進技術和服務。
劉川:從我們跟百度智能云的深入合作來看,我們有完整的支持體系。
首先是最底層的加速庫,例如cuBLAS、cuDNN等,也有針對大模型領域的TransformerEngine和TensorRT-LLM這樣的工具,這些SDK幫助客戶加速推理。在訓練側我們有NeMoframework的訓練框架,幫助云上客戶提升訓練的效率。
我們跟百度智能云在各個層面都有深入合作,在芯片層有合作加速訓練與推理,在方案層跟千帆合作支持整個pipeline落地,在應用層面上述我們也提到NVIDIA有BioNeMo服務。BioNeMo基于Transformer、蛋白質的預測、性質預測、embedding、docking的端到端的服務,它包含了訓練、推理、可視化的部分,NVIDIA希望通過這個服務能讓更多行業的Player使用,放到云上以SaaS方式使用,讓大家先感受到能力,或者幫助重度玩家重構技術棧。
但目前,第一我認為最核心的是需求。NVIDIA和百度很早就開始探索生科領域,其核心就是要找到需求。10月17日在百度世界大會上,我們聽到基于AINative的能力來重構應用,重構帶來新生產力與需求的碰撞,需要探索在新的生產力基礎上,需求怎么與生產力結合?所以百度云用新的技術創造新的生產力,將新的生產力與業務需求結合創造價值,同時,也沉淀下來領先的基礎架構,進而推動大模型應用的落地。
第二是NVIDIA與百度智能云基于底座的大模型訓練中的深度合作,在NeMoframework框架之上可以訓各種不同的模型,跟百度與千帆一起,為更重度的一些玩家提供特定的支持。
第三是當模型出來之后需要業務落地、在商業環境驗證,利用我們專業的加速技術,例如TensorRT-LLM、TransformerEngine等,幫助企業真正行業落地時,并把整個模型的效果做到比較高的吞吐。
最后是高頻詞——三方合作,聯合將頭部客戶的頂尖模型優化到極致,讓這個模型成為賽道里面最好的SOTA(state-of-the-art)模型,這樣此模型在行業落地時才會產生推動力,不僅模型效果好,業務pipeline效果也最好。這就是NVIDIA與百度一起追求的目標,多年以來我們共同策劃、共同發展,現在我們已有一些頭部客戶在做,希望可以將合作做到極致,讓每個垂直領域的頭部都能合作起來,一起把模型優化到最佳。