在AI領域的聚光燈下,階躍星辰公司及其低調而堅定的CEO姜大昕近日成為了媒體關注的焦點。在一場于北京舉行的媒體溝通會上,姜大昕分享了他對多模態(tài)人工智能(AI)發(fā)展的深刻見解,以及階躍星辰在這條探索之路上的獨特步伐。
姜大昕強調,多模態(tài)技術是實現(xiàn)通用人工智能(AGI)的關鍵路徑。他指出,過去一年中,階躍星辰雖未在融資或市場聲量上大放異彩,卻默默地在多模態(tài)領域深耕細作,發(fā)布了多達22款自研基座模型,其中16款為多模態(tài)模型,占比超過七成,這一成就讓階躍星辰在業(yè)內贏得了“多模態(tài)卷王”的稱號。
與語言模型領域的技術路線已相對明確不同,多模態(tài)技術的探索仍處于迷霧之中。姜大昕表示,階躍星辰押注的是“理解+生成一體”的原生多模方向,這一方向在技術演進上可能還處于GPT 1.0之前的階段,即Transformer剛出現(xiàn)時的時期。階躍星辰的技術路線尤為艱難,要求同一個大模型既要能理解,也要能生成,這構成了公司自成立以來的發(fā)展主線。
姜大昕進一步解釋了多模態(tài)技術的難點和重要性。他提到,多模態(tài)的一大挑戰(zhàn)在于融合過程中不能損失單個模態(tài)的性能,尤其是不能降智。階躍星辰所追求的理解生成一體化,意味著模型能夠理解畫面中的物體關系,并通過生成端來監(jiān)督;同時,生成的內容也需要理解來控制,以確保其符合物理世界的認知。他認為,多模態(tài)對于AGI至關重要,因為人的智能是多元化的,包括語言、視覺、空間等多種智能,這些智能需要通過多模態(tài)來進行學習。
在溝通會上,姜大昕還分享了對多模態(tài)領域未來發(fā)展趨勢的看法。他認為,下一步的模型發(fā)展趨勢包括在預訓練的基礎模型上加入強化學習,以提高模型的推理能力;以及將推理引入到多模態(tài)領域,實現(xiàn)模型的感知能力和內部知識的結合。他還強調了視覺領域的理解生成一體化的重要性,認為這是解決模型生成時非思維鏈問題的關鍵。
姜大昕還提到了DeepSeek等推理模型的進步對多模態(tài)技術探索的推動作用。他認為,DeepSeek的成功經驗表明,傳統(tǒng)的投流邏輯在AI時代可能不再適用。階躍星辰也選擇了一條不同于主流的道路,沒有盲目追求流量,而是專注于基礎大模型的研發(fā),以及與行業(yè)頭部公司的合作。
階躍星辰已與Oppo、吉利汽車集團等企業(yè)展開深度合作,將Agent應用在汽車、手機等關鍵場景中。姜大昕表示,隨著模型能力的不斷增強,將有更多的應用被解鎖和成熟。他特別提到了智能終端Agent的方向,認為Agent將更好地幫助人類完成任務,理解用戶所處環(huán)境和任務的上下文,并有望從數字世界走向物理世界,延伸到智能駕駛和人形機器人等領域。
姜大昕還透露,階躍星辰內部已經組織起不同技術路線的數支團隊,以探索可能的技術突破。他認為,多模態(tài)領域的任何一個短板都可能延緩AGI的進程,因此階躍星辰將繼續(xù)在這條道路上堅定前行。
在溝通會的最后,姜大昕表達了對階躍星辰未來的信心。他表示,盡管AI領域的技術發(fā)展日新月異,階躍星辰將堅持基礎大模型的研發(fā),并與行業(yè)伙伴緊密合作,共同推動多模態(tài)技術的發(fā)展和應用。