国产98在线 | 传媒麻豆,久久―日本道色综合久久,久久久精品久久久久久久久久久,国产成人精品免费久久久久,五月综合色婷婷影院在线观看,久久久亚洲精品视频

  • 虎科技 - 領先的互聯網科技媒體

智譜AI開源GLM-4.5V視覺推理模型,41項多模態基準測試獲SOTA性能

   時間:2025-08-12 05:04 來源:ITBEAR作者:鐘景軒

智譜AI近期震撼發布了其最新一代的視覺推理模型GLM-4.5V,并慷慨地選擇將此模型在GitHub、Hugging Face及魔搭社區上以MIT開源協議進行共享,此舉不僅展現了其對技術開放的承諾,也為商業應用提供了無限可能。

GLM-4.5V,作為一個擁有龐大參數的VLM(視覺-語言模型),其總參數高達1,060億,激活參數亦有120億。該模型是在智譜AI的旗艦文本模型GLM-4.5-Air的基礎上精心打造,并繼承了GLM-4.1V-Thinking的技術精髓。值得注意的是,GLM-4.5V在41項公開的多模態基準測試中,均取得了同級別開源模型中的頂尖表現。

技術層面,GLM-4.5V由三大核心組件構成:視覺編碼器、MLP適配器以及語言解碼器。通過引入創新的三維旋轉位置編碼(3D-RoPE),模型對三維空間關系的理解及推理能力得到了顯著提升。它能夠處理包含64K tokens的多模態長上下文輸入,并利用三維卷積技術,顯著優化了視頻處理效率。這一設計讓GLM-4.5V不僅能處理靜態圖像,還能深入解析視頻內容,對高分辨率及極端寬高比的圖像同樣展現出強大的處理能力和穩定性。

為了全面增強GLM-4.5V的多模態能力,智譜AI在模型訓練的每個階段都實施了精細的優化策略。預訓練階段,模型在龐大的圖文交錯多模態語料及長上下文內容的滋養下,建立了對復雜圖文和視頻內容的堅實基礎。隨后,在監督微調階段,通過引入“思維鏈”格式的顯式訓練樣本,進一步加深了模型的因果推理和多模態理解能力。最終,在強化學習階段,借助多領域獎勵系統,結合可驗證獎勵強化學習(RLVR)與人類反饋強化學習(RLHF),模型在STEM問題、多模態定位及智能體任務等多個領域均實現了顯著提升。

GLM-4.5V的實際表現同樣令人矚目。在圖像推理方面,它能夠進行復雜的場景解析和多圖綜合判斷。例如,它能根據用戶的自然語言指令,準確識別圖像中的目標物體,并標注出精確的位置坐標。更令人驚嘆的是,它還能通過分析圖像中的微小線索,如植被類型、氣候痕跡及建筑風格,推斷出照片的拍攝地點及大致地理位置,這一能力甚至超越了許多專業工具。

在復雜文檔理解領域,GLM-4.5V同樣展現出了卓越的能力。它能夠處理包含大量圖表的長文本,同步理解文字與圖像信息,從而準確地進行內容總結、翻譯及圖表信息提取,有效避免了傳統方法中可能出現的錯誤傳遞問題。針對前端開發及用戶界面交互任務,GLM-4.5V還提供了“前端復刻”功能,通過分析網頁截圖或交互視頻,能夠生成相應的HTML、CSS及Javascript代碼,完美復刻網頁的布局、樣式及交互邏輯。

GLM-4.5V的GUI Agent能力同樣值得稱道,它能夠識別和處理電子屏幕畫面,執行對話問答、圖標定位等任務,為開發桌面環境智能體應用奠定了堅實基礎。智譜AI還同步開源了一款桌面助手應用,該應用能夠實時捕獲屏幕信息,依托GLM-4.5V處理多種視覺推理任務,涵蓋代碼輔助、視頻內容分析、游戲解答及文檔解讀等多個領域。

 
 
更多>同類內容
推薦圖文
推薦內容
點擊排行
 
智快科技微信賬號
ITBear微信賬號

微信掃一掃
加微信拉群
電動汽車群
科技數碼群

主站蜘蛛池模板: | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | |