国产98在线 | 传媒麻豆,久久―日本道色综合久久,久久久精品久久久久久久久久久,国产成人精品免费久久久久,五月综合色婷婷影院在线观看,久久久亚洲精品视频

  • 虎科技 - 領先的互聯網科技媒體

微軟發布BitNet b1.58 2B4T,以低精度架構實現高效大型語言模型

   時間:2025-04-18 10:08 來源:ITBEAR作者:楊凌霄

近日,科技界迎來了一項令人矚目的創新成果——微軟研究團隊推出的開源大型語言模型BitNet b1.58 2B4T。這款模型以獨特的低精度架構原生訓練而成,擁有20億參數,卻在計算資源需求上實現了大幅縮減。

據技術報告顯示,BitNet b1.58 2B4T的性能直逼同規模的全精度模型。其非嵌入內存占用僅為0.4GB,這一數據遠低于競品Gemma-3 1B的1.4GB和MiniCPM 2B的4.8GB,展現了其卓越的內存效率。

BitNet的高效秘訣在于其創新的架構。該模型摒棄了傳統的16位數值,采用定制的BitLinear層,將權重限制為-1、0、+1三種狀態,形成了三值系統。這種設計使得每權重僅需約1.58位信息存儲,從而實現了高效的存儲和計算。

BitNet在層間激活值上也進行了優化,采用了8位整數量化,形成了W1.58A8的配置。同時,微軟還對Transformer架構進行了調整,引入了平方ReLU激活函數、標準旋轉位置嵌入(RoPE)以及subln歸一化等技術,確保了低位訓練的穩定性。這種原生1位訓練的方式避免了傳統后訓練量化(PTQ)可能帶來的性能損失。

BitNet b1.58 2B4T的開發歷經了三個階段。首先,基于4萬億token的網絡數據、代碼和合成數學數據集進行了預訓練。隨后,通過公開及合成指令數據集進行了監督微調(SFT),如WizardLM Evol-Instruct等。最后,采用直接偏好優化(DPO)方法,利用UltraFeedback等數據集提升了模型的對話能力和安全性。

微軟的測試結果顯示,BitNet在GSM8K(數學)、PIQA(物理常識)等基準測試中表現優異,整體性能與主流1B-2B參數的全精度模型相當。同時,在能耗和CPU解碼延遲上也占據了顯著優勢,每token能耗僅為0.028焦耳,CPU解碼延遲為29毫秒。

然而,值得注意的是,BitNet的高效性需要依賴微軟提供的專用C++框架bitnet.cpp來實現。如果使用標準工具如Hugging Face transformers庫,則無法充分展現其速度和能耗優勢。

微軟還透露了未來的計劃,包括優化GPU和NPU支持,延長上下文窗口至4096 token,并探索更大規模的模型、多語言功能以及硬件協同設計。目前,BitNet b1.58 2B4T已經以MIT許可證在Hugging Face上發布,供社區進行測試和應用。

 
 
更多>同類內容
推薦圖文
推薦內容
點擊排行
 
智快科技微信賬號
ITBear微信賬號

微信掃一掃
加微信拉群
電動汽車群
科技數碼群

主站蜘蛛池模板: 中文字幕在线永久在线视频2020 | 婷婷激情五月 | 久久一区视频 | 性爱视频欧美 | 久久综合五月天婷婷伊人 | 亚洲天堂男人网 | 欧美视频一区在线观看 | 国产综合精品久久久久成人影 | 色网站免费观看 | 中文字幕热久久久久久久 | 亚洲小视频在线 | 国产片欧美片亚洲片久久综合 | 在线观看精品视频网站www | 国产噜噜噜视频在线观看 | 99热精品在线观看 | 国内精品亚洲 | 国色天香一区三区四区小说 | 欧美日韩综合在线视频免费看 | 亚洲美女性视频 | 日韩专区视频 | 亚洲精品中文字幕乱码三区一二 | 一木道一二三区精品 | 九九影院在线观看 | 亚洲免费高清视频 | 99国产精品欧美久久久久久影院 | 亚洲国产欧美目韩成人综合 | 综合色视频 | 羞羞色男人的天堂 | 亚洲一区二区成人 | 亚洲69视频 | 国色天香社区在线观看免费直播 | 想爱爱影院 | a级日本 | 欧美成在线 | 最新欧美精品一区二区三区 | 国产伦子系列麻豆精品 | 国产电影网| 尤物yw午夜国产精品视频 | 国产在线视频区 | 亚洲一区二区三区高清 不卡 | 国产网站免费在线观看 |