日韩黄色毛片,综合久久久久久久综合网,插寡妇

亞馬遜云計算AI實驗室：機器翻譯在網絡內容中占比驚人質量問題凸顯

時間：2024-02-04 10:51 來源：虎科技

【虎科技】2月4日消息，亞馬遜云計算人工智能實驗室的最新研究顯示，網絡上存在大量由機器翻譯生成的內容，且這些內容在跨語言翻譯時往往質量不佳。這一發現凸顯了在訓練大型語言模型時，對數據質量和來源進行細致考量的至關重要性。

研究人員指出，機器翻譯內容在資源匱乏語言的網絡環境中尤為普遍，甚至占據了網絡內容的相當大一部分。這些內容雖然在一定程度上促進了信息的跨語言傳播，但由于翻譯質量的問題，也給用戶帶來了不少困擾。

據虎科技了解，為了更好地理解機器翻譯內容的特征，研究團隊還開發了一種名為“多維cc矩陣”的龐大資源。該資源涵蓋了90種語言中的64億個獨特句子，并包含了翻譯元組，即一組相互翻譯的句子。這一資源的開發為機器翻譯研究提供了新的視角和工具。

此外，研究人員還發現，出于增加廣告收入等目的，網絡上的機器翻譯內容存在一定的選擇性偏差。這種偏差不僅影響了機器翻譯內容的準確性和客觀性，也對大型語言模型的訓練產生了不良影響。

研究論文總結道，盡管機器翻譯技術在過去十年中取得了顯著進步，但其質量仍遠未達到人類翻譯的水平。由于歷史上大量使用當時可用的機器翻譯系統，導致網絡上存在大量質量較低的機器翻譯內容。這些問題可能會導致大型語言模型在訓練過程中產生更多的“幻覺”，而選擇性偏差則進一步降低了數據質量。因此，在訓練大型語言模型時，選擇高質量的語料庫，如書籍和維基百科文章，并進行多次向上采樣是至關重要的。

更多>同類內容

分析師預測：蘋果M5版MacBook Pro或將于202	OpenAI新推ChatGPT Go低價套餐，特定地區專
低壓氮化鎵革新應用：高效轉換，小巧體積引	雷軍發起小米YU7命名投票，標準版以高票勝

国产98在线 | 传媒麻豆,久久―日本道色综合久久,久久久精品久久久久久久久久久,国产成人精品免费久久久久,五月综合色婷婷影院在线观看,久久久亚洲精品视频

亞馬遜云計算AI實驗室：機器翻譯在網絡內容中占比驚人 質量問題凸顯

亞馬遜云計算AI實驗室：機器翻譯在網絡內容中占比驚人質量問題凸顯