【虎科技】2月4日消息,亞馬遜云計算人工智能實驗室的最新研究顯示,網絡上存在大量由機器翻譯生成的內容,且這些內容在跨語言翻譯時往往質量不佳。這一發現凸顯了在訓練大型語言模型時,對數據質量和來源進行細致考量的至關重要性。
研究人員指出,機器翻譯內容在資源匱乏語言的網絡環境中尤為普遍,甚至占據了網絡內容的相當大一部分。這些內容雖然在一定程度上促進了信息的跨語言傳播,但由于翻譯質量的問題,也給用戶帶來了不少困擾。
據虎科技了解,為了更好地理解機器翻譯內容的特征,研究團隊還開發了一種名為“多維cc矩陣”的龐大資源。該資源涵蓋了90種語言中的64億個獨特句子,并包含了翻譯元組,即一組相互翻譯的句子。這一資源的開發為機器翻譯研究提供了新的視角和工具。
此外,研究人員還發現,出于增加廣告收入等目的,網絡上的機器翻譯內容存在一定的選擇性偏差。這種偏差不僅影響了機器翻譯內容的準確性和客觀性,也對大型語言模型的訓練產生了不良影響。
研究論文總結道,盡管機器翻譯技術在過去十年中取得了顯著進步,但其質量仍遠未達到人類翻譯的水平。由于歷史上大量使用當時可用的機器翻譯系統,導致網絡上存在大量質量較低的機器翻譯內容。這些問題可能會導致大型語言模型在訓練過程中產生更多的“幻覺”,而選擇性偏差則進一步降低了數據質量。因此,在訓練大型語言模型時,選擇高質量的語料庫,如書籍和維基百科文章,并進行多次向上采樣是至關重要的。