近日,維基媒體基金會旗下的 Wikimedia Enterprise 公布了一項重要進展,他們在 Kaggle 平臺上推出了英語和法語版本的維基百科結構化內容快照數(shù)據集,該數(shù)據集以 JSON 格式呈現(xiàn)。
據了解,這一數(shù)據集的發(fā)布旨在方便 AI 和機器學習領域的專業(yè)人士進行建模、基準測試、對齊、微調和探索性分析。數(shù)據集在設計過程中充分考慮了機器學習的工作流程,大大簡化了機器訪問維基百科內容的流程,使得使用者無需再對維基百科主站的原始內容進行繁瑣的抓取和解析。
對于 AI 爬蟲而言,這一數(shù)據集的推出無疑是一個利好消息。它們可以直接利用現(xiàn)成的數(shù)據集進行工作,從而減少了在主站爬取數(shù)據所帶來的流量負擔。這一改變不僅有助于提升 AI 爬蟲的工作效率,同時也為維基百科的可持續(xù)運營提供了有力支持。
維基媒體基金會表示,他們將繼續(xù)致力于推動數(shù)據的開放和共享,以支持全球范圍內的知識創(chuàng)新和傳播。未來,他們還將探索更多方式,以便更好地服務于學術界、產業(yè)界以及廣大用戶。