近日,深度求索(Deepseek)在其官方社群中發(fā)布了一則引人注目的消息,邀請(qǐng)用戶參與DeepSeek-R1-0528模型小版本的測(cè)試。初步反饋顯示,這款新模型在編程、審美設(shè)計(jì)以及代碼補(bǔ)全等多個(gè)領(lǐng)域均展現(xiàn)出卓越的性能。
特別DeepSeek-R1-0528在編程能力上取得了顯著突破。用戶只需輸入簡(jiǎn)潔的提示詞,該模型便能迅速生成高質(zhì)量的代碼,這一特性在代碼測(cè)試平臺(tái)Live CodeBench上得到了驗(yàn)證。該平臺(tái)的數(shù)據(jù)顯示,DeepSeek-R1-0528的性能已經(jīng)可以與OpenAI最新的o3模型(High)相媲美。
除了編程能力,DeepSeek-R1-0528在Extended NYT Connections基準(zhǔn)測(cè)試中也取得了不俗的成績(jī)。該測(cè)試基于《紐約時(shí)報(bào)》的Connections謎題游戲,旨在評(píng)估大型語言模型的語言理解和推理能力。DeepSeek-R1-0528的跑分達(dá)到了49.8分,相較于初代Deepseek R1模型的38.6分,有了顯著提升。
據(jù)測(cè)試用戶反饋,DeepSeek-R1-0528在響應(yīng)風(fēng)格上也頗具特色,其回答方式具有o3-2.5模型的專業(yè)風(fēng)范,箭頭和星號(hào)的使用與o3風(fēng)格高度一致,且在結(jié)尾處“why it works”的表述更具邏輯性和說服力。
在審美設(shè)計(jì)和代碼補(bǔ)全方面,DeepSeek-R1-0528同樣展現(xiàn)出了其強(qiáng)大的實(shí)力。它能夠輕松應(yīng)對(duì)多樣化的任務(wù),輸出的結(jié)果不僅精準(zhǔn),而且極具實(shí)用性。在生成復(fù)雜前端頁面和動(dòng)態(tài)動(dòng)畫的測(cè)試中,該模型也展現(xiàn)出了極高的準(zhǔn)確度和效率。
與OpenAI的o3和o4-mini模型相比,DeepSeek-R1-0528在推理時(shí)長(zhǎng)上有了大幅縮短,為用戶提供了更加流暢和高效的使用體驗(yàn)。這一改進(jìn)無疑將進(jìn)一步提升用戶在使用大型語言模型時(shí)的滿意度和效率。