近日,卡內(nèi)基梅隆大學(xué)的一支研究團(tuán)隊(duì)在人工智能領(lǐng)域取得了創(chuàng)新突破,他們成功研發(fā)出一款名為LegoGPT的AI系統(tǒng)。該系統(tǒng)能夠根據(jù)用戶的文字指令,自動(dòng)生成可實(shí)際搭建的樂高設(shè)計(jì)圖。
據(jù)了解,LegoGPT項(xiàng)目的詳細(xì)信息和代碼已全面開源,用戶可以通過訪問GitHub上的項(xiàng)目地址進(jìn)行了解和使用。該項(xiàng)目的GitHub鏈接為:https://github.com/AvaLovelace1/LegoGPT/
研究團(tuán)隊(duì)通過訓(xùn)練一種大型自回歸語言模型,使LegoGPT能夠預(yù)測并確定下一塊應(yīng)該放置的樂高積木。為了實(shí)現(xiàn)這一目標(biāo),團(tuán)隊(duì)為模型設(shè)計(jì)了復(fù)雜的算法,通過不斷預(yù)測下一個(gè)token的方式,逐步構(gòu)建出完整的樂高設(shè)計(jì)。
為了確保生成的樂高設(shè)計(jì)既實(shí)用又穩(wěn)固,團(tuán)隊(duì)還為LegoGPT增加了有效性校驗(yàn)和物理感知回滾機(jī)制。這一機(jī)制能夠檢測并避免積木重疊或懸空等問題,保證最終的設(shè)計(jì)既符合用戶要求,又能實(shí)際搭建。
LegoGPT不僅能夠生成人手可搭建的設(shè)計(jì),還支持機(jī)器人操作。這意味著,用戶不僅可以根據(jù)自己的想象來創(chuàng)造樂高作品,還可以通過機(jī)器人實(shí)現(xiàn)自動(dòng)化搭建。
為了實(shí)現(xiàn)LegoGPT的訓(xùn)練,研究團(tuán)隊(duì)構(gòu)建了一個(gè)名為StableText2Lego的數(shù)據(jù)集。該數(shù)據(jù)集的構(gòu)建過程相當(dāng)繁瑣,它首先將文本提示轉(zhuǎn)化為ShapeNetCore網(wǎng)格模型,然后將其嵌入一個(gè)20×20×20的體素網(wǎng)格中,生成初步的樂高積木布局。之后,系統(tǒng)會(huì)對(duì)這些布局進(jìn)行變化,并剔除結(jié)構(gòu)不穩(wěn)定的設(shè)計(jì)。保留下來的樣本會(huì)從多個(gè)角度進(jìn)行渲染,并最終生成相應(yīng)的描述文本。
StableText2Lego數(shù)據(jù)集包含了超過47000個(gè)樂高建構(gòu)樣本,涵蓋了28000多種三維造型,如書架、桌子、椅子、汽車、船只和吉他等。這些豐富的數(shù)據(jù)為LegoGPT的訓(xùn)練提供了堅(jiān)實(shí)的基礎(chǔ),使其能夠從文字描述中生成獨(dú)特且原創(chuàng)的樂高設(shè)計(jì)。
在使用LegoGPT時(shí),用戶只需輸入文字描述,系統(tǒng)就會(huì)將描述轉(zhuǎn)化為樂高設(shè)計(jì)圖。然后,LegoGPT會(huì)按照從底部到頂部的順序,將這些設(shè)計(jì)編碼為文本token。系統(tǒng)會(huì)根據(jù)這些token生成指令,將樂高積木結(jié)構(gòu)與注釋相對(duì)應(yīng),使模型學(xué)會(huì)理解文本與積木組件之間的關(guān)系。
接下來,LegoGPT會(huì)采用自回歸的方式,逐步預(yù)測并放置下一塊積木。每次添加積木時(shí),系統(tǒng)都會(huì)進(jìn)行嚴(yán)格的格式校驗(yàn)和沖突檢測,確保積木的放置正確無誤。這一過程會(huì)持續(xù)進(jìn)行,直到設(shè)計(jì)完成。最后,系統(tǒng)還會(huì)對(duì)生成的設(shè)計(jì)進(jìn)行穩(wěn)定性測試,以確保其結(jié)構(gòu)穩(wěn)固。
如果系統(tǒng)在測試過程中發(fā)現(xiàn)結(jié)構(gòu)不穩(wěn),LegoGPT會(huì)自動(dòng)回滾到最近的穩(wěn)定狀態(tài),并從該點(diǎn)繼續(xù)生成設(shè)計(jì),直到完成一個(gè)穩(wěn)定且可行的樂高作品。