如今的人工智能模型是否真的能像人類一樣記憶、思考、計(jì)劃和推理呢?有些 AI 實(shí)驗(yàn)室似乎讓人覺得我們離 “人類級(jí) AI” 不遠(yuǎn)了,但 Meta 的首席 AI 科學(xué)家 Yann LeCun 卻給了大家一記冷水。他認(rèn)為,我們要想實(shí)現(xiàn)這一目標(biāo),可能還需要十年的努力,而這一切的關(guān)鍵在于 “世界模型”。
在今年年初,OpenAI 推出了一項(xiàng)新功能,聲稱它的 ChatGPT 可以 “記住” 與用戶的對(duì)話。它最新一代的模型在生成輸出時(shí)顯示 “思考” 字樣,甚至宣稱這些模型能夠進(jìn)行 “復(fù)雜推理”。
圖源備注:圖片由AI生成,圖片授權(quán)服務(wù)商Midjourney
聽起來似乎我們快要迎來 AGI(通用人工智能)的時(shí)代。然而,在最近一次的哈德遜論壇上,LeCun 卻駁斥了那些樂觀的聲音,比如 xAI 創(chuàng)始人 Elon Musk 和谷歌 DeepMind 聯(lián)合創(chuàng)始人 Shane Legg,他們認(rèn)為人類級(jí)別的 AI 就在眼前。
LeCun 指出:“我們需要那些能理解世界的機(jī)器;具備記憶、直覺、常識(shí),能像人類一樣推理和規(guī)劃的機(jī)器。” 他強(qiáng)調(diào),盡管一些最熱衷于 AI 發(fā)展的聲音頻頻呼喊,當(dāng)前的 AI 系統(tǒng)其實(shí)還遠(yuǎn)未達(dá)到這個(gè)水平。他甚至表示,真正的人類級(jí) AI 可能要 “數(shù)年到數(shù)十年” 才能實(shí)現(xiàn)。
那問題出在哪兒呢?其實(shí)很簡單:如今的大型語言模型(LLM)僅僅是通過預(yù)測下一個(gè)詞匯(通常是幾個(gè)字母或一個(gè)短詞)來工作,而當(dāng)前的圖像或視頻模型則是預(yù)測下一個(gè)像素。這就是說,語言模型只能在一維上進(jìn)行預(yù)測,而圖像 / 視頻模型則在二維上進(jìn)行。雖然這些模型在各自的領(lǐng)域中表現(xiàn)得相當(dāng)優(yōu)秀,但它們并不理解三維世界的復(fù)雜性。
正因如此,現(xiàn)代 AI 系統(tǒng)無法完成大多數(shù)人類能夠輕松應(yīng)對(duì)的簡單任務(wù)。LeCun 提到,人類在十歲時(shí)就能學(xué)會(huì)收拾餐桌,而在十七歲時(shí)能學(xué)會(huì)駕駛,甚至只需幾個(gè)小時(shí)的時(shí)間。但即使是當(dāng)前最先進(jìn)的 AI 系統(tǒng),經(jīng)過數(shù)千或數(shù)百萬小時(shí)的數(shù)據(jù)訓(xùn)練,依然無法可靠地在現(xiàn)實(shí)世界中操作。
要實(shí)現(xiàn)更復(fù)雜的任務(wù),LeCun 認(rèn)為我們需要構(gòu)建能夠感知周圍世界的三維模型,核心在于一種新的 AI 架構(gòu) —— 世界模型。他解釋道:“世界模型是你對(duì)世界行為的心理模型。” 你可以想象一系列你可能采取的行動(dòng),而你的世界模型會(huì)讓你預(yù)測這些行動(dòng)對(duì)世界的影響。
例如,想象你看到了一個(gè)凌亂的臥室,想要把它弄干凈。你可以很自然地想到,撿起所有的衣服并把它們放好就可以解決問題。你不需要嘗試多種方法,也不需要先學(xué)會(huì)如何清理房間。你的大腦觀察三維空間,直接制定出第一時(shí)間可以實(shí)現(xiàn)目標(biāo)的行動(dòng)計(jì)劃。這種行動(dòng)計(jì)劃正是 AI 世界模型所承諾的 “秘密武器”。
世界模型的另一個(gè)好處是,它們能夠處理比 LLM 更為龐大的數(shù)據(jù)。這也使得它們的計(jì)算需求變得更加復(fù)雜,這就是為什么各大云服務(wù)提供商正在爭相與 AI 公司合作的原因。
如今,多個(gè) AI 實(shí)驗(yàn)室都在追逐世界模型這個(gè)大概念,這個(gè)詞迅速成為吸引風(fēng)險(xiǎn)投資的熱門話題。一組享有盛譽(yù)的 AI 研究人員,包括 “AI 女神” Fei-Fei Li 和 Justin Johnson,剛剛為他們的初創(chuàng)公司 World Labs 籌集了2.3億美元。她和她的團(tuán)隊(duì)堅(jiān)信,世界模型將解鎖更智能的 AI 系統(tǒng)。OpenAI 也將其尚未發(fā)布的 Sora 視頻生成器描述為一種世界模型,但具體細(xì)節(jié)尚未披露。
LeCun 在2022年的一篇關(guān)于 “目標(biāo)驅(qū)動(dòng) AI” 的論文中闡述了使用世界模型創(chuàng)建人類級(jí) AI 的構(gòu)想,盡管他指出這個(gè)概念已有60多年的歷史。簡而言之,世界模型通過一個(gè)世界的基本表示(例如,一個(gè)臟房間的視頻)和記憶進(jìn)行訓(xùn)練。然后,這個(gè)模型會(huì)根據(jù)這些信息預(yù)測世界的變化。接著,你給世界模型設(shè)定目標(biāo),包括你希望實(shí)現(xiàn)的世界的變化狀態(tài)(比如將房間清理干凈),并設(shè)置一些 “保護(hù)措施”,確保模型不會(huì)為了達(dá)成目標(biāo)而危害人類(比如,清理房間時(shí)請(qǐng)不要傷到我)。最后,世界模型會(huì)找到一系列行動(dòng)序列來達(dá)成這些目標(biāo)。
Meta 的長期 AI 研究實(shí)驗(yàn)室 FAIR(基礎(chǔ) AI 研究)正在積極研究目標(biāo)驅(qū)動(dòng) AI 和世界模型,LeCun 表示。FAIR 曾經(jīng)為 Meta 的即將推出的產(chǎn)品進(jìn)行 AI 研究,但 LeCun 說該實(shí)驗(yàn)室近年來已轉(zhuǎn)向?qū)W⒂陂L期 AI 研究,現(xiàn)在甚至不再使用 LLM。
雖然世界模型是個(gè)引人入勝的概念,但 LeCun 坦言我們?cè)趯⑦@些系統(tǒng)轉(zhuǎn)變?yōu)楝F(xiàn)實(shí)方面尚未取得太大進(jìn)展。我們距離目標(biāo)還有很多艱難的問題需要解決,他表示,“如果不說十年,這里的一切都可能需要數(shù)年才能運(yùn)作。” 而他的老板馬克?扎克伯格總是忍不住詢問何時(shí)才能實(shí)現(xiàn)這一目標(biāo)。

