耶魯大學(xué)研究團(tuán)隊(duì)近日發(fā)布了一項(xiàng)開創(chuàng)性研究成果,揭示了AI模型訓(xùn)練的關(guān)鍵發(fā)現(xiàn):AI學(xué)習(xí)效果最好的數(shù)據(jù)并非越簡單或越復(fù)雜越好,而是存在一個(gè)最佳的復(fù)雜度水平——被稱為"混沌邊緣"的狀態(tài)。

研究團(tuán)隊(duì)通過使用基本元胞自動(dòng)機(jī)(ECAs)進(jìn)行實(shí)驗(yàn),這是一種簡單的系統(tǒng),其中每個(gè)單元的未來狀態(tài)僅取決于自身和相鄰兩個(gè)單元的狀態(tài)。盡管規(guī)則簡單,但這種系統(tǒng)可以產(chǎn)生從簡單到高度復(fù)雜的多樣化模式。研究人員隨后評(píng)估了這些語言模型在推理任務(wù)和國際象棋走子預(yù)測(cè)等方面的表現(xiàn)。

研究結(jié)果表明,在更復(fù)雜ECA規(guī)則上訓(xùn)練的AI模型在后續(xù)任務(wù)中表現(xiàn)更為出色。特別是在Wolfram分類中的Class IV類ECAs上訓(xùn)練的模型,展現(xiàn)出最佳性能。這類規(guī)則產(chǎn)生的模式既不完全有序也不完全混沌,而是呈現(xiàn)出一種結(jié)構(gòu)化的復(fù)雜性。

研究人員發(fā)現(xiàn),當(dāng)模型接觸過于簡單的模式時(shí),往往只能學(xué)到簡單的解決方案。相比之下,在更復(fù)雜模式上訓(xùn)練的模型即使在有簡單解決方案的情況下,也能發(fā)展出更復(fù)雜的處理能力。研究團(tuán)隊(duì)推測(cè),這種學(xué)習(xí)表征的復(fù)雜性是模型能夠?qū)⒅R(shí)遷移到其他任務(wù)的關(guān)鍵因素。

這一發(fā)現(xiàn)可能解釋了為什么GPT-3和GPT-4等大型語言模型如此高效。研究人員認(rèn)為,這些模型在訓(xùn)練過程中使用的海量且多樣化的數(shù)據(jù),可能創(chuàng)造了類似于他們研究中復(fù)雜ECA模式的效果。