來(lái)自德國(guó)達(dá)姆施塔特工業(yè)大學(xué)的最新研究揭示了一個(gè)令人深思的現(xiàn)象:即便是當(dāng)前最先進(jìn)的AI圖像模型,在面對(duì)簡(jiǎn)單的視覺(jué)推理任務(wù)時(shí)也會(huì)出現(xiàn)明顯失誤。這項(xiàng)研究結(jié)果對(duì)AI視覺(jué)能力的評(píng)估標(biāo)準(zhǔn)提出了新的思考。

研究團(tuán)隊(duì)采用了由俄羅斯科學(xué)家Michail Bongard設(shè)計(jì)的Bongard問(wèn)題作為測(cè)試工具。這類視覺(jué)謎題由12張簡(jiǎn)單圖像組成,分為兩組,要求識(shí)別出區(qū)分這兩組的規(guī)則。對(duì)于大多數(shù)人來(lái)說(shuō),這種抽象推理任務(wù)并不困難,但AI模型的表現(xiàn)卻令人意外。

即便是目前被認(rèn)為最先進(jìn)的多模態(tài)模型GPT-4o,在100個(gè)視覺(jué)謎題中也僅成功解決了21個(gè)。其他知名AI模型如Claude、Gemini和LLaVA的表現(xiàn)更不盡如人意。這些模型在識(shí)別垂直和水平線條,或判斷螺旋方向等基礎(chǔ)視覺(jué)概念時(shí)都表現(xiàn)出明顯的困難。

研究人員發(fā)現(xiàn),即使在提供多項(xiàng)選擇的情況下,AI模型的表現(xiàn)也僅有輕微提升。只有在嚴(yán)格限制可能答案數(shù)量的條件下,GPT-4和Claude的成功率才分別提升至68個(gè)和69個(gè)謎題。通過(guò)深入分析四個(gè)特定案例,研究團(tuán)隊(duì)發(fā)現(xiàn)AI系統(tǒng)有時(shí)在達(dá)到"思考"和"推理"階段之前,就已經(jīng)在基礎(chǔ)視覺(jué)感知層面出現(xiàn)了問(wèn)題,但具體原因仍難以確定。

這項(xiàng)研究也引發(fā)了對(duì)AI系統(tǒng)評(píng)估標(biāo)準(zhǔn)的反思。研究團(tuán)隊(duì)指出:"為什么視覺(jué)語(yǔ)言模型在已建立的基準(zhǔn)測(cè)試中表現(xiàn)出色,卻在看似簡(jiǎn)單的Bongard問(wèn)題上遇到困難?這些基準(zhǔn)測(cè)試在評(píng)估真實(shí)推理能力方面的意義究竟有多大?"這些問(wèn)題的提出,暗示了當(dāng)前AI評(píng)估體系可能需要重新設(shè)計(jì),以更準(zhǔn)確地衡量AI的視覺(jué)推理能力。

這項(xiàng)研究不僅展示了當(dāng)前AI技術(shù)的局限性,也為未來(lái)AI視覺(jué)能力的發(fā)展指明了方向。它提醒我們,在為AI的快速進(jìn)步歡呼之際,也要清醒地認(rèn)識(shí)到AI在基礎(chǔ)認(rèn)知能力方面仍有待提升的空間。