產經

AI泡沫恐3年內爆破

有研究指AI大語言模型的推理能力「脆弱」,似乎不具備邏輯推理能力。 有研究指AI大語言模型的推理能力「脆弱」,似乎不具備邏輯推理能力。
有研究指AI大語言模型的推理能力「脆弱」,似乎不具備邏輯推理能力。
研究質疑欠推理能力 巨額投資回報存疑
自OpenAI於2022年底推出ChatGPT之後,人工智能(AI)就在一夜間成為科技界、投資界最受關注的技術。不過,科技龍頭蘋果公司(Apple Inc.)的研究部門卻在最近發布了一篇論文,直指如今的AI大語言模型(LLM)的推理能力「脆弱」,似乎不具備真正的邏輯推理能力。隨着市場對AI實際應用潛力開始產生質疑,甚至擔心科技企業過度投資AI未能帶來回報。摩根大通資產及財富管理市場及投資策略部主席岑博智(Michael Cembalest)亦指出,未來兩年內AI的應用趨勢要進一步提高,才可以避免泡沫爆破。
Apple的研究科學家Mehrdad Farajtabar等人發表了一篇論文,對LLM的推理能力提出了尖銳的質疑,甚至稱LLM「可能只是複雜的模式匹配(sophisticated pattern matching),而不是真正的邏輯推理(logical reasoning)」。此番結論基本上是否定了LLM的發展方向。儘管該論文未有完全否認LLM作為一款AI模型種類的作用,但點明了包括ChatGPT在內所有以LLM為基礎的AI,可能都會在某個階段陷入發展瓶頸,無法更進一步。
導入數據 死記硬背
要理解為何Apple的研究員會得出如此觀點,就要從LLM的特質開始解釋。在過去AI的研究方向主要集中在演算法的改進,試圖利用更高明、更先進的演算法,令AI變得更加「聰明」,用邏輯推理的方法去處理問題。而LLM則採用了另一條道路,透過大量的數據導入,當AI模型所吸收的資料愈多,就能夠「記住」更多的事實,最終「由量變引起質變」,使AI極備回答大多數問題的能力。
不過,這種類似於「死記硬背」的方式,導致LLM在特定情景下效率奇低,尤其在處理簡單數學問題時,經常會計錯數。幾乎所有用過ChatGPT的用戶都不難留意到這一點。而Farajtabar最新的論文便是基於此進行的深度分析,研究團隊把用於測試AI數學能力的GSM8K題目,在不影響題目邏輯的前設之下,對題目中的人名、地名、個別數值進行了隨機改變,得出了GSM-Symbolic工具,並以此測試各AI的能力。
隨機改問題後頻計錯
GSM8K是「Grade School Math 8K」的縮寫,是用來評估數學問題解決能力的資料集。這個資料集主要包含小學等級的數學題目(大約8,000道題目),由於只涉及簡單運算,一般人類中學生能夠完全做對所有題目。
然而,針對AI模型的研究結果卻發現,包括Llama、Phi、Gemma、Mistral等開源模型,以及GPT-4o和o1系列等閉源模型,一旦用上了GSM-Symbolic的問題,答題的正確率會大幅下滑。簡單來說,就好像把數學題中的「小明」名字換成「小強」,把「蘋果」換成「香蕉」,或者在問題中加入一些無關緊要的句子,這類LLM就會突然「想不通」答案,開始頻頻計錯數。論文的作者認為,這正正反映出LLM仍然不具備邏輯推理能力,才會導致這樣的結果。畢竟如果LLM能夠推理,不會因為題目人名不懂作答。
即使未來這類LLM使用了更多擴展資料、參數和計算量,或者為下一代Phi-4、Llama-4、GPT-5使用更好的訓練資料,最終得出可能只會升級成為更好的「匹配工具」,而不是一個真正具推理能力的工具。
或步元宇宙炒作後塵
另邊廂,市場最近亦開始對於AI投資產生了更多的質疑,特別是LLM的訓練及運作需要用到大量的算力,導致許多科企都要斥巨資建設AI伺服器數據中心。這些投入到底能否帶來合理的回報,目前仍然是未知之數。一直關注AI發展的岑博智認為,目前擔心AI泡沫爆破可能為時尚早,但「審判日」可能會在未來兩至3年內來臨,屆時如果AI未能夠展現其價值,可能會步上此前「元宇宙」炒作的後塵。
標指4大科企資本開支佔比預測標指4大科企資本開支佔比預測
標指4大科企資本開支佔比預測
人人做記者
爆料方法 :
爆料熱線:
(852) 3600 3600
傳 真:
(852) 3600 8800
SMS:
(852) 6500 6500
人人做記者