AI無法解決美國數學奧林匹克題目!專家分析數學問題上缺乏理解!
瑞士與保加利亞研究團隊發現AI模型生成複雜數學證明的局限性,準確度只達24%。
近日,研究人員提交了一項引人注目的研究,揭示了當前模擬推理人工智慧(AI)模型的局限性,特別是在複雜數學證明的生成上。這項研究由瑞士蘇黎世聯邦理工學院(ETH Zurich)和保加利亞索非亞大學的INSAIT機構的團隊主導,主要探討了這些最新一代的AI模型在應對高難度數學題目時的表現。
在過去的幾年中,模擬推理模型如OpenAI的各種版本,聲稱能夠提供類似人類的推理過程,尤其是在數學問題上表現不俗。這些模型具備「思考鏈」(chain-of-thought)能力,意味著它們能夠逐步展示解題過程。然而,研究結果顯示,在面對例如美國數學奧林匹克(USAMO)這類要求高的數學證明時,大多數模型的準確度卻低於5%。其中,表現最好的模型只能獲得約24%的得分。
研究發現,雖然這些AI模型能夠準確地解決基本的數學題,比如簡單的加減乘除,但它們在邏輯推理和新穎問題解決方面仍然存在重大缺陷。例如,在一個要求在特定條件下述明所有正整數的問題中,某些模型錯誤地排除了合法的解,這顯示出模型在掌握邏輯推理時的薄弱。這類結果不僅體現了AI在複雜推理上所面臨的困難,也突顯了AI技術在實際應用中的局限。
針對AI模型在數學證明方面的失敗,研究者指出,這些模型的推理能力主要依賴於他們在訓練數據中的模式識別,而非真實的數學理解。AI通常表現出對別人輸入的依賴性,缺乏自主創造新數學推理的能力。這就像學校中那些在選擇題中表現優異但在需要邏輯解釋的情境中卻無法發揮的學生。
這項研究引發了業界對於AI技術未來發展策略的討論。許多專家認為,從根本上解決這些AI模型的推理不足,必須採取新的訓練架構和方法。例如,深化語義理解和強化結構化邏輯推理能力,將是提升AI解決實際問題能力的關鍵。
隨著企業和學術界對模擬推理AI的需求日益增加,了解這些系統實際上能做什麼,並確保它們在高風險環境中的應用是安全的,變得愈發重要。這不僅涉及到技術本身,也包括對用戶教育的需求,以幫助他們批判性地評估AI生成的內容,避免因不準確或邏輯錯誤而導致的決策失誤。
研究強調,加強AI系統的透明度和可解釋性為未來的方向,特別是在醫療、金融及其它需要高精度判斷的行業中,進一步的技術創新將可能推動AI推理能力的邊界,開創更多應用場景。隨著時代的推移,如何矯正當前AI思維的局限,無疑將是科技界一個亟需解決的重大挑戰。