微軟新報告揭露:AI程式除錯能力不如人類,成功率僅48.4%!
最新研究指出,雖然AI持續進步,但在程式除錯任務中仍無法替代人類,需更專業的訓練數據。
在人工智能(AI)快速發展的大環境下,許多專家仍然質疑其在軟體開發領域,尤其是除錯過程中的應用潛力。最近的一項研究顯示,AI目前尚未準備好完全取代人類程式設計師進行除錯工作,這一點由微軟研究部門的最新報告印證。研究小組開發了一個名為「debug-gym」的工具,旨在探索AI在除錯中的能力。
微軟的研究人員在一系列測試中發現,即使使用了先進的AI模型,這些模型在解決實際程式錯誤方面的成功率依然低於預期。測試包括長達300個除錯任務的SWE-bench Lite基準測試,結果顯示,儘管使用了一些工具來輔助除錯,但AI模型的成功率不超過48.4%。
這項研究強調了AI在除錯任務方面的主要挑戰。微軟的研究人員指出,AI模型在使用除錯工具的過程中遇到困難,對於如何利用這些工具來解決不同的問題缺乏理解。這些模型多數依賴於其訓練數據,而當前針對「序列決策過程」(如除錯的行為記錄)的數據相對稀缺,這阻礙了其性能提升。
微軟的debug-gym工具旨在增強AI模型的互動能力,該工具能夠擴展AI代理的行動與觀察空間,並提供必要的反饋,使其能夠設置斷點、導航程式碼、打印變數值以及創建測試函數。研究結果表明,即便獲得工具輔助,AI仍難以達成與經驗豐富的人類開發者相當的水平。
考慮到這些挑戰,研究者認為提升AI模型的除錯能力需要專門的訓練數據。未來,他們打算透過訓練一種專門的資訊尋求模型來改進AI的互動除錯能力,以獲得必要的背景知識以提高其對錯誤的識別和修正能力。
許多業界專家也對AI取代程式設計師的前景持謹慎態度。微軟共同創辦人比爾·蓋茲(Bill Gates)以及其他科技公司的高層領導如 Replit CEO Amjad Masad 和 Okta CEO Todd McKinnon都表示,程式設計這一職業不會很快消失,反而會有更多機會與AI工具共存。
目前的研究結果明確顯示,即便AI技術不斷進步,其在程式碼除錯方面的表現仍然無法與人類專業人士相媲美。未來的發展或將集中於開發更為強大的AI模型,這些模型能夠在更多的開發環境中進行有效的除錯,從而更加充分地釋放開發者的潛能。