微軟新報告揭露：AI程式除錯能力不如人類，成功率僅48.4%！

野物堂 · 4/22/2025

最新研究指出，雖然AI持續進步，但在程式除錯任務中仍無法替代人類，需更專業的訓練數據。

示意圖 / Credit: Lukas on Pexels

在人工智能（AI）快速發展的大環境下，許多專家仍然質疑其在軟體開發領域，尤其是除錯過程中的應用潛力。最近的一項研究顯示，AI目前尚未準備好完全取代人類程式設計師進行除錯工作，這一點由微軟研究部門的最新報告印證。研究小組開發了一個名為「debug-gym」的工具，旨在探索AI在除錯中的能力。

微軟的研究人員在一系列測試中發現，即使使用了先進的AI模型，這些模型在解決實際程式錯誤方面的成功率依然低於預期。測試包括長達300個除錯任務的SWE-bench Lite基準測試，結果顯示，儘管使用了一些工具來輔助除錯，但AI模型的成功率不超過48.4%。

這項研究強調了AI在除錯任務方面的主要挑戰。微軟的研究人員指出，AI模型在使用除錯工具的過程中遇到困難，對於如何利用這些工具來解決不同的問題缺乏理解。這些模型多數依賴於其訓練數據，而當前針對「序列決策過程」（如除錯的行為記錄）的數據相對稀缺，這阻礙了其性能提升。

微軟的debug-gym工具旨在增強AI模型的互動能力，該工具能夠擴展AI代理的行動與觀察空間，並提供必要的反饋，使其能夠設置斷點、導航程式碼、打印變數值以及創建測試函數。研究結果表明，即便獲得工具輔助，AI仍難以達成與經驗豐富的人類開發者相當的水平。

考慮到這些挑戰，研究者認為提升AI模型的除錯能力需要專門的訓練數據。未來，他們打算透過訓練一種專門的資訊尋求模型來改進AI的互動除錯能力，以獲得必要的背景知識以提高其對錯誤的識別和修正能力。

許多業界專家也對AI取代程式設計師的前景持謹慎態度。微軟共同創辦人比爾·蓋茲（Bill Gates）以及其他科技公司的高層領導如 Replit CEO Amjad Masad 和 Okta CEO Todd McKinnon都表示，程式設計這一職業不會很快消失，反而會有更多機會與AI工具共存。

目前的研究結果明確顯示，即便AI技術不斷進步，其在程式碼除錯方面的表現仍然無法與人類專業人士相媲美。未來的發展或將集中於開發更為強大的AI模型，這些模型能夠在更多的開發環境中進行有效的除錯，從而更加充分地釋放開發者的潛能。