GoUpSec點(diǎn)評(píng):最新權(quán)威測(cè)試顯示,當(dāng)今頂級(jí)大模型甚至無(wú)法取代初級(jí)軟件工程師,科技企業(yè)大裁員,AI不背這個(gè)鍋
當(dāng)Sam Altman宣稱大模型將取代"低階程序員"時(shí),OpenAI自家的最新研究卻給出了相反的答案。該研究聯(lián)合百名工程師開(kāi)展SWE-Lancer基準(zhǔn)測(cè)試,結(jié)果顯示:面對(duì)價(jià)值百萬(wàn)美元的真實(shí)軟件開(kāi)發(fā)任務(wù),三大頂尖大模型的總收入竟不足21%,最強(qiáng)者Claude 3.5也僅解決26%技術(shù)問(wèn)題。這場(chǎng)AI與人類(lèi)程序員的"搶飯碗"對(duì)決,暫時(shí)以機(jī)器的慘敗告終。
百萬(wàn)美元懸賞:AI搶不走程序員飯碗?
研究團(tuán)隊(duì)從自由職業(yè)平臺(tái)Upwork精選1,488個(gè)真實(shí)開(kāi)發(fā)任務(wù),總賞金高達(dá)100萬(wàn)美元。這些任務(wù)被分為兩類(lèi):技術(shù)攻堅(jiān)(IC,764項(xiàng),41.5萬(wàn)美元)需解決程序錯(cuò)誤或開(kāi)發(fā)新功能;項(xiàng)目管理(Manager,724項(xiàng),58.5萬(wàn)美元)則需評(píng)估技術(shù)方案優(yōu)劣。三大參賽選手——OpenAI的GPT-4o、o1和Anthropic的Claude 3.5 Sonnet被置于完全斷網(wǎng)的Docker容器中,以防止其"偷看"GitHub代碼。
為確保測(cè)試真實(shí)性,研究人員構(gòu)建了堪稱嚴(yán)苛的評(píng)估體系:首先由專業(yè)工程師編寫(xiě)Playwright自動(dòng)化測(cè)試腳本,模擬用戶登錄、金融交易等真實(shí)操作流程;每項(xiàng)AI生成的代碼方案需經(jīng)過(guò)專業(yè)軟件工程師的"三重驗(yàn)證",確保其能通過(guò)所有測(cè)試用例;最終結(jié)果直接接入企業(yè)級(jí)報(bào)銷(xiāo)平臺(tái)Expensify,完全復(fù)現(xiàn)真實(shí)商業(yè)場(chǎng)景。
經(jīng)過(guò)測(cè)試,研究人員發(fā)現(xiàn),沒(méi)有一個(gè)模型能包攬100萬(wàn)美元的全部任務(wù)獎(jiǎng)勵(lì)。表現(xiàn)最好的Claude 3.5 Sonnet(OpenAI自家模型o1和GPT-4o分列二三位)也只賺了20.8萬(wàn)美元,解決了26.2%的個(gè)人貢獻(xiàn)者問(wèn)題。然而,研究人員指出,“它的大部分解決方案都是錯(cuò)誤的,可信部署需要更高的可靠性。”
LLM嘗試不同類(lèi)型軟件開(kāi)發(fā)任務(wù)的通過(guò)率 來(lái)源:OpenAI
有趣的是,在技術(shù)方案評(píng)估的管理任務(wù)(SWE Manager)上,所有大模型都表現(xiàn)得更好(上圖)。
AI開(kāi)發(fā)的致命短板:定位快,但治標(biāo)不治本
研究者指出,頂級(jí)大模型普遍存在致命短板:AI能快速定位bug(速度遠(yuǎn)超人類(lèi)),但通常對(duì)問(wèn)題如何跨越多個(gè)組件或文件表現(xiàn)出有限的理解,無(wú)法解決根本原因,導(dǎo)致解決方案不正確或不夠全面。
"就像急診室里只會(huì)貼創(chuàng)可貼的醫(yī)生。"研究報(bào)告犀利指出,大模型處理bug時(shí)呈現(xiàn)明顯模式:通過(guò)關(guān)鍵詞搜索快速鎖定可疑代碼段,卻無(wú)法理解跨組件/文件的深層關(guān)聯(lián)。典型案例中,AI會(huì)機(jī)械修改表面錯(cuò)誤代碼,卻放任引發(fā)bug的根源繼續(xù)潛伏——這種"頭痛醫(yī)頭"的解決方式,導(dǎo)致多數(shù)方案僅能暫時(shí)消除癥狀。
值得玩味的是,盡管當(dāng)前測(cè)試顯示AI尚難取代初級(jí)軟件工程師,但研究者警告:"這種優(yōu)勢(shì)可能不會(huì)持續(xù)太久。"當(dāng)被問(wèn)及是否擔(dān)心研究結(jié)果影響行業(yè)信心時(shí),OpenAI團(tuán)隊(duì)回應(yīng)稱:"揭示技術(shù)邊界,正是為了突破邊界。"這場(chǎng)人機(jī)博弈的終局,或許比我們想象中來(lái)得更快。