色综合伊人色综合网站中国,《97色伦在色在线播放》,97国产精品人人爽人人做

展會(huì)資訊

| OpenAI百萬(wàn)美元豪測(cè)：頂級(jí)大模型取代不了程序員

GoUpSec點(diǎn)評(píng)：最新權(quán)威測(cè)試顯示，當(dāng)今頂級(jí)大模型甚至無(wú)法取代初級(jí)軟件工程師，科技企業(yè)大裁員，AI不背這個(gè)鍋

當(dāng)Sam Altman宣稱大模型將取代"低階程序員"時(shí)，OpenAI自家的最新研究卻給出了相反的答案。該研究聯(lián)合百名工程師開(kāi)展SWE-Lancer基準(zhǔn)測(cè)試，結(jié)果顯示：面對(duì)價(jià)值百萬(wàn)美元的真實(shí)軟件開(kāi)發(fā)任務(wù)，三大頂尖大模型的總收入竟不足21%，最強(qiáng)者Claude 3.5也僅解決26%技術(shù)問(wèn)題。這場(chǎng)AI與人類(lèi)程序員的"搶飯碗"對(duì)決，暫時(shí)以機(jī)器的慘敗告終。

百萬(wàn)美元懸賞：AI搶不走程序員飯碗？

研究團(tuán)隊(duì)從自由職業(yè)平臺(tái)Upwork精選1,488個(gè)真實(shí)開(kāi)發(fā)任務(wù)，總賞金高達(dá)100萬(wàn)美元。這些任務(wù)被分為兩類(lèi)：技術(shù)攻堅(jiān)（IC，764項(xiàng)，41.5萬(wàn)美元）需解決程序錯(cuò)誤或開(kāi)發(fā)新功能；項(xiàng)目管理（Manager，724項(xiàng)，58.5萬(wàn)美元）則需評(píng)估技術(shù)方案優(yōu)劣。三大參賽選手——OpenAI的GPT-4o、o1和Anthropic的Claude 3.5 Sonnet被置于完全斷網(wǎng)的Docker容器中，以防止其"偷看"GitHub代碼。

為確保測(cè)試真實(shí)性，研究人員構(gòu)建了堪稱嚴(yán)苛的評(píng)估體系：首先由專業(yè)工程師編寫(xiě)Playwright自動(dòng)化測(cè)試腳本，模擬用戶登錄、金融交易等真實(shí)操作流程；每項(xiàng)AI生成的代碼方案需經(jīng)過(guò)專業(yè)軟件工程師的"三重驗(yàn)證"，確保其能通過(guò)所有測(cè)試用例；最終結(jié)果直接接入企業(yè)級(jí)報(bào)銷(xiāo)平臺(tái)Expensify，完全復(fù)現(xiàn)真實(shí)商業(yè)場(chǎng)景。

經(jīng)過(guò)測(cè)試，研究人員發(fā)現(xiàn)，沒(méi)有一個(gè)模型能包攬100萬(wàn)美元的全部任務(wù)獎(jiǎng)勵(lì)。表現(xiàn)最好的Claude 3.5 Sonnet（OpenAI自家模型o1和GPT-4o分列二三位）也只賺了20.8萬(wàn)美元，解決了26.2%的個(gè)人貢獻(xiàn)者問(wèn)題。然而，研究人員指出，“它的大部分解決方案都是錯(cuò)誤的，可信部署需要更高的可靠性。”

LLM嘗試不同類(lèi)型軟件開(kāi)發(fā)任務(wù)的通過(guò)率來(lái)源：OpenAI

有趣的是，在技術(shù)方案評(píng)估的管理任務(wù)（SWE Manager）上，所有大模型都表現(xiàn)得更好（上圖）。

AI開(kāi)發(fā)的致命短板：定位快，但治標(biāo)不治本

研究者指出，頂級(jí)大模型普遍存在致命短板：AI能快速定位bug（速度遠(yuǎn)超人類(lèi)），但通常對(duì)問(wèn)題如何跨越多個(gè)組件或文件表現(xiàn)出有限的理解，無(wú)法解決根本原因，導(dǎo)致解決方案不正確或不夠全面。

"就像急診室里只會(huì)貼創(chuàng)可貼的醫(yī)生。"研究報(bào)告犀利指出，大模型處理bug時(shí)呈現(xiàn)明顯模式：通過(guò)關(guān)鍵詞搜索快速鎖定可疑代碼段，卻無(wú)法理解跨組件/文件的深層關(guān)聯(lián)。典型案例中，AI會(huì)機(jī)械修改表面錯(cuò)誤代碼，卻放任引發(fā)bug的根源繼續(xù)潛伏——這種"頭痛醫(yī)頭"的解決方式，導(dǎo)致多數(shù)方案僅能暫時(shí)消除癥狀。

值得玩味的是，盡管當(dāng)前測(cè)試顯示AI尚難取代初級(jí)軟件工程師，但研究者警告："這種優(yōu)勢(shì)可能不會(huì)持續(xù)太久。"當(dāng)被問(wèn)及是否擔(dān)心研究結(jié)果影響行業(yè)信心時(shí)，OpenAI團(tuán)隊(duì)回應(yīng)稱："揭示技術(shù)邊界，正是為了突破邊界。"這場(chǎng)人機(jī)博弈的終局，或許比我們想象中來(lái)得更快。

精品视频一区二区三区在线观看,国产精品综合久久久,国产成人一区二区三区视频,国产精品成人一区二区

咨詢熱線：17602105059

展會(huì)資訊

咨詢熱線

17602105059

我們用心服務(wù)好每一個(gè)參展廠商和參會(huì)人員