通義靈碼軟件工程大模型獲頂會(huì )最高獎

2025-07-03 15:44:33 來(lái)源: 阿里云

  近日,軟件領(lǐng)域國際頂會(huì )ISSTA 2025(International Symposium on Software Testing and Analysis)公布最高獎項-杰出論文獎——

  「通義靈碼軟件工程大模型SWE-GPT」

  成為唯一獲得該獎項的企業(yè)論文

  此次獲獎的論文《SWE-GPT: A Process-Centric Language Model for AutomatedSoftware Improvement》詳細介紹了通義靈碼SWE-GPT的訓練框架與訓練過(guò)程。

  ISSTA評審委員會(huì )專(zhuān)家點(diǎn)評稱(chēng):“ SWE-GPT是一種新穎的以「軟件開(kāi)發(fā)流程為中心」的大語(yǔ)言模型,它提出的數據合成方案真實(shí)模擬了實(shí)際軟件開(kāi)發(fā)過(guò)程,這是AI輔助軟件開(kāi)發(fā)領(lǐng)域前進(jìn)的重要一步!

  論文詳細解讀

  //數據合成

  通義靈碼SWE-GPT以通義千問(wèn)Qwen2.5為基座模型,并在后訓練階段進(jìn)一步模擬人類(lèi)程序員的認知過(guò)程,學(xué)習軟件工程領(lǐng)域復雜問(wèn)題的端到端多步驟解決過(guò)程。

  同時(shí),團隊創(chuàng )新性采用合成數據進(jìn)行迭代模型訓練,通過(guò)模擬真實(shí)軟件開(kāi)發(fā)中的動(dòng)態(tài)交互與迭代問(wèn)題解決過(guò)程,比如代碼庫理解、故障定位和補丁生成等,有效解決現有基礎大模型的局限性。

  // 模型訓練

  通義靈碼SWE-GPT在模型訓練階段,為了增強訓練過(guò)程的魯棒性,通義靈碼團隊還采用了課程學(xué)習的方法,隨著(zhù)迭代的進(jìn)行,逐步加入當前模型未能解決的問(wèn)題,循序漸進(jìn)提高訓練樣本的復雜度,確保模型鞏固基礎能力。

  //實(shí)驗測評

  此前的實(shí)驗結果顯示,在權威基準SWE-bench-Verified(500項真實(shí)GitHub任務(wù))測試中, SWE-GPT 72B以 30.20%問(wèn)題解決率刷新開(kāi)源300109)紀錄,較Llama 3.1 405B提升22.76%,接近同時(shí)期閉源模型GPT-4o的效果。

  不僅如此,輕量級SWE-GPT 7B模型以 18.20%的解決率超越Llama 3.1 70B(17.20%),展現了小尺寸模型在復雜軟件維護任務(wù)中的實(shí)用價(jià)值。

  //延伸應用

  更重要的是,SWE-GPT是一個(gè)通用框架,可以進(jìn)行持續拓展,比如以其為基礎引入思考能力和測試時(shí)擴展(test-time scaling),小尺寸(32B)模型在SWE-bench-Verified上可以達到46%的問(wèn)題解決率,接近業(yè)界領(lǐng)先的閉源模型 Claude 3.5 Sonnet v2 (46.20%) 和 OpenAI o1 (45.60%) 。

  通義靈碼算法負責人李永彬表示:“基于大模型的軟件工程智能化領(lǐng)域的研究和應用正在快速發(fā)展,僅靠現有基礎模型仍無(wú)法滿(mǎn)足真實(shí)場(chǎng)景的需求,SWE-GPT為AI 輔助軟件開(kāi)發(fā)提出了新范式!

  ISSTA是軟件工程領(lǐng)域最具影響力的學(xué)術(shù)會(huì )議之一,該會(huì )議匯聚了學(xué)術(shù)界和工業(yè)界在軟件測試、程序分析、代碼質(zhì)量保障等技術(shù)的前沿研究與應用。本屆ISSTA共收到550篇投稿,最終錄用107篇,其中僅有9篇被評為杰出論文。

關(guān)注同花順財經(jīng)(ths518),獲取更多機會(huì )

0

+1
  • 三德科技
  • 沃爾核材
  • 電光科技
  • 鈞崴電子
  • 金安國紀
  • 長(cháng)盛軸承
  • 廣和通
  • 科泰電源
  • 代碼|股票名稱(chēng) 最新 漲跌幅