研究人員在離線學習加入多樣性激勵,減輕創意寫作“AI味”

由 DeepTech深科技 發佈於 科技

'25-10-05

自 2025 年起,AI 業內先後推出了 Cursor、Gemini CLI、Qwen CLI、GPT-codex 等基於大模型的自動化代碼生成工具,展現了 AI 發展的下一個風口——即利用大模型調用各種分析工具,更好地完成自動化代碼生成或輔助人類更快速地進行代碼工作。


基於此,上海交通大學本科校友、美國西北大學博士生鬱家豪和所在團隊研究瞭如何提高大模型在代碼生成這項複雜任務上的性能。


圖 | 鬱家豪(來源:鬱家豪)


經調研,測試時拓展(TTS,Testing Time Scaling)被廣泛應用在代碼生成上,即先是生成多個候補答案,並通過對比選取最好的方案,來取得相對較好的結果。同時,離線學習(offline learning),即提前生成好數據再讓大模型進行學習也是 AI 社區中一種主流的做法。相比在線學習(online learning)需要同時採集數據和訓練模型的做法,離線學習所需要的計算資源更低,更方便人們開展算法實驗。


但是,研究團隊發現離線學習會在一定程度上損失大模型生成回答的多樣性,從而會降低測試時拓展時所帶來的性能提升。在代碼生成任務中,如果生成的多個候補回答非常相近就會造成冗餘,以至於並不能很好地提升性能。因此,如何在離線學習的場景下,解決模型生成回答多樣性不足的問題,是研究團隊的工作重點。


爲了解決這一問題,他們提出一種新型訓練方法,即在離線學習的損失項中加入了鼓勵多樣性這一項,通過控制多樣性的做法,使得模型在離線學習之後能夠生成不一樣的候補回答,而不是生成相似的單一回答。這樣一來,在後續的測試時拓展時,最終的模型準確率相比常規的離線學習算法有着很高提升。


最終,研究團隊在開源數據集 SWE-Bench 上驗證了相關結果,證明其所訓練的模型取得了 SWE-Bench-Verified 開源榜單第四、SWE-Bench-Lite 開源榜單第一的好成績,證明了這一算法的合理性。


通過和其他團隊的在線學習訓練模型方案加以對比,研究團隊發現本次方法可以在一定程度上彌補離線學習相比在線學習的天然多樣性不足,爲在需要測試時拓展的複雜問題上引申出了“除在線學習以外”的新思路,即引入了鼓勵多樣性的離線學習的新思路。


(來源:https://arxiv.org/pdf/2509.12434)


在應用前景上:


首先,在一些需要多輪交互以及調用工具的複雜任務比如代碼生成、數學競賽、網絡攻防奪旗賽(CTF,Capture The Flag)中,可以使用類似技術更高效地進行模型訓練。另外,對於一些複雜的數學競賽題目來說,當使用那些鼓勵生成多樣性訓練的模型的時候,在多次嘗試之中可以給出不同的解題思路,從而提高最終的解題率。


其次,在創意寫作方面,大模型的創意寫作一直被詬病“AI 味很重”,AI 經常被吐槽喜歡使用一些固定句式。而通過鼓勵多樣性,本次方法也能在某種程度上減輕模型的固化回答,使得創意寫作更加優質和更加多樣化,從而更好地啓發人類的寫作思路。


研究團隊表示,研究中最難忘的事情便是離線學習數據採集的模型選擇。他們最初計劃使用 Anthropic 的商業模型 Claude Sonnet 4 進行採集,採集一小部分數據之後發現課題組開銷竟然達到五百多美元。評估一下之後他們發現,要完整地進行數據採集可能需要高達上萬美元的開銷,這超出了課題組的預算。於是,他們開始尋求替代模型,同時替代模型必須具備較好的智能體代碼生成能力。


在此期間,恰逢國產模型(國模)出現了一波井噴式爆發。從 Kimi-K2 到 Qwen3-coder-480B、再到 GLM-4.5,這些國模的價格都遠比 Anthropic 的模型要便宜。研究團隊進行了幾次小樣本採集實驗,結果發現這三個國模的性能都接近 Claude Sonnet 4,完全可以作爲實驗代替模型。更巧的是,GLM-4.5 在發佈之後,其背後公司推出了一個月內試用 1 萬億 token 的套餐,這正好與研究團隊的實驗節奏相吻合。於是,他們使用 GLM-4.5 提供的套餐完成了離線數據採集,採集數據的開銷從預期的上萬美元壓縮到 50 元人民幣。“並且在後學的模型微調中,這些數據的質量也很高,這具體反應在了微調之後的模型性能上。”研究團隊告訴 DeepTech。


同時,研究團隊用於微調的模型也是 Qwen3-coder-30B,這也是一款國模。當前,大模型研究社區也在普遍採用最新 Qwen 模型作爲微調任務。“這些經歷讓我們感慨:在 2023 年,開源領域幾乎只有 Llama,大家進行模型微調研究都只基於 Llama2 進行;在 2025 年,國模已經完成了接力棒的交接,代替 Llama 成爲了開源領域的主流,並且和閉源模型的差距也在不斷縮小。”研究團隊表示。


後續,他們打算針對回答多樣性和測試時拓展的性能加以進一步研究。之所以開展這一方向是因爲:通過評估其他使用閉源模型的研究團隊在 SWE-Bench 上的提交結果,該團隊發現當人們嘗試使用不同模型進行測試時拓展,人們會認爲不同模型產生回答的多樣性更高,也會認爲最後的效果會更加好。


但是,這些都只是經驗之談。截至目前,沒有任何一個研究團隊進行過定量研究。到底多少個不同模型參與測試時拓展最好?如果這些模型之間的性能差距很大,會不會影響最後的效果?“這些問題還沒有人探索過,因此是我們打算後續探索的目標。”研究團隊表示。


參考資料:

https://arxiv.org/pdf/2509.12434

Scroll to Top