這個AI能自己造AI，十幾分鍾寫完代碼，一天交付可用模型-科技-今日熱點-聚焦看點

近日，在 OpenAI 發佈的機器學習工程師基準測試（MLE-bench）中，一個名爲 AIBuildAI 的智能體系統以 63.11% 的整體得分穩居第一。

AIBuildAI 是一個可以自動構建 AI 模型的 AI 智能體。這意味着，你只需給它一個自然語言任務描述和數據文件夾，它就能在一天內獨立完成模型設計、代碼生成、模型訓練、超參數調優、性能評估，並持續迭代改進模型性能。

（來源：受訪者提供）

這個“AI 工程師”背後的主要負責人，正是加州大學聖地亞哥分校（UCSD）電氣與計算機工程系副教授謝澎濤（Pengtao Xie）。他擁有卡內基梅隆大學機器學習系博士背景，研究方向聚焦人類學習技能啓發的機器學習，並將其應用於大語言模型、基礎模型以及生物醫學領域。

據謝澎濤介紹，AIBuildAI 的誕生，最初是爲了解決實驗室內部一個非常現實的困境。

“我們團隊有兩類學生。一類是生物醫學背景的，他們希望用 AI 預測 RNA 功能、蛋白質結構等具體問題，但缺乏建模和編程能力；另一類是 AI 方法背景的，雖然能自己寫代碼，卻要花好幾天甚至幾周反覆實驗。”謝澎濤告訴 DeepTech。

“如果有一個智能體，能讓用戶只用自然語言描述任務，後續所有步驟——模型架構設計、代碼編寫、訓練、超參數調優、性能評估、甚至自我覆盤改進——全部自動完成，那對兩類學生都是巨大解放。”他補充道。

於是，AIBuildAI 項目正式啓動。“智能體本身大約做了半年，但底層的推理、合成數據等技術我們已經積累了好幾年。”謝澎濤透露，團隊對於這款智能體的定位也十分明確：基於成熟 AI 模塊組合設計模型，解決落地性強的常規任務。

據悉，AIBuildAI 是一套模塊化、可閉環運行的 AI 智能體系統，整體分爲三層，各司其職又深度聯動，實現從任務理解到模型交付的全流程無人干預。

頂層是任務理解與決策層。當用戶輸入“預測 RNA 功能”或“蛋白質酶分類”等自然語言指令時，這一層負責解析意圖、判斷任務類型並拆解執行步驟。它是整個系統的“指揮中心”，決定了建模的方向和邏輯。

在這一核心中樞的選擇上，團隊選用了 Claude-Opus-4.6 大模型。“我們測試對比了多個模型，雖然 GPT-5 在某些設計思路上表現出色，但在智能體最關鍵的環節——‘寫代碼’上，Claude 的穩定性、長流程邏輯理解和結構化指令執行力是最適配建模場景的。”

中層是推理與代碼生成層，也是 AIBuildAI 的技術核心，搭載團隊自研的 Dream PRM（過程獎勵模型）、Dream ORM（結果獎勵模型）推理模塊，負責模型設計、代碼編寫、迭代覆盤。PRM 負責步驟級精準推理，ORM 負責結果校驗與優化建議，雙重保障每一步執行不出錯，避免“一步錯、全流程崩”的問題，也是實現自動覆盤改進的關鍵。

底層是執行與訓練層，其承接中層生成的代碼和方案，自動完成數據加載、模型訓練、超參數調優、性能評估、結果輸出，同時管控硬件資源和算力消耗。這一層把上層的“設計思路”轉化爲可運行、可部署的實際模型。

（來源：受訪者提供）

爲了驗證 AIBuildAI 的能力，團隊在 MLE-bench 的 75 個任務（涵蓋醫療、物理、生物等多個學科）中進行了測試。MLE-Bench 是 OpenAI 推出的全球頂尖的全自動機器學習測評平臺，專門考覈 AI 智能體 “獨立構建有效 AI 模型” 的能力，測評覆蓋簡單（Low）、中等（Medium）、高難度（High）三類真實 AI 任務，最終按整體準確率排名，是行業內公認的“全自動 ML 能力試金石”。

AIBuildAI 在這個測評中交出了亮眼的成績，在無測試數據泄露的前提下排名第一。其中簡單任務準確率77.27%；中等任務準確率 61.40%；高難度任務準確率 46.67%；整體綜合準確率 63.11%。

以“蛋白質酶類別預測”爲例，該任務基於發表在 Science 論文的數據集，AIBuildAI 自動構建的模型，效果完全對標論文成果，普通用戶藉助簡化數據集就能快速復現。

“對比學生手動寫代碼需要好幾天，AIBuildAI 十幾分鍾就能完成代碼編寫，大多數數據量不大的任務，一天內就能落地。”謝澎濤介紹道。

目前，AIBuildAI 已深度融入團隊實驗室工作，主要服務生物醫學背景的研究者，完美適配分類、迴歸、序列分析等單模態任務，無論是生物信息數據分析，還是產業界的預測建模需求，都能輕鬆勝任。但對於 AI方向博士生的前沿研究、多模態融合任務，目前仍無法完全滿足，團隊仍在持續迭代優化。

針對用戶關心的系統適配問題，謝澎濤表示，現階段 AIBuildAI 僅支持 Linux 系統，暫無適配 Mac、Windows 的計劃。“AI 模型訓練依賴 GPU，而 99% 的 GPU 環境都部署在 Linux 上，足以覆蓋絕大多數使用場景。”

據悉，AIBuildAI 已開啓中小企業試用，收穫了不少真實反饋，也明確了下一步優化方向。用戶反饋的核心問題集中在兩點：數據處理能力不足，難以應對缺失值、標註混亂等問題；對用戶意圖理解不夠精準。

謝澎濤坦言，數據處理的技術難點並不大，通過增加數據質量檢查工具就能逐步優化，但現實場景中數據問題繁雜，實現泛化適配仍有挑戰。這也是團隊接下來的重點攻堅方向。

對於 AIBuildAI 的長遠未來，謝澎濤有着更宏大的構想：讓智能體具備自我學習、自我進化的能力。“未來它能主動閱讀最新論文，歸納新知識、轉化爲自身技能，不用人工干預就能實現能力升級。”

參考鏈接：

1.https://pengtaoxie.github.io/

2.https://github.com/aibuildai/AI-Build-AI

3.https://github.com/openai/mle-bench/pull/126

4.https://www.science.org/doi/10.1126/science.adf2465

運營/排版：何晨龍

這個AI能自己造AI，十幾分鍾寫完代碼，一天交付可用模型

DJI Avata 360全景無人機評測：雙1/1.1大底雙圖傳，妥妥生產力工具

歐盟做好事+1，新規要求電子產品電池要易於更換，給廠商出了難題

酒蒙子有救了，研究發現人體自帶戒酒開關，孕吐激素或能管住酒癮

核時鐘組裝進入倒計時，人類計時精度迎來量級躍升

相關推薦

連續光變再突破？小米18 Ultra長焦···

OPhone作業還是好抄！爆料稱iPhone···

爲造全球最大芯片工廠，馬斯克或合···

筆記本年初銷量暴跌超40%：太貴都沒···

驍龍8 Elite Gen6 Pro規格曝光：下···

三星摺疊屏手機在北美市場銷量下滑···

時代的眼淚！小米MIUI正式停更

雷軍發文祝賀金山辦公，正式卸任金···

鼎捷眼中的AI原生企業：當公司開始···

重磅官宣！比亞迪加入IATF，新能源···

谷歌新論文證明LLM可以少喫80%內存···

AI科學家登上Nature，論文從構思到···

相關推薦

連續光變再突破？小米18 Ultra長焦曝光，底更大還支持LOFIC技術

OPhone作業還是好抄！爆料稱iPhone正測同款2億主攝和屏下攝像頭

爲造全球最大芯片工廠，馬斯克或合併特斯拉與SpaceX

筆記本年初銷量暴跌超40%：太貴都沒人買

驍龍8 Elite Gen6 Pro規格曝光：下代安卓最強“芯”旗艦，得加錢！

三星摺疊屏手機在北美市場銷量下滑，被摩托羅拉搶風頭

時代的眼淚！小米MIUI正式停更

雷軍發文祝賀金山辦公，正式卸任金山雲董事長一職

鼎捷眼中的AI原生企業：當公司開始像生命體一樣進化

重磅官宣！比亞迪加入IATF，新能源首家，與寶馬、大衆平起平坐

谷歌新論文證明LLM可以少喫80%內存，閃迪盤中跌去50億美元

AI科學家登上Nature，論文從構思到發表全自動化，一篇已通過評審

黃金短期 “避險失靈”，券商資管多隻FOF重倉受挫，周度、月度頻現負收益

這個AI能自己造AI，十幾分鍾寫完代碼，一天交付可用模型

DJI Avata 360全景無人機評測：雙1/1.1大底雙圖傳，妥妥生產力工具

歐盟做好事+1，新規要求電子產品電池要易於更換，給廠商出了難題

酒蒙子有救了，研究發現人體自帶戒酒開關，孕吐激素或能管住酒癮

核時鐘組裝進入倒計時，人類計時精度迎來量級躍升

相關推薦

連續光變再突破？小米18 Ultra長焦···

OPhone作業還是好抄！爆料稱iPhone···

爲造全球最大芯片工廠，馬斯克或合···

筆記本年初銷量暴跌超40%：太貴都沒···

驍龍8 Elite Gen6 Pro規格曝光：下···

三星摺疊屏手機在北美市場銷量下滑···

時代的眼淚！小米MIUI正式停更

雷軍發文祝賀金山辦公，正式卸任金···

鼎捷眼中的AI原生企業：當公司開始···

重磅官宣！比亞迪加入IATF，新能源···

谷歌新論文證明LLM可以少喫80%內存···

AI科學家登上Nature，論文從構思到···

相關推薦

連續光變再突破？小米18 Ultra長焦曝光，底更大還支持LOFIC技術

OPhone作業還是好抄！爆料稱iPhone正測同款2億主攝和屏下攝像頭

爲造全球最大芯片工廠，馬斯克或合併特斯拉與SpaceX

筆記本年初銷量暴跌超40%：太貴都沒人買

驍龍8 Elite Gen6 Pro規格曝光：下代安卓最強“芯”旗艦，得加錢！

三星摺疊屏手機在北美市場銷量下滑，被摩托羅拉搶風頭

時代的眼淚！小米MIUI正式停更

雷軍發文祝賀金山辦公，正式卸任金山雲董事長一職

鼎捷眼中的AI原生企業：當公司開始像生命體一樣進化

重磅官宣！比亞迪加入IATF，新能源首家，與寶馬、大衆平起平坐

谷歌新論文證明LLM可以少喫80%內存，閃迪盤中跌去50億美元

AI科學家登上Nature，論文從構思到發表全自動化，一篇已通過評審

電腦IP地址查詢？ 這四種方法，輕鬆搞定

快壓幫助 - 解壓文件

黃金短期 “避險失靈”，券商資管多隻FOF重倉受挫，周度、月度頻現負收益

歐盟做好事+1，新規要求電子產品電池要易於更換，給廠商出了難題

酒蒙子有救了，研究發現人體自帶戒酒開關，孕吐激素或能管住酒癮

核時鐘組裝進入倒計時，人類計時精度迎來量級躍升

人類首次運輸反物質，我們離弄清宇宙爲什麼全是物質又近了一步

哺乳動物克隆可以無限繼續嗎？20年實驗給出答案

讓生活“靜”下來：低噪聲產品制度如何讓居民睡個好覺？

年銷量跌至1.5萬臺，斯柯達汽車宣佈年中退出中國市場！

大腦冷凍十年後，復活的希望有多大？

電腦IP地址查詢？這四種方法，輕鬆搞定