AI智能體,爲什麼看不懂?|《財經》封面

由 財經雜誌 發佈於 財經

'25-07-21





AI智能體的能力是由大模型的能力決定的,暫時不成熟的原因是目前大模型的準確率和邏輯推理能力,尤其是對複雜任務的理解和規劃能力還不夠高

文|《財經》研究員 吳俊宇 周源 黃思韻

編輯 | 謝麗容


編者按

幾個月前,國際IT諮詢機構Gartner給AI智能體(Agentic AI,代理式AI)算了一筆賬。預測到2028年,即三年後,全球33%的企業軟件將包含Agent(代理),在2024年,該比例不到1%;到2028年,15%的日常工作將由Agent自主完成,2024年該比例接近0%。
基於人工智能大模型能力的新一代AI創新應用,AI智能體即將大幅度替代人類在很多領域的具體思考與開發創造,一個會有成千上萬AI智能體不斷湧現的創新應用時代正加快到來,隨之而來的顛覆效應和挑戰無可迴避,唯有積極擁抱。
在《財經》近期密集的專業調研中,我們發現一個變化——AI確實正在快速取代程序員的工作。接受調研的大型科技公司或大型商業公司的相關人士告訴我們,他們所在的機構,有20%甚至80%的程序正在由專業的AI工具來寫。這個變化僅僅發生在最近一年間。
程序員是離AI最近的工種,AI改變一切的風潮,最先吹到了程序員羣體。一個可以被預見的趨勢是,歷史不會倒退,未來,越來越多的工種將被AI改變,AI智能體將徹底介入人類的工作生活,改變現有社會的運行進程。
從AI的視角來看,人類社會正在快速駛入一個智能體時代。美國硅谷今年以來炙手可熱的“個人獨角獸”概念正是基於這個背景——投資人普遍相信,在AI技術的快速迭代趨勢下,AI智能體會越來越取代創業公司中“人”的角色,一個人可能就能在多個AI智能體員工的協同幫助下,創建一家獨角獸公司。
對於個人來說,智能體時代,人們可以晚上睡前給Agent安排寫文檔、查資料、製作PPT、購買機票等工作。一覺醒來之後再查收工作成果。
接下來會發生什麼樣的變化?令人興奮又擔憂。
一個革命性技術(比如AI)顛覆商業和社會的路徑通常會經歷幾個階段:技術萌芽—技術成熟—基於該技術的應用和產品出現、普及—應用和產品顛覆人類工作和生活習慣、經濟和社會格局。
按照過去一年的變化,AI技術的進度條正狂奔在第二和第三階段之間。AI智能體是這個階段的關鍵詞。
此時很有必要進一步解釋一下AI智能體究竟具備什麼能力。我們可以理解它是一種能夠感知其所處環境,基於自身的知識和算法進行自主決策,並採取行動以實現特定目標的智能實體。簡單來說,AI智能體就像是一個擁有“感知-思考-行動”能力的數字生命體,它能夠在複雜多變的環境中獨立運作,完成各種任務。
也就是說,AI智能體將是一個“類人助理”,或“類人員工”。當然,根據《財經》的綜合調研和觀察,無論在美國還是在中國,這兩個全球AI技術產業雙極國家,AI智能體目前均處於方興未艾階段。
但在投資和技術的雙重加持下,AI智能體正在快速進化。
7月10日,特斯拉創始人Elon Musk發佈了Grok 4。與過去市面上的大語言模型(LLM)不同,Grok 4是一款強調多智能體協作、多模態交互和實時聯網能力的全新形態AI系統。馬斯克在洋洋灑灑的介紹中給這款大語言模型做了一個定性:“它幾乎比所有學科的研究生都更聰明。”
六天後的7月16日,軟銀集團創始人孫正義與OpenAI CEO(首席執行官)薩姆·奧爾特曼在SoftBank World2025活動上對話,在這場對話中,孫正義提出今年會在軟銀內部部署10億個AI智能體,並設計操作系統。
技術更新如此之快,可以預見的是,人類即將擁抱一個全新的時代——智能體時代。智能體時代一個良性的發展趨勢是,AI不是取代人類,而是賦予每個人超能力。
智能體時代的生存法則其實簡單。對於企業來說,未來,企業的競爭力將取決於“智能體滲透率×數據資產厚度”,目前企業對最新AI技術的佈局,需要從“單點應用”加快轉向“全鏈智能重構”。
對於個人來說,當AI負責世界的“運行效率”,人類更需專注“定義意義”,適應加速進化的生存節奏,提升智能體駕馭素養,避免被AI替代,則是重要命題。
國家和政策制定機構需超越傳統監管框架,建立“技術-制度-文明”三層治理體系,預判智能體行爲邊界(如禁止健康助手建議基因改造),設置倫理防火牆,探索“人機權責”法律新範式。
這場變革的終局,將是人類創造力與機器執行力在智能體框架下的共演升維。

Agent(智能體)到底是什麼?簡單說,它就是下一代AI應用。
它與目前人們每一步都需要自己操作的電腦、手機應用有本質區別——正如Agent被直譯爲“代理人”,它是一個能幫助人類,自主運用AI規劃任務並執行的軟件系統。
今年3月,獵豹移動董事長兼CEO(首席執行官)、獵戶星空董事長傅盛在接受《財經》採訪時曾提到,如果按照自動駕駛L1-L5的標準去衡量,目前大部分Agent都處於L1-L2的階段。有朝一日進入L5階段,人們可以晚上睡前給Agent安排寫文檔、查資料、製作PPT、購買機票等工作。一覺醒來之後就查收工作成果。
哪些應用可以算是Agent?目前沒有統一標準。大模型App(應用)裏的聊天助手、多任務AI應用都“一籮筐”被稱作Agent。但前者功能太簡陋,後者執行復雜任務總爛尾。
很多人使用這些產品時總是一頭霧水——難道這些就是Agent?
2025年,AI(人工智能)落地過程中,Agent正處於一個讓人“看不懂”的尷尬時期:一方面,它被認爲是下一代革命性的應用,會顛覆所有;另一方面,它具體是什麼樣的,具體會如何顛覆一切,威力有多大,絕大多數人一無所知。
這組矛盾並不妨礙國際IT諮詢機構Gartner把Agentic AI(代理式AI,即本文主角AI智能體)列爲“2025年十大戰略技術趨勢”。
Gartner預測,到2028年,33%的企業軟件將包含Agent,2024年該比例不到1%;到2028年,15%的日常工作將由Agent自主完成,2024年該比例接近0%。
Agent同樣在讓從業者重新思考軟件的定價模式。傳統的訂閱付費,似乎可能轉向按結果付費。一些創業者正在徹底擁抱新的定價模式。但另一部分從業者擔憂,這可能讓軟件公司徹底喪失定價主導權。
產品形態不明確,定價模式不清晰,這並不妨礙Agent狂潮來襲。這些困惑,反而是理解這個新事物的最佳切片。

封面設計/黎立

看不懂、不成熟?

Agent的不成熟可以從Single-Agent(單智能體)、Muti-Agent(多智能體)兩種產品說起。
Single-Agent應用,很多時候約等於大模型對話機器人或AI助手。比如,字節跳動旗下的豆包App中,英語陪聊機器人、寫作助手被統稱爲Agent。用戶問,模型答,這種簡單的交互模式,很難被看作是會“自主決策”的Agent。
Muti-Agent應用,最典型的是AI創業公司“蝴蝶效應”2025年2月推出的Manus。它號稱是“世界首款通用Agent”。在演示資料中,Manus可以獨立思考、計劃並執行復雜任務。然而,一些用戶註冊使用後發現,它無法有效執行很多複雜任務。
由於產品不成熟,Manus網頁訪問量一直在下滑。國際流量分析平臺SimilarWeb數據顯示,2025年3月Manus訪問量高達2310萬,4月下滑到1784萬,5月下滑到1616萬。
“拿Manus做一個貪喫蛇遊戲,任務總是執行到一半出錯,還無法手工調代碼。更多專業代碼工具可以更好完成這個任務。”傅盛今年3月對《財經》表示,Agent被過度包裝了,Muti-Agent應用還不夠成熟。但他同時承認,Agent是未來,它就是AI時代的App。
杜克大學電子與計算機工程系教授陳怡然的觀點是,創業公司爲了獲取市場關注拿到下輪融資,先推不成熟產品是常規打法。OpenAI就是拿到融資後再打磨產品,並實現商業化。
Single-Agent更像AI助手,Muti-Agent卻不夠成熟。這個問題也困擾着很多企業。
IBM大中華區科技事業部數據與人工智能資深技術專家吳敏達在一次媒體採訪中表示,不少企業客戶困惑,很多Agent可能不是真正的Agent,只能看作是AI助手。他提到兩者一個核心區別——Agent能“自主決策”,能調用API(應用程序接口)或者其他工具規劃任務。AI助手雖然有AI能力,但是不能自主完成工作。
目前人們熟悉的大多數對話應用,離真正的“自主決策”還很遠。吳敏達解釋,AI助手推理過程簡單、流程固定、消耗算力很少,速度也比Agent快,甚至更準確。但是Agent會主動調用更多AI助手或工具,和其他工具合作完成任務。這個過程會消耗更多算力,做好Agent的門檻會更高。
他同時認爲,Agent和AI助手的定義不重要。AI助手始終會存在,而且AI助手未來在企業軟件中的可能比Agent更高。解決企業真正的問題,保證任務準確率纔是根本。企業也沒必要追求通用型Agent,用一個通用Agent解決企業所有問題,這沒有意義。
Agent的能力,是它背後的“大腦”——大模型的能力決定的。Muti-Agent應用暫時不成熟,根本原因是目前大模型的準確率、邏輯推理能力,尤其是對複雜任務的理解和規劃能力還不夠高。一種判斷是,這種局面會在2025年底得到很大程度的改善。
火山引擎智能算法負責人、火山方舟負責人吳迪今年5月曾對《財經》表示,未來12個月,大模型的能力還會不斷提升,有三個提升方向。
其一,多模態(文本+圖片+音頻+視頻)推理模型會成爲主角,這是當下正在發生的變化。AI將可以把文本、圖片、音頻、視頻等多種信息融合在一起進行綜合推理。它將極大增強Agent對現實世界複雜信息的理解能力。
其二,視頻生成模型將成熟可用,預計今年末將迎來一輪爆發。這意味着Agent不僅能理解世界,還能以更動態、更直觀的方式生成內容和模擬過程。
其三,多步驟的複雜任務處理能力會大幅提升,預計今年末會有重大突破。這是Agent走向成熟的關鍵一步。當模型能夠穩定、可靠地規劃和執行包含數十步甚至上百步的複雜任務時,Agent“爛尾”的問題將從根本上被解決。
在吳迪看來,目前大部分Muti-Agent應用都“像是玩具”,但基於這三條技術主線的突破,他給出了最終判斷——Muti-Agent應用2025年末準確率將會大幅提升。屆時,Agent應用會有一輪爆發。

Agent正在改變什麼?

Agent看不懂、不成熟,這卻不影響它正在成爲大公司、創業者湧入的新興賽道。它也的確帶來了眼花繚亂的變化。
GPTDAO是美國硅谷的一個生成式AI社區,長期追蹤各Agent網頁流量變化趨勢,定期發佈AIwatch.ai數據分析榜單,它會針對AI To C(面向消費者的AI應用)類產品統計其用戶規模、網頁訪問、融資規模。該社區近期的一份針對AI Agent的統計顯示,中國市場、國際市場的AI Agent產品的網頁訪問量正在大幅增長。
字節跳動、百度都是目前最有熱情投入Agent的重要中國玩家。字節跳動的扣子、百度的文心智能體平臺半年內訪問量均增長超過200%;另外,國際知名的AI Agent平臺N8n、LangChain用戶訪問大幅增長的同時,還分別取得了新一輪融資。
傅盛今年3月對《財經》表示,在這一波Manus爆火之前,硅谷的Agent創業就已經很熱了。硅谷創業公司早就不卷模型了,都在卷Agent。他認爲,Manus只是第一個產品,後面中國市場上會不斷出現類似產品。
目前,面向普通消費者的Agent並不算成熟,但To B(面向企業)的Agent正在一些專業場景,顯著提升企業的業務效率。
據陳怡然觀察,美國大部分企業都在尋找AI提效的機會,開發“企業級專用Agent”蔚然成風,因爲類似Manus這類通用Agent無法直接用在垂直行業。
爲什麼To B場景落地速度更快?核心因素是很多大型科技公司的IT基礎設施很完善——一方面,很多企業內部已經做好了數據治理,Agent能夠訪問更多結構化的專業數據;另一方面,MCP(模型上下文協議,也可認爲是AI應用接口)協議讓Agent能和其他應用互動。它就像USB接口,讓Agent用簡單、標準化的形式去訪問數據、使用其他工具。
AI編程就是一個典型的提效場景。軟件工程領域,代碼編寫、調試、升級和維護一直耗時耗力,而AI編程類Agent,正在將這一過程的效率提升一個乃至數個量級。
百度文心快碼高級經理彭雲鵬甚至認爲,“寫代碼是Agent當下落地最好的方向。”他介紹,把研發任務分配到Agent,把不同Agent協同,可以互相生成代碼,並解決一些相對複雜的任務。前提是,確定好項目規範、研發規範、測試規範等研發規範,有了明確的規則後,AI生成代碼就會遵從規範。

百度在6月23日的AI開放日上披露,百度內部由AI生成的代碼所佔比例逐年大幅提升。2022年這一數據僅爲0.27%,2025年二季度這一數據超過43%。百度內部深度使用文心快碼的工程師,代碼提交量相較於不使用的工程師提升了近70%。
字節跳動技術副總裁洪定坤今年6月在一場發佈會上透露,字節跳動內部,超過80%的工程師在使用自研的TRAE代碼工具輔助開發,已有相當比例的代碼是通過AI生成的。不僅是科技公司,AI編程在銀行等傳統行業滲透也很快。國內某大型商業銀行開發中心的一位高級開發人員向《財經》透露,他所在的銀行,現在有20%-30%的代碼由AI生成。
一位醫療硬件創業公司的資深算法工程師認爲,上述數據不誇張,目前他日常工作中,80%的代碼都是AI生成的。他向《財經》演示,如何使用AI代碼生成工具Cursor調用Claude Sonnet 4模型生成並修改一款網頁遊戲的全過程。在演示過程中,Cursor運行Agent僅用一分鐘就生成了三個文件,並最終在網頁上跑起了貪喫蛇遊戲。
這款貪喫蛇遊戲,畫面雖然簡單,但是遊戲規則均是AI制定的,且只使用Single-Agent就完成了整個開發過程。在這個過程中,人沒有手動介入修改過代碼。
更復雜的代碼項目,可以讓Agent規劃任務清單,將項目拆解成若干大任務,再把大任務拆解成小任務。最後按照任務清單穩紮穩打,一步步執行、測試。這種方式便於人類工程師掌控任務執行進度,而且出現問題時能及時干預,確保任務質量。
上述資深算法工程師表示,在日常工作中,“只要掌握正確的工作流,通過對話就可以搞定所有代碼”。
貪喫蛇遊戲只是一個小案例。更多代碼工程領域,AI代碼生成Agent正被廣泛使用。
一位亞馬遜AWS中國區人士介紹,亞馬遜一個五人團隊今年在兩天內成功將超過1000個生產應用從Java 8(Java編程語言的一個主要版本)升級到Java 17。平均每個應用只花了10分鐘。過去這樣的升級通常需要兩天到三天。
Agent代碼生成工具可以節省成本,還能讓人從繁瑣工作中解放出來,專注於創造性工作。它還讓代碼開發從少數程序員纔會的技能,變成很多沒有代碼基礎,但有想法、有創意的人也能使用。
高偉翔在中央美術學院學習產品設計。今年5月,沒有任何編程經驗的他,利用字節跳動的扣子空間在一個月內獨立開發出了畢業設計作品“荒誕商品生成器”——一個可以根據用戶情緒生成獨特藝術圖片的小程序。他對《財經》表示,“如果沒有釦子空間,就需要外包給一些程序員去做。但現在我完全可以自己做,開發成本、可控性都更高。”
寫代碼僅僅只是一個場景。上述亞馬遜AWS中國區人士介紹,未來Agent團隊協同工作時,會有專注於特定領域的“專才”,也有能夠處理各類任務的“通才”。
在一個公司內,這種協作模式將使得Agent能處理更爲複雜的任務。例如,在處理一個複雜的業務分析項目時,會有專門負責數據收集的Agent、負責數據分析的Agent,以及負責報告撰寫的Agent。它們協同工作,共同完成任務。
既然Agent能夠快速、批量生成代碼,那麼它是否會取代人類工程師?
上述資深算法工程師的看法是,如果開發需求不增長,就不需要這麼多人類工程師。但代碼供給能力增長的同時,市場開發需求也在增長,因此人類工程師人數仍能維持。除非AI能完全替代工程師。陳怡然表示,頂尖CS(計算機科學)工程師的需求還在,但普通工程師的需求已明顯下降。今天美國就業市場,只懂基礎編程語言便入職大廠的機會越來越少,一些高校正在重新審視CS人才培養思路。

軟件商業模式將被革新?

Agent被認爲是下一代應用——它也在革新軟件的商業模式。
“看不懂”Agent,不僅是因爲產品形態不清晰,更是因爲從業者面對它,還要思考如何重新確定商業模式、定價模式。這些劇變同樣使人困惑。
今年5月,舊金山的第三屆紅杉資本AI峯會中,紅杉資本合夥人Pat Grady(帕特·格雷迪)面向150位全球頂尖AI創始人提出了一個觀點:
AI賣的不是工具,而是收益。上一代SaaS(應用軟件,或軟件即服務)軟件訂閱付費邏輯正在被改變。客戶不再爲功能買單,而是爲結果買單。
SaaS軟件長期以來的經典定價策略是按年/月訂閱付費。企業購買CRM(客戶關係管理)、ERP(企業資源規劃)等系統,需要爲包含成百上千個功能的龐大套裝軟件支付一筆固定的訂閱費。訂閱付費的好處是,簡單清晰而且訂閱量、續費率穩定,企業可以按年/月拿到可預期的自由現金流。
但現實情況是,一個套裝軟件中可能70%的功能都是低頻使用的,企業卻要付出100%的費用。當一些Agent探索按實際用量付費時,訂閱付費看起來成了一種臃腫、低效的模式。
Agent很輕,它是一種輕量級、原子化、插件化的應用,可以跑在釘釘、飛書或者瀏覽器等平臺型軟件上。它就像小程序,跑在微信、支付寶這些超級App上。這種“輕”的特性正在降低軟件被使用的門檻。
Agent將臃腫的套裝軟件,“打碎”成一個個原子化的功能——按token(token是大模型的文本單位,一個token可以是單詞、標點、數字、符號等)計費、按調用次數計費,或者更直接的“按最終效果付費”,正在成爲Agent的商業模式。
軟件的價值衡量標準,從擁有多少功能,變成解決了多少問題、帶來了多少實際效益。因此,一些SaaS企業正在探索“訂閱+用量”的混合定價模式。
銷售易是騰訊旗下的CRM(客戶關係管理)公司。銷售易創始人兼CEO史彥澤今年3月曾對《財經》表示,銷售易Agent產品的新定價模式是訂閱基礎軟件基礎上,再增加專屬的“數字員工”。企業可以選擇購買“銷售助理Agent”,而企業管理者可以購買“NeoAgent平臺”來搭建個性化的Agent。
具體收費方式是按“人頭數”(座席)購買每個Agent的使用許可,同時設定算力消耗上限。這主要是爲了控制token成本,避免因少數用戶超量使用導致虧損。這種模式既能兼顧傳統的訂閱模式,又能有效管理Agent算力消耗帶來的額外成本。
“Agent結合CRM,可能顛覆現有的CRM產品。”某CRM公司開發人員陳濤對《財經》表示,該公司已利用Agent成功改造自家產品,並已開始盈利。他認爲,過去CRM公司更多注重於功能的豐富度。功能越多,定價越高。但Agent接入CRM之後,定價會偏向於結果付費,而不在於功能有多複雜。“未來定價模式可能變成,維護多少個客戶關係,就收多少錢。”
一些沒有歷史包袱的創業者採取了更激進的策略。
圖靈集市是一家跨境電商領域的AI創業公司。圖靈集市創始人田逸豪對《財經》介紹,他和團隊開發了一個“AI網紅營銷Agent”。他們直接擁抱了“按結果付費”這種新模式。田逸豪發現Agent最大的吸引力,在於效果交付。
過去,中小跨境電商尋找海外網紅帶貨,極其依賴人力。他們使用的SaaS軟件費用高,無法智能追蹤網紅。這類軟件往往需要僱傭多人配合使用,一個星期建聯30位網紅,已經算極限。
田逸豪提到,他們現在開發的網紅營銷Agent,可以自動匹配合適的網紅,用算法生成個性化話術發送郵件進行建聯和合作。這全程由AI主導,只有在報價、寄送樣品等關鍵節點需要人工審覈,一人即可負責跑通全部流程。
“效果交付”成爲他們的主打賣點。由於中小賣家注重轉化率且現金流緊張,圖靈集市正在嘗試兩種收費策略。一是通過平臺促成交易的GMV(商品交易總額)抽取1%-3%;二是根據使用效果進行付費(如每建聯一個網紅收取一定費用)。“以前沒有AI,大家不敢這麼喊。現在有AI了,我把結果賣給你,我再收你的錢。”田逸豪解釋。
不過,面對“按結果付費”,也並非沒有審慎的聲音。
2024年11月,一位軟件行業資深投資人曾在一場小規模討論中提到一種擔憂——按效果付費容易讓軟件公司徹底喪失定價主導權。
因爲按效果尤其是按token消耗付費,本質是按成本定價,即“算清算力成本後,加上毛利再定價”。在他看來,這非常危險,因爲模型和算力成本極其透明,且一直在快速下降。一旦客戶接受了這種成本導向的邏輯,會時刻盯着上游大模型廠商的降價信息。軟件公司在這個過程中容易淪爲模型廠商的“管道”,只能賺取微薄的差價。
Agent之所以“看不懂”,是因爲所有從業者正站在一場劇變之前。產品形態不清晰、定價模式不明確。此時,用舊的經驗和框架,去思考一個新事物的未來,自然會面臨困惑與不適。

責編 | 張生婷

Scroll to Top