又一位大佬創業了。
幾周前,消息確認前谷歌 DeepMind 首席科學家、AlphaGo 核心負責人戴維·席爾瓦(David Silver)正式離職,並在倫敦創立人工智能初創公司"Ineffable Intelligence"。據悉,該公司正在推進一輪規模達 10 億美元的種子輪融資,目前已接近完成。
這一融資額度,追平了 OpenAI 前首席科學家伊利亞·蘇茨克維(Ilya Sutskever)2024 年創立 Safe Superintelligence(SSI)時創下的紀錄。

圖 | 戴維·席爾瓦 (來源:Youtube)
與當前依賴海量文本預訓練的大模型路徑不同,席爾瓦的新公司明確提出:他們要繞過 LLM 既定範式,迴歸強化學習(Reinforcement Learning, RL)本源,構建一個不依賴人類既有知識、能自主探索新知的智能系統。
作爲 DeepMind 聯合創始人德米斯·哈薩比斯(Demis Hassabis)自大學時代的密友與長期合作伙伴,席爾瓦的離開可以說是該公司歷史上最重要的人事變動之一。DeepMind 發言人在簡短聲明中確認了這一消息:“戴維的貢獻是無價的,我們非常感謝他對 DeepMind 工作所做出的貢獻。”
席爾瓦不僅是技術標杆,更是強化學習路線的堅定倡導者。作爲圖靈獎得主查理·薩頓(Charlie Sutton)的學生,他的論文被引用量已超過 28 萬次,並於 2019 年獲得 ACM 計算獎。
他主張迴歸強化學習的核心思路。2025 年 4 月,席爾瓦與其導師薩頓共同發表論文《歡迎來到經驗時代》(Welcome to the Era of Experience),提出新一代 AI 系統應更注重智能體與環境的交互學習:通過持續試錯、自我迭代和長期互動積累經驗,而非僅依賴靜態數據訓練。這一理念,也是 Ineffable Intelligence 的技術基石。

(來源:arXiv)
在當前創投環境下,Ineffable Intelligence 高達 10 億美元的融資目標尤爲引人注目。接近交易的投資人分析,資本市場願意爲一家尚未發佈產品的公司開出如此鉅額支票,主要基於兩點:一是對席爾瓦個人技術聲望的信任,二是對其所主張的“後大模型時代”技術路線的戰略性押注。
目前,包括 OpenAI 的 GPT 系列與谷歌的 Gemini 系列在內,主流 AI 模型均建立在“預訓練 + 微調”範式之上。這些模型通過學習互聯網上海量的文本數據,掌握預測下一個詞的統計規律,從而展現出強大的對話與生成能力。但席爾瓦認爲,這一路徑存在本質侷限:AI 的能力上限被“人類數據”本身所鎖定。
席爾瓦曾在私下場合多次表達對當前技術路線的擔憂。他指出,大語言模型在後訓練階段主要依賴“人類反饋強化學習”(RLHF),即通過人類評估員的打分來優化模型。這意味着,模型所能達到的最高水平,難以超越人類評估員的認知邊界。
“我們想要超越人類的認知,爲此需要一種不同的方法。”2025 年 4 月,席爾瓦在一檔播客節目中罕見公開闡述其理念,“這種方法需要 AI 能夠真正自主探索,發現人類尚不知道的新事物。”
Ineffable Intelligence 的核心願景,正是構建一個擺脫人類知識束縛的系統。據熟悉該項目的人士透露,新公司將致力於研發“能夠持續學習的超級智能”——它不僅能處理語言,更能通過在模擬環境中的自我博弈與試錯,從第一性原理出發,推導解決問題的最優解。
席爾瓦的堅持,有紮實的成果支撐。作爲 AlphaGo 總設計師,他主導了 2016 年那場轟動全球的人機大戰。在與李世石的第二局比賽中,著名的“第 37 手”曾被所有人類專家判定爲失誤,因爲它不符合任何已知圍棋定式。然而後續棋局證明,這正是決定勝負的關鍵一手。席爾瓦將此類現象稱爲“不可言說”(Ineffable)的智慧。AI 通過計算,發現了人類尚未掌握的規律。這也正是新公司名稱的由來。

(來源:Google Deepmind)
此後,席爾瓦團隊開發的 AlphaZero 與 MuZero 進一步驗證了其理論:AlphaZero 在不依賴任何人類棋譜、僅被告知規則的前提下,通過自我對弈三天便擊敗 AlphaGo;MuZero 甚至無需知曉規則,就能在圍棋、國際象棋和 Atari 遊戲中自主摸索規律,達到超人水平。
這些成果構成了席爾瓦技術路線的基石:在規則明確、可模擬的系統中,純粹的強化學習完全有能力超越人類智能。他堅信,只要設計出合理的獎勵機制,AI 就能在更復雜的現實任務中復刻 AlphaZero 的成功,無需像大語言模型那樣,通過模仿人類語言來“假裝”思考。
席爾瓦的創業,也折射出 AI 研究圈正在經歷一場“路線大分流”。
隨着大語言模型在商業應用中的普及,越來越多頂尖科學家開始擔憂技術發展的潛在瓶頸。2024 年,OpenAI 前首席科學家伊利亞·蘇茨克維創辦 Safe Superintelligence(SSI),同樣獲得鉅額融資。儘管 SSI 與 Ineffable Intelligence 均以“超級智能”爲目標,但側重點有所不同:伊利亞傾向於通過擴大計算規模與優化模型結構實現智能躍遷,席爾瓦則更激進地主張改變學習範式,由“監督學習”轉向“強化學習”。
此外,一些曾參與 AlphaGo、AlphaZero 項目的科學家,近期也離職創辦了 Reflection AI;Meta 的人工智能部門則在圖靈獎得主楊立昆(Yann LeCun)帶領下,重組“超級智能實驗室”,探索不同於 Transformer 架構的新路徑。
一位行業觀察家指出:“當前局面頗似 2010 年代初深度學習爆發前夜。大家意識到,現有 LLM 雖強大,但可能並非通往 AGI 的終極答案。席爾瓦代表最原教旨主義的一派,他認爲智能的本質是決策與探索,而非語言預測。”
不過,也有批評者指出,強化學習雖在圍棋、遊戲等規則明確的環境中表現優異,但在現實世界這類規則模糊、反饋稀疏的開放環境中,其有效性尚未得到充分驗證。大語言模型之所以成功,正因語言本身是人類智慧的高度壓縮。通過學習語言,AI 能以較低成本獲得常識。
若完全摒棄這一路徑,Ineffable Intelligence 或需構建極其複雜的數字孿生系統,供 AI 進行億萬次試錯訓練,其算力成本將是天文數字。這也正是 10 億美元融資需要解決的首要問題。
目前,Ineffable Intelligence 已在倫敦設立總部,並啓動全球頂尖強化學習研究員的招募。雖然公司尚未公佈具體產品時間表,但這家公司的技術路線與資源投入,或將成爲影響 AI 技術演進方向的下一股重要力量。
參考鏈接:
1. https://www.ft.com/content/dffe72d0-4064-4412-8ebc-50198a30d40e




