「人均 DeepSeek」之後,AI 應用還能怎麼做?

由 極客公園 發佈於 熱點

'25-02-17

2025 年開年,迎來了「中國的 ChatGPT 時刻」。

由於 DeepSeek-R1 模型能力帶來的震撼,從硅谷到中國、從老人到小孩、從 AI 創業者到各行各業的從業者、從小紅書到抖音,都在「玩」DeepSeek。

DeepSeek 最新的「朋友圈」是百度和微信。前者即便面對傳統搜索帶來的豐厚商業回報,也接入 R1 主動變革;而從不激進的微信也罕見地積極了一把,接入 R1 升級了微信中的「AI 搜索」。

很難想象,在 ChatGPT 誕生兩年後,所謂「大模型窗口期已過」的時間點上,殺出了這樣一匹黑馬,以所有人意想不到的方式,掀翻了大模型產業的桌子。當所有人都看到 DeepSeek 帶來的機遇,當大廠也一反常態不再要求先做出自研的模型技術、而是現在就接入最好的 DeepSeek 模型做 AI 應用,2025AI 會如何發展?

2025 年 2 月 8 日,極客公園「今夜科技談」直播間邀請極客公園創始人 & 總裁張鵬,崑崙萬維 董事長兼 CEO 方漢、祕塔科技 CEO 閔可銳和清華大學交叉信息院 助理教授 吳翼,一起探討了 DeepSeek 帶來的衝擊波以及 2025AI 應用還能怎麼做?

  • DeepSeek 文筆好、思考過程比人類都有邏輯,這會成爲接下來做產品的標配動作嗎?

  • 有了 DeepSeek,蒸餾還能怎麼做?爲什麼蒸餾是常規方法論,與價值觀無關?

  • 爲什麼說有了 R1,也並不意味着 AI 應用更好做了?更大的挑戰纔剛開始。

  • DeepSeek 之前,大模型領域默認「老大老二不開源,老三開源賺名聲」法則,但反倒是從第一天就堅持開源引領技術生態的 DeepSeek 贏得了天下。開源到底意味着什麼?現在,是不是應該問:還有誰沒有加入開源隊伍?

  • 靠優化 AI Infra 實現「價格屠夫」背後,沒有人比 DeepSeek 更懂英偉達 CUDA,未來,模型推理價格還可以香到什麼程度?

  • 達到全球第二的成績後,DeepSeek,接下來會發什麼?

看完這篇,你會對 2025 年接下來 AI 圈即將要發生的大事件,有更好的判斷。

01 DeepSeek-R1:開源模型有史以來最好的成績

張鵬:從你的角度,DeepSeek 這次爆火背後,最值得關注的創新點是什麼?

吳翼:DeepSeek-R1 是第一個開源的,並且真正接近、達到 OpenAI o1 水平的模型,後者是一個新的推理類的範式。同時,DeepSeek 還把怎麼得到 R1 這個模型的很多細節、大概的 recipe(配方)也告訴你了,在這一點上,它也是第一個。

帶給我最大的衝擊是兩件事情。第一,沒想到能這麼快做出來,因爲從 o1 面世(2024 年 9 月 13 日),到中國的團隊開始嘗試復現 o1 類似的模型,DeepSeek 真正做這件事滿打滿算也就半年。在這條技術線上,OpenAI 可能探索了一兩年的時間才做出 o1。

第二是當這個模型拿出來的時候,沒想到「哇,真的這麼好」,R1 是開源、所有人都可以試。

兩件事情加起來,一下子就沒話說,非常有歷史時刻的感覺,然後春節就沒過好(哈哈)。

張鵬:所有人都在思考怎麼出來的,爲什麼不是我們(哈哈)。你們怎麼看 DeepSeek 衝擊波?

閔可銳:知道這家公司是在 2023 年他們剛成立的時候,當時可能爲了招人等訴求,(DeepSeek 創始人梁文鋒)稍微有一些對外的發聲,看完會感受到這家公司身上很不一樣的特質、非常回歸本質的討論問題的方法。所以 DeepSeek 能在一年多的時間做到像現在這樣火熱的程度,也許有一定的意外性,但是對於他能把這件事做好,並不意外。

方漢:最早知道 DeepSeek 是在 2022 年底、2023 年初去買卡的時候,意外得知幻方有萬卡。後來注意到 DeepSeek-Coder 模型在代碼類 Benchmark 上一度衝到全球第一。

再就是「推理價格屠夫」DeepSeek-V2 的推出,直接把模型推理價格打到了當時業內平均價格的 1/10。這裏面有兩項技術印象特別深刻,一個是 MLA(多頭注意力的優化),第二個是 MTP(Multi-Token Prediction,多 token 預測)。

最近是 V3 和 R1 的推出。V3 是一個挺強的基模,但是它跟 Meta 的 Llama 405B、Qwen 等系列開源模型一樣,前面還有兩個天花板,OpenAI 的模型和 Anthropic 的 Claude。但是 DeepSeek-R1 這一次直接能夠排到第二名的位置,開源模型有史以來最好的成績,這是讓我們最震驚的。

DeepSeek-R1 在後訓練階段大規模使用了強化學習技術,在僅有極少標註數據的情況下,極大提升了模型推理能力。在數學、代碼、自然語言推理等任務上,性能比肩 OpenAI o1 正式版。|來源:DeepSeek

張鵬:DeepSeek-R1 裏的模型技術,有哪些創新讓你們印象比較深刻?

方漢:技術角度,這次 R1 做了很多技術上的改進,像 DualPipe 算法,像用 PTX 去寫通訊之類的,最印象深刻的肯定也是訓 R1-Zero 用的 GRPO 這個技術,這是整個 R1 裏最核心的東西。

因爲 OpenAI 在做 o1 的時候,請了上百個數學博士天天解題,數據非常高質量,但他從來不對外界說怎麼做數據。大家也知道很多公司會用 PPO,真正能把 PPO 用得特別好的還是 OpenAI 和 Anthropic。國內大家在 PPO 用不好的前提下,DeepSeek 用 GRPO 的方法非常巧妙,省掉了 Critic Model,後者做起來特別大、特別慢。

通過 GRPO 的方法,可以快速迭代出一批特別高質量的 CoT 數據,這一點特別令人震驚,等於說 OpenAI 自己辛辛苦苦找人花錢做出來的數據,被咣地一下給開源了,而且從結果上來看,它的質量特別好,不遜於 OpenAI 的內部數據。這一點是非常非常革命性的,我們一直認爲合成數據比不上人的數據,但是R1 這一次有可能表明,合成數據不比人標的數據差。這給很多人帶來了希望,像歐洲、印度、韓國都覺得自己也可以做了。

閔可銳:討論最多的還是 R1-Zero 的技術創新。

過去大家認爲,不管是做 SFT(有監督微調),還是做強化學習,都依賴大量人工標註的數據,人工在裏面參與度非常重。比如之前傳出 Meta 在數據標註上,是以億美金級別的投入去換得質量相對較高的數據。但是 R1-Zero 表明其實可以大規模降低對於人工標註(數據)的依賴。

同時,R1-Zero 的突破帶來了代碼能力、數學能力、推理能力的提升。

但我覺得能火到全民皆知的程度,其實不是由於它的推理能力、代碼能力,還是因爲 DeepSeek 寫東西(的水平)超出了 90% 的人,寫作能力非常突出,這件事震撼到了大家。

02 DeepSeek 文筆好,是因爲沒有好好做產品?

張鵬:很多網友都說被 R1 的文筆驚豔到了,至少公衆熱情是這麼被點燃的,不管是在中國還是海外。就連AI創業者也會感慨,以前用 o1 給人的感覺是多了一個理性的員工,今天用 R1 卻感覺成爲了他的人生導師,竟然能帶來很多啓發。所謂的模型文筆好,技術上是怎麼實現的?

吳翼:簡單說,文筆特別好(的原因)就是 DeepSeek 沒有好好做產品(哈哈)。

如果用 ChatGPT 寫,經常會講文章 GPT 味特別重。爲什麼呢?因爲 ChatGPT 在安全、對齊(alignment)上做得非常猛。這樣就會導致,比如當人跟 AI 一起玩「狼人殺」時,你特別容易看出來哪個是 GPT。因爲人類玩家會直接說,「這個人一定是個壞人」,但 GPT 會說,「我覺得這個人好像怎麼樣,我們應該怎麼理性分析……」講很多囉裏八嗦的廢話。這就是它「對齊」做得特別好的體現,它希望這個東西不要冒犯到人,希望產品化做得好。

DeepSeek 顯然沒有好好做這件事情,所以大模型本來的這些天花亂墜的想法就被你看到了,而 OpenAI 爲了做安全性,爲了做所謂的「價值觀對齊」,反而是把模型的很多能力收起來。

第二,如果仔細地去看 R1 的技術報告,它其實分了兩步,先用強化學習做出了一版推理模型,但沒有直接給你用這個推理模型,而是後面有一個合併模型的過程,最後是完整版的 R1 模型有一些泛化能力。

展開講,因爲在代碼、數學這種特定任務上做強化學習訓練出來的推理模型 R1-Zero,文字上肯定會差一些,所以 R1-Zero 又跟原來的基模 V3 用 SFT 這種類似於蒸餾或者合併模型的過程,最後合併出了帶有泛化能力的模型 R1。這也說明 V3 這個模型確實非常好,如果 V3 比較差的,最後合併出來你也看不到那麼多奇思妙想。換句話說,強化學習很重要,基模也很重要。

張鵬:這個視角蠻有意思,反而是過度對齊,會讓它的腦洞、想象力或者一些 hallucination(幻覺)被壓制了。

吳翼:對,創意其實是 hallucination。

作者衛夕向 DeepSeek 提問「玄武門之變結束的當天,李世民在深夜寫下一段獨白,你覺得他會寫什麼?」,網友爲 DeepSeek 輸出的答案而感到驚歎。|截圖來源:微博

張鵬:可銳,你怎麼看它的文字表達很好?背後有什麼原因和講究?

閔可銳:我猜測可能有三個原因,一是剛纔提到的 DeepSeek 沒有試圖把很多偏個性化的一些表達給閹割掉。你會發現很多 GPT 的回覆是「端水型的」「安全型的」,但其實比較 boring 的回覆。所以 DeepSeek 一定沒有在安全性方面做激進的動作,模型輸出的表達上相對比較自由。

第二個猜測,很多人覺得 R1 的強化學習本身增加了它的寫作能力,但我對這件事是存疑。我聽到的一個信息是,之所以有比較好的表達,背後是有比較資深的、類似於北大中文系的人在幫忙在寫數據。人的自由表達和高質量的數據作爲對模型回覆的一個引導,來達到好的效果。我會覺得應該是 SFT 這個部分的數據做得非常好。

第三,R1 以及 V3 的模型如果和行業同類模型相比,它其實把規模差不多漲了 10 倍,差不多從一個幾十 G 的規模漲到了幾百 G。這個規模下它能夠儲存的信息容量差不多比上一代 Qwen 漲了十倍,這讓它在很多比較細緻的表達上能夠有更好的還原。也就是說它的壓縮率其實不用做得那麼高,能夠記住更多東西,包括像詩詞、或者開放式的問題上。

總結來說,更大的腦容量、高人撰寫的文學性數據作引導和對齊,並且降低了嚴格的安全對齊(標準),可能是這三點加起來得到了 DeepSeek 的優美深刻的表達。

張鵬:一些在硅谷的華人 AI 研究員也說,可能過去海外的大模型對於高質量中文數據沒有特別較真過,但 DeepSeek 較真了。方漢你怎麼看「大家說 DeepSeek 文筆好」?

方漢:雖然我學的是理科,但我高考作文是滿分,所以對古文比較熟,我特別喜歡讓大模型寫古詩詞。在這件事上,現在寫的最好的模型實際上是 Claude,也就是說Claude 的文采比 ChatGPT 要好很多。我覺得還是數據的原因,大家公認 Anthropic 對數據的品位最高,數據做得最好,他們的數據團隊規模在語文和寫作方面非常強,我猜 DeepSeek 也是類似。

DeepSeek 內部可能有一套方法,可以從現有的數據裏面生成質量非常高的語文數據,這是我的猜想。因爲請大量頂尖團隊比如北大中文系標數據,DeepSeek 未必競爭得過大廠,(靠人工標註數量和質量取勝)邏輯上講不通。DeepSeek 在不要人干預的情況下,可以用 GRPO 可以生成數學和編程的 CoT 數據,那這些方法能不能用在語文上去生成高質量的語文數據,這是我更相信的一個推斷。

另外,我們在做推理模型的時候有個叫 temperature(溫度)的參數,如果把這個參數值設得高,模型就開始胡說八道、特別有創意,但也很容易崩。可能因爲 R1 的推理能力很強,哪怕把 temperature 加得比一般模型高,也是比較活躍且不容易崩。

03「被 DeepSeek 的思考過程震撼到了」

張鵬:除了文筆好,很多用戶也被 DeepSeek 思考過程的透明和清晰的邏輯打動,R1 是第一家展示思考過程的模型嗎?

吳翼:完整思維鏈的透明展示,確實是 DeepSeek 第一個做出來的,但 R1 不是第一次,第一次真正公開所有思維鏈的模型是去年 11 月 20 日發佈的 DeepSeek-R1-Lite。

後來 Gemini 跟進了,也公開了思維鏈,Gemini 的 Flash thinking 的思維鏈質量也不錯。

其實去年 9 月 OpenAI 發佈的 o1 也給了這樣的中間步驟,只是它不給你看思維鏈的完整版,就給你一個總結版。從技術視角上,藏沒藏思維鏈差挺多的。不過總結版的思維鏈雖然不完整,但也挺有價值的,很多人發現即使是「扒」總結版思維鏈數據,也能對模型有很多提升。

圖片來源:視覺中國

張鵬:你覺得 OpenAI 爲什麼不給大家公開思維鏈?

吳翼:高質量思維鏈對於模型的能力提升、以及激發模型讓它在第二階段強化學習訓練時能有很好的推理表現、繼續用強化學習做 Scaling Law 是很重要的。所以 OpenAI 應該在這件事情上花了一些力氣,他知道如果真的把思維鏈給你去 distill(蒸餾),你很快就能做出來,他就是不讓你「抄」。

最近李飛飛老師團隊做的、被炒得很熱的 S1,50 美金能夠讓你看到 test-time-in-scaling 的效果,也說明了這個道理。它只輸了 1000 條 Gemini 的長思維鏈數據,就能讓模型有比較大的推理表現上的質變,當然它效果還比較一般,50 美金不可能真的把 R1 復現。所以高質量的長思維鏈數據是重要的,這也是 OpenAI 不願意給你看的原因。

方漢:我覺得 OpenAI 就是想保守機密,OpenAI 一直認爲思維鏈數據是它最值錢的數據,所以很早就出了一個 term sheet(條款),你要是敢 jail break(越獄)問他 CoT 的問題,他會封你的賬號。R1 發佈之後,OpenAI 也把 o3-mini 的思維鏈輸出了,但這裏是總結版的思維鏈,結果又被網友罵了,然後現在又正在把總結再去掉。

當然大家沒有想到的是 DeepSeek 說,要不我試一下,我也不要中間這個步驟,直接給你強化學習行不行?很長時間大家都覺得中間需要搞一步 SFT,結果 DeepSeek 出來跟你說,我們試了一下,好像不需要也行。

張鵬:因爲沒有人做出來過,或者沒有人按這個方式做出來過。

吳翼:就是對面有一家告訴你這個東西特重要,「此地無銀三百兩」,我家一定沒有黃金,你千萬別來。那大家都會往這上面花很多精力想,最後 DeepSeek 試出來說,你看你沒這玩意也行,哈哈哈,或者說有比較便宜的方法能繞過去。

張鵬:祕塔科技也在第一時間與 DeepSeek-R1 合作做了相關的功能,思考過程的可視化。可銳,從用戶的角度,你怎麼看這件事帶來的影響?展示透明的思維鏈本身,是不是一種用戶價值交付?

閔可銳:我會覺得思維鏈,不管是總結版也好,還是像 R1 給到一個相對完整的思維鏈,最早的出發點可能是通過步驟和步驟之間的推導,提高結果的準確率。

但把它展示出來,我會認爲最早是因爲中間的等待時長實在太長了。如果讓用戶在這無休止地比如像看沙漏一樣(等時間),用戶體驗是非常糟糕的。所以既然有一箇中間的推導過程,索性把推導過程顯示給用戶,但是這似乎帶來了一個非常意外的好處。

很多人反而專門去看思維鏈,「誒,這個模型怎麼思考的?它怎麼從不同角度去考慮我提的問題」,這對我來說是稍微有點意外的。我觀察到很多人其實還挺喜歡看 R1 的思維鏈,因爲模型把思維鏈寫得像是一個內心獨白一樣。

就像有人問它說,「誒,我有一個朋友怎麼怎麼樣」,然後這個思維鏈裏說,「這個大概率是用戶自己想問這個問題」,就是有一種竟然被 AI 看穿的體驗。我覺得這可能也是出乎創造者意料的效果。

DeepSeek 推測,用戶說是別人的提問,很可能是用戶自己的提問。|截圖來源:DeepSeek App

張鵬:方漢,你怎麼評價這次 R1 展示的透明的思維鏈?

方漢:從純技術的角度,看思維鏈可以改進你的 prompt。但對於絕大部分用戶,不會這麼用思維鏈。

對於用戶來說最可怕的體驗是,看到 R1 思維鏈這麼嚴密的推理過程,有點像我們小時候看卡耐基成功學、有點像聽一些特別牛的人把他思維方式給你講一遍,你是會很震撼的。

現在,你目睹了 AI 用一個聰明人、成功學的方法給你推導一個問題,所有人心裏都會心生感嘆,「這個 AI 真聰明,接近人類智能呢」。我覺得這對產品的推廣來說,是一個決定性的心理暗示。

張鵬:像這樣一個讓大家覺得很震撼的思維鏈,是怎麼做出來的?

吳翼:首先思維鏈是湧現出來的,不是人標註出來的,人標不出這樣的思維鏈。如果你仔細去看 DeepSeek 產生的思維鏈,很多也是錯的,或者說沒有任何道理,再比如之前 OpenAI 的思維鏈裏還出現過中文。這些都說明,是由強化學習的 Scaling Law 讓思維鏈湧現出來的。

所以判斷一個模型是不是推理模型,只要看它敢不敢放出一個訓練曲線——模型輸出長度隨着強化學習的訓練時間在不斷變長。如果能看到這個不斷變長的曲線,基本上可以認爲這個訓練是成功的;如果看到它的長度變短了,那應該就失敗了,即使它的正確率或者表現在提升,也是失敗的。也就是說,這個長度是湧現的,最後推理模型呈現出來的極強的反思,是泛化的結果,是湧現的結果,而不是人標的。

DeepSeek-R1-Zero 的性能軌跡,整個強化學習過程中穩定且持續提升。|截圖來源:DeekSeek-R1 技術報告

第二,需不需要一個東西去激發這個模型的思維鏈?基本上是需要的。OpenAI 在訓練模型的時候應該還是用了一部分這樣的數據去激發基座模型的思維鏈能力,然後再上強化學習的。

但是我覺得比較神奇的一件事情是,如果你仔細去看 DeepSeek 的技術報告,你會發現即使用比如 Qwen-32B、Qwen-70B,基座模型在沒有任何強化學習訓練的情況下,通過 prompt 的調整也可以看到它的一些反思過程。也就是說,基模從某種程度上已經有一些自激發能力。

所以這也是 DeepSeek 可以從基模直接進行強化學習的一個重要原因,基模在強化學習開始的時候就存在一定的反思、思維鏈能力,然後再通過強化學習 Scaling Law 的方式,把反思能力放大,湧現出來最後的 R1 模型。當然也說明 DeepSeek-V3 這個基座模型做得很好,導致它一開始就有了自我激發的能力。

如果這個基座模型,比如說在數學上有一些基座模型有一些反思能力,但在語文上,比如說真的完全沒有「誒,等等,我說錯了我再想想」這樣的表現。再怎麼強化學習?也不會湧現出反思能力,如果基座模型很差,沒有準備好被激發的話,那也沒用。

張鵬:如果沒有「等等,我可能想得不對」類似的推理反思能力,再怎麼上強化學習,也不會出現思維鏈的線性發展。

吳翼:對,強化學習跟預訓練是乘法的關係:預訓練的 scaling 是第一個係數,強化學習後訓練是第二個係數,這兩個是乘起來的關係。

如果一個維度是 0,怎麼乘也沒用。但這裏哪怕是個 0.01 也沒問題,後面幫你乘上去,所以這也說明 V3 的基模真的非常好,所以它能讓你做出一些事情來。技術報告裏也做了實驗,比如說是 7B 的小模型,怎麼強化學習也沒用,還不如蒸餾。所以強化學習和基模有這樣的一個關係。

張鵬:怎麼理解強化學習在 R1 和 R1-Zero 體現出的效果?

方漢:打個不太恰當的比方來類比理解,讓一個小孩學乒乓球,先讓他看所有高手打乒乓球的視頻,但他看完了之後仍然不會打。

這時候有兩個方法,一是請國家隊隊員比如馬龍來教他,但絕大多數家庭請不起國家隊。怎麼辦呢?這時候請不起國家隊的家庭就想了個辦法,讓人對着一個洞去打球,打不中就「電」你一下。獎懲機制下,終於這個小孩成了一個絕世高手,但是他這時候還不太懂乒乓球的規則,發球也不標準等等。這時候終於又請了一個教練,告訴小孩得按照什麼樣的規則打球,讓他把規則學會,學會了就出去「大殺四方」,這個邏輯大概是這樣。

這裏其實有一個問題,剛纔大家也聊到了,現在不知道 V3 這個基座模型看沒看過高質量的 CoT 數據?但是它後來的激發做得非常成功。我覺得這給了所有「窮人」一個念想,我靠自己「電」自己,也能把自己「電」成高手。這樣的話,很多歐洲、印度的公司也可以開始訓練這種高質量模型了。

張鵬:技術圈對於 R1-Zero 的討論是大於 R1 本身的。

閔可銳:R1-Zero 的這件事,更像是一個範式的變化。Zero 這個名字就會讓大家容易聯想到 2017 年穀歌 DeepMind 誕生的 AlphaZero 這個名字,如出一轍。

DeepMind 先讓機器學習人類怎麼下圍棋,上升到完全不告訴機器人類下圍棋的方法、只告訴它規則——下到什麼局面你就取得了勝利、下到什麼局面你失敗,就能夠把模型訓練到超過人的水準。這件事打開了大家的想象力,讓它自我博弈、自我學習,有可能出現超過人類最強棋手的能力。

一定程度上,R1-Zero 帶來了這樣一個類比和聯想。當然兩者不完全一樣,AlphaZero 在下圍棋上做強化學習的時候沒有任何人類經驗的參與。但 R1 可能還是受到了基模 V3 的激發,後者是一個學習了全互聯網人類知識的基座模型,R1 湧現出來一些反思、自我糾錯的能力,本質上還是因爲全互聯網數據裏存在人類反思,類似「誒,這個地方等等,我好像做得不對,讓我來改進一下」的一些基礎數據,哪怕比較稀疏,但是仍然被 V3 給捕捉到了。在這個基礎之上,用強化學習的能力把它進一步放大,達到一個更好的一個效果。

04「蒸餾」是業內常用的方法

張鵬:R1 出來之後,有很多討論說未來是不是可以通過蒸餾,讓端側的模型能力也得到比較大的加強?有了更好的模型,再加上蒸餾這件事,對創業者做產品或者模型有什麼好處?

吳翼:分三件事來講,一個是蒸餾,第二件事情是端側模型,第三是垂類應用。

蒸餾的過程是指,你問一個問題,讓老師說答案,你把答案記下來,你問 100 萬次,就差不多學會了。就像熟讀唐詩三百首,不會做詩也會吟。

蒸餾確實是有用的,DeepSeek 在技術報告裏也表明,如果你有一個小的模型比如 7B 以下的模型,不用去做強化學習或者其他,有一個好的、大的老師模型用,直接蒸餾思維鏈數據是最好的,比直接跑強化學習效果好,也最高效的。所以有一個模型完全公開、可以蒸餾,對很多做產品或者做個性化模型訓練的公司來說,非常非常利好。

而且不光對小模型有用,對於大的公司來說,蒸餾也非常重要。比如 DeepSeek-R1 是 671B,很多廠商可能用不起來,或者很難高效地用起來。那麼一個公司做模型的團隊如果能把 671B 的模型,做到比如說 100B 的模型上、帶來同樣的效果,這會給成本以及應用帶來更大的可能性,這裏是需要蒸餾的,自己也可以蒸餾自己,不丟人。而且很多人認爲 OpenAI 也做了蒸餾,所以 OpenAI 上線的模型都很小,成本可以控得很低,很大的吞吐量做得很高效。

第二件事,端側模型。我們是不是需要一個完整的端側模型?我其實覺得不一定。

我在端側有一個比如 1B 的模型,雲端還有一個 500B 的模型,這兩個東西可以配合。我自己是做多智能體強化學習的,我覺得一個最有趣的多智能體系統的問題是:當你真的有兩個能力不一樣的模型,比如說 500B 的模型和 1B 的模型,它們之間應該怎麼樣發揮出一個 1B 的效率、同時 500B 的推理能力?

現在大家研究多智能體系統往往都是在端側用不同的模型、不同的 prompt 通過顯示出的不同偏好和行爲模式來組合,這件事情其實沒什麼太大的意義,因爲就像 OpenAI 的 Operator 模型或者 DeepSeek-R1 出來,你會發現一個足夠強的推理模型,可以做到一個模型幹所有的事情。

當真的有云端和端側的模型可以配合的時候,多智能體系統就會很不一樣。

第三件事情是垂類應用,我覺得這個時代對於做垂類的應用或者叫產品,要求要比互聯網時代高很多。

因爲技術迭代太快了,不光要洞察需求,你很怕那個需求,因爲來了更好的模型之後,整個需求的模式變了。因爲從 ChatGPT 和 DeepSeek 上你可以觀察到,很多新的被滿足的需求,並不是他們想到的,而是模型的智力提升之後,人的行爲模式也發生了變化,模型的湧現帶來了人類行爲的變化、帶來人的需求的變化。所以做產品也不能抓某個需求不放,而要在那個需求的周邊一直打圈。

所以可能得去想,做垂類應用真正的壁壘是什麼?比如數據、渠道肯定是一個壁壘,商業模式可能也是一個壁壘,但我覺得需求本身不構成壁壘。

同時做垂類應用,你還得對模型的技術有預判的能力,三個月後它會變成什麼樣?半年後怎麼樣?下一代模型可能會怎麼樣?因爲如果在技術快速迭代的時候,花了太多的精力和太多的錢,但可能半年之後很多事情又都不一樣了,所以得非常非常小心地去花錢。

Perplexity CEO Aravind Srinivas 第一時間官宣 Perplexity 接入了 R1 進行產品升級和進一步探索。|截圖來源:X.com

張鵬:人對 AI 的需求會隨着 AI 能力的成長,人也會改變行爲。可銳,你覺得這個 AI 搜索算不算垂類?垂類產品要怎麼演進、怎麼構建自己的路線圖?

閔可銳:我覺得在一個技術演進比較快、變化比較劇烈的時期,對於技術有相對比較深入的理解,一定是對你做產品、對未來的預判,有巨大的幫助。

雖然外界大多數人對祕塔的印象,好像是一個比較純粹的產品公司,但是我們其實其實已經做過幾百輪預訓練了,在我們有限的幾十張卡上,也觀測到很多比較有意思的現象。

所以我們對於很多,比如哪一代模型可能能夠做什麼?哪一些現象背後代表什麼?不是把模型當黑箱來對待的,在對模型技術有一定理解後,解決問題的產品視角也會不一樣,比如很多人會覺得現在 R1 的推理成本已經非常低了。但我們注意到,其實在 DeepSeek 還沒有開源的部分裏,有一個是 serving 的模型。

serving 的這部分雖然最近有很多比如雲廠商、算力中心的跟進,比如以和 DeepSeek 相同的價格,甚至更低的價格對外提供服務。但是我可以負責任地說,現在每一個小於等於 DeepSeek 價格提供服務的雲廠商都是在虧錢。也許 DeepSeek 是沒虧錢,但他們現在一定在虧錢,因爲現在 serving 框架其實還沒有在 MoE 架構上做好準備,因爲原來大家做了很長時間是在稠密模型上做了很多積累。所以現在在談的「成本已經降下來了」,其實是更像是一個理論值。產品經理自己去做部署,自己去做 serving,很有可能很快會發現這個成本和他的預期有巨大差異。

對,所以這裏面其實有很多 knowledge,還是要在比較一線有足夠的細緻的瞭解,你能做出判斷。它遠遠沒有到說這個已經是一個標準化的一個工具,按綠色按鈕就出來什麼,按藍色按鈕能出來什麼?所以我覺得現在做產品確實得同時理解用戶和理解技術,纔有比較好的競爭力。

張鵬:產品經理也還是得把 AI 這件事多摸清楚點,以產品的能力去學習一下模型的技術,有能讓模型變白盒的理解和探索能力。

05 更好的模型,並不意味着 AI 應用更好做了

張鵬:DeepSeek 的這一波衝擊波之後,從祕塔的視角,有哪些AI應用上值得探索的新方向?

閔可銳:坦白來講,我覺得現在還沒有到形成非常明確的方向、邏輯的時間節點。

但相比原來可能巨頭玩家把更好的基模掌握在自己手上,DeepSeek 開源更好的基座模型,一定程度上弱化了基座模型給偏應用層帶來的影響,在模型層面把大家拉到了同一個起跑線的水位,但這並不意味着競爭會變得更小,反而可能會變得更激烈的狀態。

在一個更好的推理模型基礎上,確實有機會做出更驚豔的一些產品。誰能夠貼近用戶,把用戶原來有但是未被滿足的需求做得更好,率先把這樣的產品方向、產品能力實現、釋放出來讓更多的人用,也會有機會更高效率地拿到更多的用戶。

1 月 20 號 R1 發佈以來,我們在內部已經測試過幾輪(集成 DeepSeek 模型的功能)了,有一些我們原來想要去實現、但是不太成功、不值得對外釋放的一些功能,看起來已經可以 ready 到給大家提供可使用、且好用的產品功能。我們很快會有一些新的功能上線,不會讓大家等太久的。

祕塔 AI 搜索,率先接入 DeepSeek-R1 模型升級產品能力。|截圖來源:祕塔搜索

張鵬:爲什麼說有了更好的模型,並不意味着產品更好做了?

閔可銳:GPT-4 出來了以後,能做成應用的概率會顯著更高嗎?R1 出來以後比 GPT-4 更高嗎?都不是。因爲模型能力的提升,其實是拉高了所有人的基線。原來所有人只能做到 60 分的時候,你能做到 70 分,你的產品可能更受歡迎。但當所有人都被拉高到了 70 分的 baseline,你必須得做到 80 分。

所以這一代創業者做 AI 應用落地開發,要有一個心理預期,可能原來你做到的東西,現在能夠直接被比如說 R1 的推理能力所覆蓋掉,那你就要在這之上尋找新的可能性,才能成爲被大家接受的產品。

從做應用的角度來講,更好的模型是不是代表了應用更好做一些?我們過去有在做產品研發、落地、模型上,可能有小十年的經驗,我一直的感受是,大家在這件事情上的判斷過於樂觀。

張鵬:方漢,你怎麼看它對於 AI 產業站在全球視角比較確定接下來可能帶來的影響、衝擊和變化是什麼?

方漢:大家都說大模型的下一場是 agent,但如果是多 agent 協作的情況,只要有一個 agent 拉胯,最後質量就很差。現在R1 保證了 agent 智能的下限比較高,很多以前完不成的、比較長、比較複雜的任務,有可能很快就會被解決。比如 AI 編程,原來只能寫單個函數,甚至只能寫一個文件,現在有了 R1 這樣特別強的模型,是不是可以直接把整個工程生成出來,而且交叉地修改、debug?這樣就真正成爲一些可用的生產力。

對於具體的產品,我覺得所有跟 agent 相關的新的產品模式會快速湧現,而且由於模型是開源的、成本還特別低,很多產品也開始看到了盈利的曙光,因爲推理成本下降了,而且能力還上升了。

另外,R1 在數學跟編程任務上表現最好,因爲數學和編程是人類用符號來固化思維的兩個最顯著的領域。相應地,還有科學,比如說像 AlphaFold 做的是蛋白質摺疊預測。我認爲跟符號化形式相關的、數據比較強的領域,都會帶來特別大的效率改善。

張鵬:崑崙萬維的產品線會更豐富,這裏有沒有一些比較具象的思考?經過年初這一波衝擊之後,在AI應用上有什麼新的啓發?

方漢:DeepSeek 不是第一個開源的,但它是開源的模型裏面質量最好、最接近 OpenAI 的水平的,這是它出圈的根本原因,這給 AI 應用帶來一系列影響。

首先他把一個很高質量的模型的推理成本打低之後,給商業模式帶來了更多的可能性,免費類的 AI 應用會逐漸出現。

第二,降低 AI 應用的門檻是關鍵。全球能夠寫好 prompt 人數不會超過 1000 萬,所以怎麼降低 AI 應用的門檻非常關鍵。舉個例子,最近谷歌 NotebookLM 會爆火,就是因爲它極大地降低了應用門檻,不用寫 prompt,把 PDF 拖進去,按一個按鈕就給你生成播客了。

第三,雲計算時代,有一個詞叫雲原生,是指一些在雲計算出現之後才湧現出的雲原生公司,這些公司完全是輕資產,所有服務都跑在雲上。我覺得 AI 時代的應用也會有類似變化,現在 AI 原生的產品經理其實還不多,大部分人都還在用互聯網和移動互聯網的思路來做 AI 應用。這是一個痛點,大家都還在摸索。但接下來,產品經理當老大的 AI 公司會越來越多,AI 原生的產品設計也會越來越多。

最後,很多公司現在做了效率類的 AI 應用,但是從互聯網跟移動互聯網的經驗來看,效率產品的增速一定比不過娛樂產品,人類都是喜歡娛樂至死,而娛樂產品其實並不一定需要特別強的 AGI,但是需要特別強的 AIGC,所以我認爲娛樂產品的發展速度接下來會遠遠超過 ToB 的效率產品。

張鵬:效率型的工具可能是人類的一部分需求,人類無盡的需求是娛樂,你覺得在娛樂這件事上 2025 年有什麼樣的東西值得看?在娛樂方面會出現足夠讓人興奮的 killer APP 嗎?

方漢:人類最喜歡、成本最低、門檻最低的娛樂方式是視頻,我們認爲視頻生成領域一定會湧現出最大的 killer APP,只是不知道是傳統的渠道爲王、還是新的視頻製作平臺爲王。

大家都知道短視頻席捲全球,短劇現在是第二波,也要開始席捲全球,現在就算短視頻的成本很低,但是拍一部短劇也要 100 萬人民幣,所以現在中國每年只能產三四千部短劇。如果我們能夠把單部短劇的成本達到 2000 塊錢,那麼全世界每年可能會有幾百萬部短劇的產出,這會對整個業界帶來非常大的衝擊。

打個比方,我沒有學過音樂、也五音不全,現在用我們的音樂生成大模型,我可以做很多首歌。同時在成本上,舉個例子,我們原來做遊戲業務的時候,訂購一首音樂平均 5 萬塊錢左右,現在音樂模型推理成本可能只有幾分錢,這就是成本以及門檻的降低。

當一個東西的生產門檻以及成本顯著降低,AI 內容就會像抖音的短視頻作者那樣,因爲手機攝像頭和 4G 的出現,生產出大量短視頻內容。但我覺得 2025 年還可能還沒有到時間點。現在的視頻生成模型雖然已經非常強了,但是還沒有到能夠取代完整的影視產業鏈的地步。

去年底,崑崙萬維在美國上線 AI 短劇平臺 SkyReels,在全球 AI 娛樂市場做出進一步探索。|來源:崑崙萬維

張鵬:今年的視頻生成領域還會像 2024 年一樣快速迭代嗎?

方漢:對。2023 年春晚已經有 AIGC 的視頻出現了,但那時候還比較原始,現在比如字節最新發的 OmniHuman 視頻質量就非常好了,大家都在飛速演進。

而且大家也不要迷信 OpenAI,Sora 已經被第三方的、閉源的、開源的模型迅速追上,也就是說 OpenAI 在圖像生成和視頻生成領域起了個大早,趕了個晚集,現在無論開源還是閉源,都有跟 Sora 比起來有很強的競爭力的視頻生成模型。而且開源生成模型有更好的生態,對長尾需求的滿足也會更好,最終基於此的商業模式也會最多。

張鵬:你怎麼看 chatbot(聊天機器人)這種類型的產品?娛樂陪伴型的 chatbot 是一種,ChatGPT 也是一種 chatbot,這種類型的產品未來還會是一個標準形態嗎?還是一個過渡形態,接下來要探索新的東西?

方漢:我認爲它只是一個原始形態。就像最早 QQ 剛出來的時候,大家都是用鍵盤打字輸入到 QQ 對話框,但是到微信出來的時候,我媽媽從來不給我打字,都是直接發語音,甚至一言不合就開視頻。所以我認爲現在的 chatbot 只是一個很早期的形態,像 GPT-4o 把多模態像語音、視頻引入 chatbot,是自然的過程、逐漸演進的。

就像早期的互聯網有一個產品叫 MUD(Multi-User Dialogue,多用戶對話),從文字 MUD(文字冒險遊戲)又衍生出來了兩個重量級的娛樂遊戲產品,一個是叫大話西遊,一個是叫魔獸世界。我認爲現在的 chatbot 演化的終極形態有可能是一個類似於元宇宙的、虛擬多媒體的交互形態。

張鵬:可銳,你怎麼看模型進展對 chatbot 這種形態的產品的影響?

閔可銳:不同生態位的公司,受到的影響可能不一樣。

一年以前,整個大模型業內比較推崇的方式是模型和應用一起、產模一體結合起來把產品效果做好的思路,這樣才能建立足夠的壁壘。但 R1 其實對這種思路提出了很大的挑戰。換句話說,後入局的玩家拿着可能同樣好甚至更好的模型,是不是也能直接把起跑線追平,開始在上面做應用?

純粹從應用層角度來講,當下這個階段是相對利好的狀態,因爲拿到了一個足夠好的武器開始做同場競技。

不論現在大家是看空還是看多,可能兩個月以後又會產生巨大的反轉,所以我覺得子彈可能姑且得再飛一會兒纔有結論。

張鵬:變化太快,現在對於軌跡的預測不能超過兩個月。現在看,原來那種產模一體的模式未必是必須的,也存在另外的可能性。吳翼從螞蟻集團技術研究院強化學習實驗室的角度,你們接下來的主要目標和探索的東西是什麼?

吳翼:螞蟻集團其實一直在做自己的基座模型,也在做推理模型,只是後者啓動稍微慢一些。我們也是去年 11、 12 月份開始,和一部分同學在螞蟻研究院成立了強化學習實驗室,開始想做自己的推理模型,中間也踩了很多坑。

基本上是研究院新設了這麼一個強化學習實驗室,也希望能夠在裏面做相對比較自由、比較開放的強化學習研究工作,做出開源開放的推理模型,所以 DeepSeek 也是給大家開了一個好頭,鼓舞想去做開源開放的技術和模型團隊。

06 開源能帶來巨大收益,不是做公益

張鵬:自這次 DeepSeek-R1 開源震撼全球以後,全球很多公司在開源上做了重新思考和選擇。甚至 Sam Altman 在答網友問時表示了 OpenAI 站在了歷史錯誤的一邊,會重新思考 open 這件事。你覺得 OpenAI 會重新回到開源模型嗎?

吳翼:我覺得他不會。

張鵬:DeepSeek 的開源路線帶來了哪些連鎖反應?爲什麼會有這些影響?

吳翼:DeepSeek 開源產生的影響,對我感觸特別大。我覺得最後最好的那個模型應該還是閉源,因爲即使一個公司做出了最好的模型並開源,但在把它作爲一個產品端去部署時,還可以做更適配、更極致的優化,成本可以更低,因爲他知道這個模型是怎麼做的,所以一定會有一個內部適配、更好的版本。

但是即使這個開源模型會比閉源版本稍微差一點,但 DeepSeek 也已經帶來了巨大的衝擊。

傳統大家選擇開源的邏輯是:如果我是行業第一,我不開源;行業第二我也不開源;行業第三我一定要開源,因爲不開源我就死了,同時我要開源讓你們前兩名不好過(哈哈)。大模型最早的開源 credit(名譽)是 Meta 的 Llama,當時 Meta CEO 扎克伯格和首席 AI 科學家 Yann LeCun 講,某種程度上,你們是站在我們的肩膀上。但是如果仔細去想 Meta 全家桶本來的巨大流量後,它其實沒有做太多後續動作,它的所有目標好像在說「我不能讓壟斷髮生」,我是老三,所以我一定要開源,讓你們不好過,但他自己沒有因爲這件事帶來太多受益,或者只是股價上升了。

但 DeepSeek 開源不一樣。這件事帶來的最大的衝擊是,過去從來沒有人覺得開源能帶來特別好的商業模式,或者帶來特別大的商業收益。現在大家在重新考慮這件事。

DeepSeek-R1 開源以來,首先 App 的 DAU 在十幾天之內達到了幾千萬;同時,這件事情帶來了巨大的品牌效益,你會覺得,原來做開源不是爲愛發電,就是爲了「搞死」前兩名;開源原來能帶來這麼重大的收益。所以在 AI 領域,如果你真的開源了一個非常好的模型,最後是有收益的。我感覺歷史上從來沒有這麼大範圍的出現過這件事情。這件事情也會對整個社區、生態以及 AI 發展的速度帶來好處,因爲 AI 再次加速了。

這也是爲什麼我還看好英偉達的原因,爲了速度。英偉達的芯片能讓你拿到這個(開源)模型之後,可能一個月就會迭代一版模型;但如果用國內的卡,迭代會慢比如半個月。之前我做過一段時間國產卡的訓練,發現如果用英偉達的卡可能只花一個月,但如果給我國產卡,同樣的事情可能要花 3 個月的時間,或者說國產的算力我需要時間做適配。所以這是時間的差別,你願不願意在一個 AI 高速發展的時代裏犧牲你的時間?如果 AI 還在高速發展,那我覺得英偉達就不可替代。但是如果一旦 AI 的速度放緩了,那就有問題。所以我覺得 DeepSeek 開源也帶來了更高烈度的競爭,2025 年會是很刺激的一年,因爲 AI 發展速度會更快。

張鵬:在 AI 領域,開源跟閉源可能會同時存在,尤其當下階段,這件事是好事,站在人類視角看,DeepSeek 開源反而是對整個通向 AGI 的發展,AI 在加速。

把它定義爲 Sputnik Moment(1957 年,蘇聯成功發射了人類第一顆人造衛星「斯普特尼克一號」,使得美國意識到自己在航天等關鍵技術領域的落後,並大力投入航天事業)其實是冷戰思維,比較恰當的類比是 Mozilla Moment(1998 年,網景公司將其瀏覽器網景 Communicator 源碼開源,激發了全球開發者的熱情,推動了瀏覽器技術的快速發展),從而加速AI平權,激發了更多創新的力量。

07 DeepSeek 衝擊波下,英偉達還好嗎?

張鵬:R1,包括 V3 在保證模型效果的情況下,實現成本相對比較低。這是爲什麼?

吳翼:V3 披露的 560 萬美金是指它單次模型訓練的成本,不包括前面研發等成本。根據 V3 的成本,我們大概測算 R1 成本依然很低,比 V3 成本再低一些。

但就是如果你覺得,有 560 萬美金就可以做 R1 了,那你最好先把這個數字前面乘個係數再來想這個事。

你要做 R1,你先得做 V3,之前還得做 R1-Lite,R1-Lite 之前得先做 V2,這些東西都花錢,不只是最後那一次成功了的成本。如果再考慮整個研發、實驗可能會失敗、調整等全部成本,你需要乘一個係數。

當然 DeepSeek 整體比較高效率,係數可能會小一點,如果是大公司這個乘的係數可能會大一些。核心是因爲 DeepSeek 快。同樣的訓練量和同樣的數據,如果放在一個基建比較普通的團隊裏,哪怕知道怎麼做,可能也要再乘幾倍的成本,因爲訓練得慢。DeepSeek 在過去很長一段時間裏面做了非常非常多系統上的優化。不只是比如 MLA、MTP 就能解決的,而是可能有一系列很長時間的工程優化累積起來,每天減少 5%、減少 10% 的時間耗損,這裏一個優化、那裏一個優化,把一個可能本來要 2000 萬美金的訓練,壓到了最後是 560 萬美金的結果。

所以這件事情是一個常年累積、很重視基礎設施的結果,有了這個基礎,之後做實驗、做新的模型也會更快,是一個非常相輔相成的過程。所以還得說 DeepSeek 是非常讓人敬佩的團隊,在基礎設施上也做了很多很多工作。

方漢:由於美國的禁運,我們能夠得到的算力資源是有限的。這樣會倒逼所有中國團隊在軟件優化上傾注比美國同行更多的精力。像 DeepSeek 團隊做的那樣,比如實現了 FP8 混合精度的訓練,壓縮顯存佔用來讓訓練速度更快。在訓練加速上,他們做出了卓越的努力,也獲得了豐厚的回報,這不是隻在 R1 裏纔有體現,之前訓練 V2 也已經展現出這個實力。

張鵬:我再追問一下,DeepSeek-R1 出來之後,緊接着英偉達來了個近年來最大跌幅,有了更高效率訓練出來的模型,大家對英偉達的預期怎麼樣?

DeepSeek-R1 發佈後,美國科技股大跌。|圖片來源:視覺中國

方漢:我的觀點是,對英偉達來說,短期利空、中期利好、長期利空。

儘管 OpenAI 和軟銀的「星際之門」號稱要投資 400 億美金,買的都是英偉達的訓練卡,但是 DeepSeek 現在把訓練成本打下去之後,美國人也不能自己花 100 億美金,來訓練中國人只要花 10 億美金的任務。之前一路高漲的股價,是因爲所有投資者都是賭他的訓練卡,所以我覺得短期利空英偉達。

中期利好是什麼原因呢?如果仔細看 DeepSeek 的技術報告,他們的所有的推理優化都是基於英偉達的 CUDA 平臺,比他們更懂英偉達 CUDA 平臺的也沒有幾家。一旦 DeepSeek 把特別好的模型的推理成本打下來之後,模型就更容易商品化,之後整個市場規模會變大。所以英偉達的推理卡在中期一定會賣得非常好。

長期利空是當大模型開始固化下來,英偉達推理卡的壁壘就保不住了,第三方廠商的機會就開始來了。像美國有家叫 Groq 的公司,中國最近也有數十家芯片公司宣佈支持 DeepSeek 模型部署。

張鵬:這件事是不是證明了,沒那麼多錢和卡也能創新?

閔可銳:大家好像總把 DeepSeek 和它幾百萬美金的訓練成本去做關聯,好像在定義,他們是錢和卡都很少的一個團隊。但其實,尤其在中國的範圍來講,DeepSeek 難道不就是已經是最有錢、最有卡的第一梯隊的 player?比起我們可能這段時間爲了承接 R1 的用戶量,到處去借了幾百張卡來提供服務來講,DeepSeek 其實已經比我們多了可能兩個數量級以上的資源。

我覺得資源在基座模型及其產品上,仍然是非常重要的。哪怕事實上你的模型訓練效率是 OpenAI 的 10 倍,但是你也沒有它 1/ 10 的資源,體現不出來你 10 倍效率的提升。因爲絕大多數用戶都是根據產品體驗用腳投票,不管你是用多少資源做出來的這個結果,我覺得好用就用,不好用就不用。

其次我覺得,基座模型層面的競爭是三個維度的綜合競爭結果,除了計算資源,還有你的人才密度,以及第三個維度,可能也是比較容易被忽視的——1 號位在這件事上的能力和決心。DeepSeek 在與國內第一梯隊玩家接近的資源下,有中國最好的人才密度和 1 號位對這件事的純粹的決心。

08 關於 DeepSeek,What’s Next?

張鵬:如果你是梁文峯,你覺得 DeepSeek 接下來下一步的重心會是什麼?

方漢:我覺得 DeepSeek 是一個非常輕商業化的公司,完全是靠技術力破圈,而不是靠推廣破圈。很多人願意跟着梁文峯總乾的一個原因是因爲他純粹,到現在他還在手敲代碼。我覺得一個公司的 CEO 還在手敲代碼的時候,這個公司一定是一個非常技術向的公司。

他們的服務器扛不住這件事情,他肯定會花心思去解決,但是至於流量能不能接得住?我個人覺得不是他關心的重點。而且只要 DeepSeek 的技術繼續迭代,還會有潑天的流量,這也不是個問題。

當務之急肯定還是怎麼樣招更好的、志同道合的人進到他的團隊,繼續快速迭代,因爲從 V2 出的 MLA、MTP,再到 R1 的 GRPO 出的 Dualpipe,你可以看到裏面別出心裁的技術革新層出不窮,說明他們是一支非常有戰鬥力的團隊,人才密度很高。只要他繼續保持人才密度,不盲目擴張,還會繼續在 AGI 的道路上帶來更多驚喜。

閔可銳:對,我覺得確實是看 DeepSeek 做這件事的初心。

做 AGI 首先可能得不差錢,其次是一個偏執狂,如果想靠 AGI 來掙錢,多半會既掙不了錢也做不好 AGI,因爲這個路徑其實並沒有那麼清晰,尤其是怎麼靠 AGI 來掙錢這件事兒。

所以如果 DeepSeek 如果能守住初心,可能能夠持續給大家帶來驚喜。因爲本質上,是兩撥頂尖人才比如 OpenAI 團隊和 DeepSeek 團隊的 PK。這個時候,犯錯的容忍程度可能很低,但凡分心去考慮比如我是不是要做一個最好的 APP?一定會佔用你的決策時間和精力。

圖片來源:視覺中國

張鵬:你覺得他接下來這個產品節奏怎麼樣?到底會用多快的速度發哪個版本的什麼?

吳翼:如果站在這個時間點,當你有了一個 o1 的技術之後,其實是有一個特別大的分叉點,是先去做 o3 還是去做 agent?

這兩件事情都挺重資源,但是從智能的角度看,是有 90 度夾角的。到底是沿着純文字的推理走到極致,從 o1 追求到 o3?還是去做一個 agent,那它需要有視覺理解能力的閉環,做出一些 action 後,還要有新的視頻輸入,要去做一些 function call 寫代碼調接口的能力。

就像 OpenAI 最近發了一個 Operator 模型,是一個 agent 模型。agent 其實是強化學習 scaling world 的一個很重要的分支,有了這套強化學習體系之後,你可以用強化學習的方式去訓練一個多模態的模型,讓它可以操作軟件,操作手機,做很多模態的控制,像一個真實的人一樣做事,但從智能的角度上是沒有提升的。智能還是得奔着 o3 去,再做 scale up。

兩件事都很難,所以我會特別好奇,DeepSeek 會怎麼選?當然也可以都要。如果讓我選,我會先追求 o3 極致的智能,因爲做了 o3 也可以再回頭做 agent。

方漢:我認爲 DeepSeek 接下來首先是泛化數據,現在的數據主要是編程跟數學,要把數據泛化到理科、文科,OpenAI 原來是僱數學博士,現在據說開始僱生物博士去構造數據。我覺得現在 DeepSeek 有了更好的資源也一定會在構造數據上做出更多的探索。

第二,它也會泛化訓練方法到多模態以及不同的領域。今天看到香港中文大學的一篇論文,已經有人把 o1 的訓練方法泛化到圖像生成上了,所以我覺得這兩個方向應該都有很大的空間可以挖。

張鵬:某種程度上很多人都看到所謂叫潑天的流量,但其實未必跟他站在同樣的視角,他可能看到的是服務器壓力很大,下一個模型還要再超越,更新的速度還要更快,開源的持續價值交付……在這個世界打開一扇門的時候,我要能夠探索一個更大的天地,這裏反而需要花更多的時間聚焦在技術上。怎麼在不商業化的情況下把這事做好,反而是更難的挑戰。

Scroll to Top