當AI開始“記得”你:與兩位創業者拆解AI記憶技術

由 DeepTech深科技 發佈於 科技

'26-02-14



進入 2026 年,AI 記憶正在成爲行業最熱的競爭焦點之一。Google 爲 Gemini 上線了“個人智能”(Personal Intelligence)功能,經用戶授權後可調取 Gmail、Google Photos、搜索記錄等個人數據,實現跨應用的語境理解,而非簡單地檢索單封郵件或一張照片,讓 Gemini 開始對用戶的數據進行“思考”,而非僅僅“獲取”它。而在更早之前,OpenAI 的 ChatGPT 也已大幅升級了記憶系統,使其能夠引用用戶所有歷史對話,奧特曼在發佈時表示,“這指向了我們興奮的方向:AI 系統在你的一生中瞭解你,並變得極其有用和個性化。”


在基礎設施層面,AI 記憶正在成爲一條獨立賽道。2025 年 10 月,專注於爲 AI Agent 構建“記憶層”的初創公司 Mem0 宣佈完成 2,400 萬美元 A 輪融資,被 AWS 選爲其 Agent SDK 的獨家記憶提供商,GitHub 星標超過 4.1 萬,季度 API 調用從 3,500 萬飆升至 1.86 億。同賽道的 Zep 用時序知識圖譜組織記憶,脫胎於 UC Berkeley MemGPT 研究項目的 Letta 則主張“編程 Agent 的本質就是編程記憶”。從開發者工具到平臺級基礎設施,“讓 AI 記住用戶”正在從一個附加功能變成剛性需求。


從產品側的個人化記憶,到模型架構層的記憶機制革新,AI Memory 不僅是技術熱點,更是決定 AI 能否從“每次重新開始的工具”進化爲“持續瞭解你的夥伴”的關鍵分水嶺。


爲了深入探討 AI Memory 的技術路徑、落地挑戰與產業前景,本期 DeepTalk 邀請到了兩位深耕這一領域的創業者,丘腦科技 CTO、浙江大學博士趙翔;中科院自動化所 AI 博士,智悅雲創及 TiMEM 記憶引擎創始人餘宣慶。圍繞 AI 記憶的核心技術、應用場景與未來走向展開了一場深度對談。


以下是對話正文:


DeepTech:歡迎兩位老師,請先給大家做個自我介紹。


餘宣慶:大家好,我是中科院自動化研究所博士五年級的餘宣慶。我們做記憶其實是有淵源的——我的科研方向原來就是知識圖譜,我們課題組又聚焦在工業製造場景,對於時序數據非常關注。我從博士課題開始就研究時序知識圖譜的預測,當時更多探討的是知識圖譜與大模型之間的關係,後來自然而然地切入到記憶這個方向,面向智能體場景做學術研究。


創業方面,我從 2023 年 初就在探索求職招聘方向的應用層創新,在這個過程中發現記憶對性能起着非常關鍵的作用。2025 年 3 月 開始,我們正式研究記憶中的痛點,做科研驅動的產品化。目前推出了“TiMEM 太憶 AI”自進化認知引擎,包含記憶、經驗學習和事件預測等功能幫助智能體學會學習、能預測、能記憶,成爲用戶真正的夥伴。


趙翔:大家好,我是趙翔,丘腦科技的 CTO,2025 年 6 月從浙大博士畢業。不過畢業之前大概 3 月 就已經在做現在這件事了,一直做到現在。我們公司叫“丘腦”,主要產品叫 Omni Memory,做多模態的記憶。


我們關注到一個趨勢:2025 年 甚至 2026 年,人類所有的公開數據可能都會被大模型用完,AI 在人類知識邊界上會達到一個平臺期。前段時間也有人在講,整個能力進化在 C 端用戶那裏已經感覺不到那麼強了。所以我覺得後期 AI 很大的一個方向會是下沉到每個人身邊,實現個性化。Memory 這件事情就變得非常重要。


另外餘總也說到他們很關注時間,我們也是。因爲我們一開始就做全模態,會把視頻模態考慮進去,而視頻天然對時間很敏感。此外,我們認爲記憶要可審計、可定位、可修改,而要實現這些,最好的錨定就是時間。目前我們的產品已經上線了 SaaS 平臺,對外提供 SDK 和 API 接口,歡迎大家試用。


從上下文到外部存儲,再到原生記憶


DeepTech:咱們從技術路線聊起。大模型剛出來的時候,訓練階段用了海量語料,我們感覺它其實也有“記憶”,只不過不是針對個人的。後來我們發現,大模型的知識來源主要是上下文窗口,再後來模型越來越大,可以外掛知識庫,我們又會覺得它的信息是基於知識庫的,知識庫裏的信息也可以被視爲一種記憶。這些技術發展的脈絡和我們現在說的 AI Memory 之間有什麼區別?


餘宣慶:最開始我們感知到的“記憶”,更多是模型好像知道我歷史的交互數據,不再是一次輸入一次輸出,下一次再問的時候它還記得之前聊過什麼。這種上下文記憶的實現方式,本質上是把過往的聊天曆史重新作爲提示詞的一部分再次輸給大模型。


但問題很明顯:上下文窗口有限,當交互歷史達到一定長度後,就不得不開一個新會話,之前的內容就丟棄了。於是我們自然會想,這些歷史對話數據能不能成爲外部存儲?比如用壓縮或者向量存儲的方式來檢索。但這又會帶來新的痛點:裏面含有大量噪音,無法建立事件之間的關係和聯繫,在需要找到相關語義信息時無法提供精準的上下文支持。


所以現在我們談的 AI Memory,其實是一種面向智能體的原生記憶操作系統——從上下文記憶,到外部存儲,再到智能記憶體,不斷緩解每個階段的痛點。我們現在要探討的,正是記憶如何不只做存儲,而是進化到可以認知、可以把經驗提取出來的階段。


趙翔:我補充一下。AI Memory 這個概念其實很泛,包括模型本身權重中的記憶,以及外部輸入的知識庫。我們現在經常把它當作 Context Engineering 來做,就是因爲目前的模型本身是無狀態的——在大規模分佈式部署時,用戶拿着他的 ID 和全部上下文一起扔給模型,模型可能通過 KV Cache 實現一個短期的工作記憶。但目前所有的 Agent,本質上都是在做 Context Engineering:怎麼又好又準,在 Token 效率的前提下把整個 Context 組織好,交給模型,利用好它的上下文窗口。


以前大家用 RAG 檢索文檔,或者利用文件系統存一些文本拉回到上下文,這些都是早期的做法。但我們現在希望 Memory 能夠隨着用戶不斷學習和進化——逐漸生長成一個人的 Life Context:他的記憶、經歷、背景、偏好。通過 RAG 或 Graph RAG 的形式儲存,再通過用戶的一句 Query 模糊召回相關 Context。目前整個 AI Memory 的方向,就是希望它是 Token 高效的、精確的、能根據語義精準召回用戶以前說過的話和偏好。


AI 記憶與人類記憶的相似性


DeepTech:我們人類的記憶有工作記憶、短期記憶、長期記憶,而且很多時候人類記憶是模糊的,先模糊召回,隨着檢索深入再逐漸變得清晰。AI 記憶的開發過程中,是不是有某種與人類記憶相似的原理?


趙翔:確實有一定相似性。人的工作記憶存在大腦皮層,短期記憶和情景記憶可能存在海馬體,通過不同頻率的信號,大腦會重新建立新的突觸和連接,形成持久性記憶。AI 現在也在嘗試模擬這個過程。


比如說,我們可能先模糊地想到一件事,這就是模糊匹配,先命中這件事本身。然後神經元向外擴散突觸連接,想到一些與之相關的記憶進行召回。這和 Graph RAG 很像:命中了一些節點之後,沿着圖做一跳或多跳的擴散,召回新的節點。從模糊匹配到仔細回想,再到形成整個認知並拉回來,這個過程和人類記憶還是很像的。


餘宣慶:我也非常認可。人工智能確實從腦科學、認知心理學中獲取理論基礎和靈感來建設系統。但我不完全認爲它一定要和人腦的神經結構完全對應。因爲人類天然有生理侷限性,會自然遺忘。而存在計算機系統裏的數據是否有必要專門去遺忘,我打個問號。我們更多探討的是:在下一次 AI 輔助決策或執行任務時,它能不能用最低的成本、最高的響應速度找回需要的信息——這個信息可以是精細粒度的,也可以是概要性的。


人腦記憶是結合了情境的:結合我們當下正在發生的事情的話題、任務和目標,把內容和情境關聯起來再去存儲。現在一些記憶工程的實現,也開始分主題保存、分層保存,探索加入環境交互、目標感知,來決定記什麼、重點記多少。記憶這個學科,確實是腦科學和實際工程場景的需求雙向哺育發展的。


同時,記憶的作用不只是服務人。智能體對自身的工具調用、行動軌跡也需要提取經驗;智能體之間的交互也需要學習和記憶。記憶的作用範圍不只是 Human 和 Agent 之間,還可能是 Agent 和 Agent 之間,或者 Agent 對自身的。


短期記憶與長期記憶的實現機制


DeepTech:那短期記憶和長期記憶在具體的實現機制上有什麼不同?


趙翔:短期記憶和工作記憶其實差不多,目前的實現方式就是 Context Window 上下文窗口。因爲模型本身是無狀態的,只負責計算和輸出 Token 預測。爲了解決工作記憶的一致性,使得下一次對話時能把前面的思考和內容全部帶上,就用了 KV Cache。以前單體模型部署在顯存裏,現在大規模部署用分佈式 KV Cache 來緩存。我們在工程上也會盡量讓上下文前綴保持 Token 級的穩定,確保 KV Cache 命中,降低重新計算量,實現對話窗口中短期記憶和人格的一致性。


長期記憶方面,除了持續學習以外,目前我們在做的 Memory,是在 Context Engineering 中從人和 AI 的對話裏去記情景記憶或語義記憶。情景記憶就是原始對話的細節,語義記憶則是對這些細節做語義抽象,抽象到更高層級,相當於做了一個摘要,本質上是一種壓縮。對人來說,記憶事情也是以事件爲中心的——不會一下子記到很細的東西,可能先回想起來“我們昨天做了一件什麼事”,再去想裏面的細節。語義記憶就是把事件本身做一個簡短的 Summary 抽象保存。


餘宣慶:趙總說得很好。我補充一下工作記憶這塊:我認爲它更多關注的是 AI 完成當次會話所要關注的任務中,哪些是關鍵信息、哪些可以丟棄。在技術實現上,短期記憶中也可以利用強化學習來判斷哪些信息在下次使用中應該被遺忘,這本質上是對注意力的加強。因爲 AI 在執行任務過程中可能會注入冗餘信息,對上下文窗口的佔用和大模型的注意力都會產生干擾。


常規的實現方式是:最近的保留原文,遠端保留摘要,再遠端保留長期記憶,這樣一個組合給到 AI。對於長期記憶中的語義記憶,我覺得除了保留事件和話題外,更重要的是關注結構化——不只是顯性的概念性事實信息,還有 AI 聯想思考延伸出來的內在屬性,以及不同主題信息之間的關聯。這樣在回憶時可以藉助類比思考、相似案例來做一些啓發性的工作。


信息壓縮與丟失的權衡


DeepTech:形成摘要的過程中,會不會造成信息丟失?隨着記憶越來越多,AI 會不會在需要時調用不出這些記憶,或者調用出錯誤的記憶?


餘宣慶:壓縮比這件事非常關鍵。不是每一輪交互輸入都很長,如果都用同樣的壓縮比,肯定不合適,需要調控。


我最近看到一篇研究,把壓縮看成一個“可旋轉的旋鈕”,更多關注的是某個任務、某個目標下壓縮是否合適,有些細節信息要不要保留,可以根據臨時情況判斷。我們自己的一個工作則是持續分層級壓縮:先做一步壓縮,再異步做二次、三次壓縮。跨越的時間範圍越長,壓縮粒度越粗。第一層壓縮儘量去除冗餘信息,保留大部分細節。至於這些信息要不要在每次記憶調用時都拿出來,可以根據問題的複雜度靈活判斷。


摘要確實是一個很重要的話題——記憶本身就是對原始數據的凝練,把它變成有用的 Context。要不要丟失、丟失多少,可以單獨設計模塊來提升性能。這也是記憶在落地業務場景後,結合數據反饋和垂直任務,能慢慢形成壁壘的關鍵點。


記憶的更新機制


DeepTech:比如我今天想喫火鍋,下週腸胃不好不想喫了,這種個人偏好的變更,記憶能跟着更新嗎?


餘宣慶:有一種實現方式是直接找到原來的記憶存儲位置進行更新,記錄一個版本的更新時間。下次檢索這個話題時就能得到最新信息。


我們的方式是增量更新補充:你在什麼時刻多了一個新的偏好,我把你過往每個時間點的偏好或事實都保存下來。召回時按時間線全部拎出來,再通過記憶體中的一個門控機制,判斷當前問題的話題場景下,歷史偏好要不要利用。比如回憶偏好變化時,當然要用到全部歷史;如果只是問“你當前喜歡什麼”,那原來喜不喜歡就不重要了。


趙翔:記憶更新確實是很多 Memory 框架的一個大痛點。比如以前的 RAG,想對一個特定記憶進行更新其實非常難,因爲它是模糊匹配,召回的東西不一定是你想要的。


我們引入了一個顯式的時間軸,所有進來的對話或多模態證據都先和時間軸進行錨定,先錨定一個物理的具體輸入時間,然後再進行語義抽象建立認知層。這樣首先做到可追溯。狀態更新方面,我們也是做累加的,只不過會把失效的記憶標記爲“invalid”,在新的記憶上標註“valid at”某個時間。後期需要追溯或修改某個記憶時,也是根據時間定位到具體的注入點,然後去更改它的認知 Summary。


記憶的強化與遺忘


DeepTech:人類學習中,隨着不斷鞏固某個知識,記憶會被強化,能更快調出來。AI Memory 能實現類似的強化和反思嗎?


餘宣慶:如果在 AI 的 Memory 機制裏,某篇課文已經以 Knowledge 的方式存儲過了,對 AI 來說回憶就不是難事,幾乎每次都能召回所有細節。這和人類不同,人類必須通過不斷反思強化來加深記憶,把短時記憶變成長期記憶。


但在 AI 中,你每次反思加工產生的新內容,比如哪些地方要關注、前後篇章的邏輯關聯,這些會作爲增量更新補充到記憶中。這些相關內容在記憶總量中的佔比會越來越高。下次用 Top K 方式召回時,它原來可能只佔三分之一,後面就變成三分之二了。大模型在回答時自然就會給予更多注意力。


同時,如果每次召回加上反思經驗一起拼接後,對下游任務有正向反饋,我們就可以給它加權重,不斷提升。召回排序是綜合性的,通過時間、相似度、成功帶來的置信度做融合排序。


趙翔:我們也是類似的方案。我們有一個綜合權重的 Ranking 體系,裏面有很多權重分數,比如關注度、BM25 等,綜合成一個 Score。其中一個很重要的點是:當這個節點被反覆提及或反覆被召回時,我們會對它的 Importance 進行更新,把重要性拉起來。這樣它在排序中的位置就會非常靠前,只要提到它的次數足夠多,每次召回時它就會排第一。通過排序來實現記憶的增強和鞏固。


反過來,也可以通過這種方式實現遺忘,這是一種 TTL(Time To Live)的功能。如果一個記憶經常未被召回,激活時就會顯示出非常低的分數。我們會通過異步掃描去檢查這些長期未被激活的節點,對它進行清理,模擬人類的遺忘曲線。


餘宣慶:我再補充一個思路。我之前有一份工作叫“在線式神經符號融合增強事件預測(ONSEP)”,其中設計了一個動態因果挖掘的規則學習器。我們用規則集來補充檢索器自身的能力。


具體來說,關注原因和結果事件的發生——如果某個原因被反覆提及,或者對結果的預測和推理有正向作用,我們就會用 AI 的反思能力總結出一條規則:這個原因可能導致這個結果,標註一個置信度,存在規則集合裏。下次召回記憶時,用規則集去海量歷史中優先查找,這些原因事件就通過規則這種顯式方式加強了權重。規則的置信度和數量都可以隨時間更新。


AI 記住了,但能遵守嗎?


DeepTech:我們在日常使用 AI 時,會發現它很難完美遵循它之前的承諾。比如我們告訴 AI“這個你一定要記住”,雖然很早之前 ChatGPT 就推出了記憶功能,但在需要召回時,它是很難完美記住的。現在的技術能解決嗎?


餘宣慶:這個問題的本質是記憶機制、記憶鞏固天然會帶來一定的細節損失。一個好用、可靠的記憶體,一定需要意圖識別能力。我們到底是要對某個話題做摘要,還是要原封不動地記住所有內容?需要有路由策略,可以歸到 Knowledge,可以歸到長期記憶做結構化事件保存,也可以定義成規則。你要求它記住的可能是某個業務規則、必須做什麼或不準做什麼。我們可以把它歸類到 Rules 這一欄,儘量保留所有細節,在召回時做事件觸發,把內容填充到上下文中。


趙翔:我們的處理思路也不復雜。AI 本身是概率性的發散,每次輸出可能不太一樣。但用戶會明確表達一個偏好,這次輸出好或不好,或者要求它記住某件事。這本質上是一個 User Preference 的問題。所以我們會維護一個 User Preference 的 Schema 和 Profile,在召回時做條目召回,作爲 AI 自我遵循的補充。


我們在存儲原始證據層時,因爲證據層是可審計的,每輪 Turn 都會掛進去。召不回的時候,其實可以召回到用戶和 AI 每一輪對話的細節。我們實現了一個五路並行 Retrieval,除了 RAG 檢索,還有圖檢索、時間序列檢索、實體節點檢索,以及證據層檢索,分別命中。在測試中,當證據層召回打開的情況下,AI 是可以完整回顧自己那段對話中的承諾的。


餘宣慶:我再補充一點。我認爲大部分記憶框架缺少一個“記憶的指導器”。記憶體更多是一個多模塊協同的系統,需要各司其職,意圖識別、記什麼類型、記多少、要不要記、什麼時候記。我們設計了一個元記憶的指導器,來調控各種不同的記憶組織結構應該怎麼記。另外,記憶和大模型的組織問題目前有點解耦,技術本身怎麼記、應用場景的用戶反饋、是否真正影響到了下游結果,這幾方面分別在推進。整個記憶領域的基準測試集也還不夠全面,未來會有一個融合和產品化的進展。


當前技術面臨的挑戰


DeepTech:目前記憶技術還有哪些未解決的挑戰?準確性和幻覺、關聯性和推理性、過擬合、容量和效率的上限等等。


餘宣慶:任務目標的識別感知、記多少記什麼的評估、召回的內容是否真正有用以及如何評估,這些方面都還需要研究。比如召回的到底應該是細節、概念還是模糊的摘要片段,它們如何關聯,要不要結合用戶 Query 做重寫再給到下游模型。另外,當前對記憶的評估更多聚焦於幻覺和檢索準確性,但對於人機交互場景來說,是否深度理解了用戶、全面的用戶畫像能力,這方面也需要被討論和關注。


趙翔:我補充一些我們在開發中遇到的具體挑戰。首先是上下文信息是否完整、是否全面,它本身是對對話文本的抽象和原始證據,所以存在一個 Token Efficiency 的問題:怎樣用盡量精準且少量的 Token 去模糊匹配到用戶當時的上下文。


對應用側來說,Token Efficiency 就是成本的重大衡量。你可以提高 Top K 來達到更高的準確率,但降低 Top K 實現 Token 效率後準確率就會下降。這是一個權衡問題。


另外是垂直場景的定製化。當我們嘗試構建通用 AI Memory 時,一些非常具體的場景,例如陪伴、醫療、法律,它們各自可能有一類特定的記憶需求,和業務深度綁定。在通用記憶基礎能力之上,如何滿足各個垂直場景的高度專業化或定製化需求,這也是持續的挑戰。


行業應用:從知識庫到記憶


DeepTech:除了聊天和個人 Agent,金融、醫療、客服這些垂直行業已經用上 AI Memory 了嗎?


趙翔:真正嚴肅的金融、醫療、客服場景裏,大概率還是用 RAG——把話術或知識庫切分,RAG 召回作爲數據庫。真正使用 AI Memory 的話,比如和醫生或個人專家實現強耦合,記憶就必須是可審計的。不能是 RAG 裏那種模糊匹配加排序——隨機性很高,不可控,隨着向量庫膨脹、圖膨脹,召回噪聲的概率越大,正確 Ranking 的概率就越低。所以必須可治理、可審計。這也是我們特意引入時間和證據這兩個層級的原因。


不過要真正和醫療、金融這種極其嚴肅的場景耦合,還需要更細緻的工程。比如現在有一種叫 Skill 的方式,本質上也是上下文或 Few-shot,通過逐步暴露來降低 Token 佔用率,先只讓 AI 看到標題和功能,裏面的細節先不暴露。後續在專業場景中,Memory 可能會落到用戶 Preference 或工作中 Skill 的收集和構建上來。


餘宣慶:我補充一下。我們關注了很多智能體對自身記憶的場景——現在智能體已經從聊天機器人走向可以執行任務、動手做事的工作夥伴。它對於自身在某個任務目標下的工具調用編排的記憶,以及在成功或失敗中能否提煉經驗、下次運用經驗的能力,這是我們在關注的。


比如我們有一個工業場景:焊接工藝參數生成。讓焊接機器人更好地適應新的焊接目標任務,結合圖像識別得到工藝參數。這個過程中往往需要一個工藝專家站在邊上反饋參數是否合理。這種反饋很難僅僅靠 RAG 或外部知識圖譜作爲靜態知識來沉澱。我們認爲未來要做到人類知識的蒸餾,把人在交互過程中反饋的審美判斷、一系列 Approve 事件,變成 AI 可以沉澱的 Skills 或 Rules,成爲個性化或組織個性化的經驗。


另外在教育陪伴、養老等場景,教育方面的因材施教,例如學生學習某個知識的風格和理解方式能不能通過一次測試反饋後自主調控?陪伴和養老場景則更關注情緒,比如什麼事件激發什麼興趣。這些都需要在業務適配時調控記憶關注的點,設計專門的 Schema 來告訴系統應該記什麼方面的內容。


挑戰一是能否理解這些業務場景的目標任務,二是推理響應速度能否加強。因爲多模塊協同的記憶體中,簡單的壓縮可以用小模型,但高層次的抽象信息提煉或 SOP 提煉可能需要大模型,而大模型又非常慢。能否把大模型的能力注入到某個記憶小模型裏,也是我們在探索的方向。


個人記憶會“污染”知識庫嗎?


DeepTech:比如說金融從業者或醫療人員把自己的知識沉澱爲記憶後,這些記憶會轉化到知識庫裏嗎?轉化之後會不會污染知識庫?


趙翔:知識庫和記憶的區別在於:記憶和人是強綁定的。在專業場景裏,通用底座模型的知識在任何領域都已經觸達人類邊界了,它知道的肯定比你多。


人在這裏起的作用是什麼?是怎麼去調用這些知識,在一個非常具體的場景或崗位裏,通過沉澱下來的經驗和技巧把工作流組織起來。但這個事情現在也受到了 Skill 的挑戰。我們內部經常討論:如果一個公司強制要求每個員工把工作經驗和邏輯全部沉澱到文檔裏作爲 Skill,那這個人是不是就隨時可被 AI 替代了?


對於垂直場景來說,通過個人的工作經驗反饋、工作文檔、對話甚至文件,可以沉澱出一個 Skill 節點,按層級先只暴露一個摘要,再往下是類似 Schema 的模板,把整個經驗沉澱下來。這其實是從個人的零碎情景記憶,轉向高度抽象、高度凝練、高度專業化的經驗知識。在通用底座之上,各個垂直場景可以有專業化的 SDK 或 ADK。


餘宣慶:可以理解爲一個場景的適配器,拼在模型外面作爲單獨一層。


至於幻覺問題——專家經驗反饋中如果有某次的錯誤操作注入了不相關的記憶或錯亂的 Skill——我覺得需要持續監控在應用場景中的效果。通過環境交互的反饋,理解記憶帶來的效果是否有效。如果它導致了失敗,通過類似強化學習的機制,它就會被擠到l候選列表下面去,慢慢被遺忘掉。


To B 還是 To C?


DeepTech:AI 的產業化上一直有 To B 和 To C 之爭。兩位怎麼看 AI Memory 在這方面的前景?


餘宣慶:記憶更多可能帶來體驗升級。很多陪伴類產品或兒童 AI 玩具場景,購買意向可能很高,但留存率是否滿意?我看到一些玩具類產品說自己有記憶,實際上就是把所有交互數據壓縮成了 1000 字,很淺,沒辦法實現深度的長期記憶。


人在 C 端場景有一個社交底層需求:我真正被看到了,我的內在好的一面、不好的一面都被關注到了。如果 AI 能在我需要幫助時回憶到那些點,提供真正深度有用的建議,這種情緒價值,C 端消費者是願意買單的。


B 端則更關注生產力效率提升。銷售客服場景大家都願意花錢獲得更多客單,代碼或寫作這種直接產出內容的商業化場景,做一些記憶提效更容易落地。


趙翔:我覺得最終還是 To C。哪怕我們把 C 分成個人開發者(小 B 或小 C),目前 To B 其實是一個介質,我們的 Memory 作爲一個相對底層的 Infrastructure 能力,To B 的話 B 還是要把這個能力接到它上面面向 C。最終場景還是面向 C,因爲 Memory 本身是一個高度個性化的東西,以用戶爲中心,對用戶的記憶或 Life Context 進行託管。只不過前期在哪些 B 端場景或 C 端場景先商業落地,這可能是路徑問題。可能前期先 To B,但最終一定面向 C。


餘宣慶:我個人認爲,記憶這件事更多是面向 Agent 的。這個 Agent 可以是組織創建的,也可以是個人創建的,服務於人或者企業內部的數字員工。服務形態和商業模式可以分開來看。


B 端更願意付費的場景,除了高價值的生產創作和銷售場景,還有組織經驗的沉澱。我們自己團隊在探索如何更好地使用 Claude Code 或 Agent。用得好的人能在站會上分享使用經驗,但現在還需要用口頭方式溝通、寫文檔做示範教學。如果這些經驗能直接被 AI 記住,然後另一個同事的 AI 在做類似任務時直接運用,那就直接提效了。作爲組織負責人,我非常願意爲這個買單。把員工和 AI 的交互沉澱下來,這是一個非常有商業想象空間的場景。


隱私與信任


DeepTech:企業願不願意把交互記憶託管給第三方?用戶願不願意把隱私託管給 Agent?


餘宣慶:落地推進時確實會遇到顧慮。我們從技術層面要做數據加密,更重要的是以數據主權爲中心,用戶的記憶能不能全部導出歸自己所有,像 U 盤 一樣可插拔地在各個新產品上使用。對企業,也可以提供本地化部署方案。


趙翔:這是我們都要面對的問題。To B 客戶非常在意把數據留在自己公司。我們在架構設計時就考慮了數據庫和 Service 之間的可解耦,對於隱私要求極高的大 B 企業,數據庫可以自行託管和加密,Memory 的抽取、建圖等 Service 從我們這邊走。


對 C 端來說,我們主打的是用戶的記憶託管平臺,“一處記住,處處可用”。用戶在聊天過程中把信息放在這邊,通過跨平臺、跨 AI、跨 Agent 的交互,降低溝通成本,爲每一個 AI 構建熟悉感和偏好了解。


餘宣慶:當然,當我們提供的提效價值或解決剛需的價值超過了數據隱私顧慮時,客戶其實不一定以此作爲決策的阻塞點。實踐下來,有些公司本地本來就有留存,只需要數據價值和服務穩定性就夠了。


記憶孤島與遷移成本


DeepTech:當 AI Memory 沉澱到某一家公司的產品裏,記憶遷移成本一定很高,就像微信的社交關係一樣形成壁壘。未來會出現基於個人數據的新壟斷嗎?


趙翔:你說的其實就是“記憶孤島”。比如我和 Claude 聊了很重要的東西,但覺得回答不好想換成 GPT,這個遷移成本就很高,得一個對話框打開,一個複製粘貼。


我們做 Memory 上雲、上 SaaS 託管,就是要去中心化,解決記憶孤島問題。大廠天然有壁壘,它們自身就是一箇中心、一個孤島,數據都在它們裏面,和其他生態不互通。我們作爲第三方記憶託管平臺,任何支持 MCP 或通過幾行代碼接入我們記憶功能的 Agent,都實現了去中心化。用戶在一個 Agent 裏形成的記憶,可以帶着它隨處遷移,是可插拔式的。


餘宣慶:另外,記憶導出目前還沒有建立行業標準,導出的形態是什麼?每家的記憶框架不同,導出數據對原框架可能非常好用,對別的框架可能就不那麼適配了。這件事需要行業討論。


不過我們也可以看到,這和之前筆記類、日記類軟件的問題類似,比如 Flomo 這樣的碎片化記憶管理工具,容量到了上限就得開 Pro,導出到本地也沒地方導入。這其實慢慢形成了社區壁壘。


趙翔:用戶經過冷啓動後,確實會慢慢形成壁壘。從生態角度講,積累大量用戶的依賴和粘性,可以反過來倒推開源 Agent 或 Agent 開發者來接入你的 Memory 能力,形成生態。


爲什麼大廠都在做硬件?


DeepTech:既然聊到了個人化,爲什麼現在大廠都扎堆做 AI 硬件?


餘宣慶:智能硬件可以隨身攜帶、一鍵觸發,降低了打開手機、打開 App 再點按鈕的流程。它帶來的體驗效率升級讓我們越來越“懶”,比手機打開應用的某個功能要便捷。


趙翔:有點類似以前互聯網時代大家都開發 App 以此爲中心。現在越來越 AI Native,大家在探索一種新的人機交互範式,儘量繞開屏幕式交互,通過耳夾、眼鏡等硬件降低人和 AI 服務的交互成本。


DeepTech:今天也看到新聞說蘋果要開發一個帶兩個麥克風、一個攝像頭的胸針產品。AI Memory 肯定可以和智能眼鏡、智能座艙、機器人這些有頻繁交互的設備結合,成爲大腦端非常重要的倉庫。


趙翔:是的。我們之前就想從全模態開始做,考慮的和您說的一致。無論智能配件、機器狗、陪伴玩具,本質上都在探索和人類直接交互的範式。這些範式的核心點就是必須克服“有狀態”的問題,智能眼鏡得記住它看到的東西,陪伴機器人得記住它做過什麼和要做什麼。所以我們一開始就以全模態爲底座,目前能夠支持視頻、音頻和文本,全部在一張圖上做下來。


餘宣慶:大廠戰略上考慮硬件,一是從交互層面提高效率,二是搶佔入口——GUI 可能慢慢被新的交互形態替代。我們也非常歡迎硬件廠商和我們的記憶體進行合作。我們自己也探索過 C 端產品——時間管理和規劃助手,通過對話拆解任務,結合歷史偏好經驗做預測。高頻、高價值、有粘性的場景如果有硬件形態,集成一些細分功能,就是很好的創業方向。


Token 消耗與持續運行


DeepTech:像智能眼鏡一直戴在臉上工作十幾個小時,Token 消耗量會很大,而且更多是圖像處理。


趙翔:這在以前 CV 領域其實也有解決方案。視頻每秒 30 幀,但一天中以攝像頭或眼鏡爲例,可能 80% 甚至 90% 的幀是靜止的。可以對幀進行去重,只獲取那些有價值的幀。這個技術在 CV 時代已經相對成熟了,我們做記憶時也是這樣。


餘宣慶:在雲端上面可以探索更高效的模型來處理壓縮,終端設備利用到的數據可能是“夠用的低分辨率”就可以了。另外能否把計算分佈式放到硬件端,用端側小模型處理,也是一個方向。Token 成本、模型進化、硬件計算設備都在進化,關鍵是什麼時候進入這個賽道把產品打磨出來。


比如現在有些眼鏡已經在識別哪些重要場景值得記錄然後纔開始拍攝。有了記憶體後可以先保存到 App 端,聯網環境下用戶不需要那麼實時感知時再處理。如果需要實時輔助當前決策,也可以先用工作記憶在上下文窗口裏實現。


數字人格:會替代我嗎?


DeepTech:今天上午和實習生聊天,他會有恐懼——未來會不會出現一個數字人格把我替代掉?AI 有了我的記憶之後,會變成另一個“我”嗎?


餘宣慶:數字分身其實是一個很高效的場景。在諮詢服務或客服領域,讓知識服務不再是一對一的、每次消耗腦力的。一個心理諮詢師、法律諮詢師,學了這麼多年知識,一次只能服務一小部分人,效率很低。如果能通過帶有記憶和經驗的數字分身作爲專家模型,幫你提供給其他 Agent 或人類服務,產生被動收入,我覺得這是一個很看好的新商業模式。但你要不要授權、給它的行動範圍和參與場景做什麼限制,主動權和控制權還是留在用戶自己手上。


趙翔:最近確實讓我感覺到這個趨勢。如果通過 Skill 把每個人的崗位職責固化,某種程度上大部分人其實在做相對固定的事情,如果真能固化到 Skill 裏,我覺得確實可以替代。


數字人格這個東西后面肯定會慢慢出現。如果能把一個人的各種行爲偏好、思想記憶以高帶寬的 Embedding 空間形式無損傳給模型,模型可以模仿他的所作所爲和思想。但目前來看,在非持續學習的形態下還很難替代,因爲模型本身是被動響應的。


不過我想提到一個有意思的東西,之前 Google 可能提了一個叫 HOPE 架構的 continue learning ,在人和 AI 交互過程中不斷更新,先是工作記憶,再慢慢傳遞到內部,類似於快羅盤和慢羅盤之間的傳遞,緩慢更新自己的權重。他們甚至給這種模型起了個名字叫 Live Model 活體模型。當模型能夠實現熱權重更新和活體化時,可能真的會有一些主動性。再結合 Skill 沉澱和 Personality,也許真的能替代人。


但也不需要害怕。當生產力極大豐富的時候,也許就是按需勞動、物資極大豐盛的時代——暢想一下而已。


餘宣慶:目前的 AI 不能完全模仿人類。人類在持續學習,有從自己做過的事情中反思提煉經驗的學習能力。更重要的是主觀能動性——有意志、有衝動去打破現狀。這種內在動機是目前 AI 很難模仿和復刻的。


趙翔:對,主體性。這可能是一個倫理問題、社會倫理問題。


總結


餘宣慶:今天我們從最新的記憶進展聊到了記憶的分類、技術難點以及產業化。通過和趙總的討論,我學到了很多技術實現的不同路線和發展方向的思考。


我們的太憶 TiMEM 認知引擎,以時間區間分隔和分層的方式作爲第一性原理來組織記憶,保證事件連續性和用戶畫像鞏固的穩定性,再上升到從中高效提煉經驗性內容來服務 Agent 的自我增強。商業化場景不只 C 端,主要面向 Agent,它可以是任何組織或個人創建的,服務形態可以根據垂直場景適配。未來要學會任務感知、目標感知,與實際工作場景結合。關於數字分身,我的判斷是一定要把主權交給人類和 IP 本身,否則就會失控。


趙翔:今天我們從 AI Memory 的概念一直聊到很細的技術問題,再到行業趨勢展望。我們現在已經通過 STKG(時空知識圖譜)的手段實現了比較好的效果,在 LongMemEval 等基準上打了比較好的榜。


對於未來的展望,我們也有一些深入思考。現在在嘗試做一個潛空間(Latent Space)注入回憶的形式——文本作爲載體,人類語言的帶寬其實相對較低。Embedding 思想很重要:如果能把非常密集的獎勵信號和 Memory 壓縮到稠密向量空間,雖然人看不懂、大模型可能也不完全懂,但如果能映射到 Embedding 交給模型做潛空間交流,這將是非常有意義的事情。這也是我們正在做的,可以期待一下。


DeepTech:非常感謝兩位老師的深度對談,也感謝大家的收聽。關於本期內容,歡迎在評論區和我們交流。

Scroll to Top