研究人員提出無損修復方案,困惑度降低7%-21%

由 DeepTech深科技 發佈於 科技

'25-10-06

衆所周知,當下以自注意力機制與自迴歸生式爲核心的大模型在多個領域比如學術、生產、工業等領域變得愈發不可替代。在近期一項研究中,美國邁阿密大學本科校友、美國加州大學爾灣分校博士生喬燁和所在團隊從一個大模型非常日常的痛點出發:即模型需要越來越會“讀長文”,但是,模型對於上下文長度的支持通常是在預訓練時就定下的,在不做訓練/微調的情況下無法輕易改變。


圖 | 喬燁(來源:喬燁)


如何在不針對模型本身權重做任何修改的情況下延長上下文窗口呢?旋轉位置編碼(RoPE,Rotary Position Embedding)給了一定的可能性。旋轉位置編碼是一種能將相對位置信息依賴集成到自注意力機制中、並且能夠提升模型架構性能的位置編碼方式。而目前很火的 LLaMA、GLM 模型就是採用該位置編碼方式。和相對位置編碼相比,RoPE 具有更好的外推性,是當前大模型相對位置編碼中應用最廣的方式之一。


現有研究已經證實:利用旋轉位置編碼可以有效增大模型上下文窗口。AI 社區常用的做法是使用 RoPE 的位置插值/外推(比如線性、NTK-aware、YaRN 等)把上下文窗口拉長,這樣一來無需進行再訓練就能讀取更長的輸入;另一方面,真正落地時又不得不做後訓練量化(PTQ,Post-Training Quantization)來壓內存和提吞吐。但是,這兩條路一旦疊加就會經常發生“衝突”。


研究團隊在實驗裏看到,很多量化模型在使用位置插值之後,準確率開始顯著下滑,尤其在超出原訓練窗口時更加明顯,這些效應會彼此增強,並表現在注意力 logit 噪聲會“隨位置而變”等方面。簡而言之,他們所要解決的是“RoPE 長上下文插值”和“後訓練量化”疊加後的系統性退化問題,以便讓量化後的長上下文模型在不改算子、不再訓練的條件下也能保持性能穩定。


通過開展這一研究,研究團隊提供了業內第一份關於“旋轉編碼插值 + 模型量化”的系統分析與診斷,並提出了兩個性能指標。


第一個性能指標是插值壓力(Interpolation Pressure):它指的是當某一段頻帶的相位最敏感,輕微縮放就會引發較大偏移,高頻帶的壓力普遍更大。


第二個性能指標是尾部膨脹係數(Tail-Inflation Ratios):它能用來衡量從短上下文到長上下文時,預激活與旋轉後坐標軸上的“尾部/幅度”如何增長的問題。


研究中,他們還明確了四個彼此耦合的機制,它們分別是:長上下文混疊機制、動態範圍膨脹機制、軸對齊量化與 RoPE 旋轉角度的各向異性機制以及離羣值在長序列下的轉移與放大機制,這些機制會共同導致“位置相關”的 logit 誤差。


基於這一判斷,研究團隊提出了一種僅修改權重、按頻帶分組、能對(W_Q, W_K)做出帶限縮放的輕量方法——“Q-ROAR”。它僅僅使用很小的長文開發集,只需沿着安全邊界在對數網格里搜索每個頻帶的縮放係數,即可選擇對稱縮放(W_Q 乘 g,W_K 乘 g⁻¹)來維持 logit 尺度穩定。整個過程無需再訓練、也無需改內核,同時也不產生推理開銷,對於量化器和後端都不會帶來任何影響。


在應用前景上:


其一,可用於企業檢索&RAG/合規審閱。具體來說,可用於長文檔彙編、跨合同/報告等經常需要大於 32K 上下文的內容的合規覈查。Q-ROAR 對於 YaRN 等插值法來說好比是一個“補丁”,故能讓量化模型穩住長上下文性能,從而在同樣的顯存之中裝下更大的上下文或更多的併發推理。


其二,可用於代碼與知識庫助手。具體來說,可用於超長倉庫、跨多文件代碼的補全與定位。研究團隊在 Proof-pile、GovReport 等長序列上看到,當尺度拉到 32K、64K 甚至 131K 時,Q-ROAR 相比常見量化基線能夠降低 7%–21% 的困惑度,這意味着在“讀得更遠”的同時不至於發散。


其三,可用於邊緣/多租戶部署。很多服務把激活保留在 FP16/BF16,只做權重量化或 KV 緩存量化。而 Q-ROAR 無需觸碰和激活內核,與現有系統棧天然兼容,非常適合在 GPU/加速卡資源喫緊或邊緣計算環境裏部署。


未來:


一方面,研究團隊將聚焦於輕量級激活側校準。雖然當前方法完全“不碰”激活,但在某些強場景比如 KV 量化和極長上下文的情況下,還需探索在很小的在線/離線情況下進行校正,以便配合 ρ_W、ρ_A 指標做限量干預。


另一方面,研究團隊將基於更大規模與更多基座模型開展研究。目前,他們已在 LLaMA-2-7B 和 Vicuna-7B 上做了驗證,後續他們希望在更多家族與更長窗口上進行“打穿”,同時進行開源實現與一鍵化腳本,以便讓 AI 社區進行復用。


最後,研究團隊將嘗試研發更好的旋轉編碼差值外推方法。目前工作主要基於 YaRN 和 Dynamic NTK 差值外推方法,然而研究團隊認爲這些方法並未達到最佳境界,因此下一步他們可能會考慮使用量化模型來研發更加合適的差值外推方法。


參考資料:

https://arxiv.org/pdf/2509.14391


運營/排版:何晨龍

Scroll to Top