別捲上下文了？CMU新論文：讓AI睡一覺，特定推理飆升52%

新智元報道

【新智元導讀】都在捲上下文視窗，以為越大越強論文。CMU新論文發現：大模型缺的不是長上下文，是「睡一覺」。

這兩天，一篇arXiv上的論文在Hacker News上引發熱議論文。

展開全文

這篇論文題目為《Language Models Need Sleep》（大模型需要睡覺），作者是來自CMU的Sangyun Lee、Giulia Fanti，以及馬里蘭大學的Sean McLeish和Tom Goldstein論文。

它要解決的，是一個被整個行業卷瘋了的問題：長上下文論文。

這兩年，大模型的上下文視窗從幾千token一路擴充套件到幾十萬乃至百萬級論文。對前沿模型來說，百萬級上下文已經不再罕見。

所有人都預設一條邏輯：視窗越大，模型記得越多，就越聰明論文。

但這篇論文偏要打破這個行業共識：模型答不對，不是記不住，而是「缺覺」了論文。

長上下文

可能從一開始就卷錯了方向

先說清楚現在主流大模型是怎麼處理長文字的論文。

純Transformer有個硬傷：注意力的計算量隨上下文長度呈平方級增長，快取佔用則線性增長：塞得越多，越燒錢論文。

於是一些前沿長序列模型開始採用混合架構：注意力負責高保真地讀取近期token，再穿插固定大小的「快速權重」（fast weights，可快速更新的輕量記憶）負責壓縮儲存活躍視窗之外的資訊論文。

注意力＋SSM（狀態空間模型）的混合設計，如今在大規模前沿模型裡已經很常見論文。這套設計的邏輯是：只要快速權重的儲存容量夠大，長上下文問題就解決了。

但論文實驗結果，直接打臉了這個假設論文。

論文核心架構圖論文。當上下文視窗被填滿，模型在「驅逐邊界」(Eviction boundary)前先做N次離線遞迴前向傳播，反覆更新SSM模組中的快速權重(Fast weight)。隨後注意力快取(KV cache)被丟棄，模型僅憑鞏固後的快速權重，一次前向就答出「8」。

研究者設計了一組受控實驗：在token預算相同、需要儲存的資訊量固定的前提下，只調一個變數：所需的推理深度論文。

結果發現，隨著推理深度增加，普通的SSM-注意力混合模型效能持續下降論文。哪怕快速權重的容量明明是夠的。

這意味著瓶頸並非「記憶容量」論文。真正缺的，是把已經被驅逐出快取的上下文，轉化成有用內部狀態的那部分計算量。

能記住，視窗塞得下，不等於會推理論文。整個行業捲了兩年的「視窗大小」，可能從一開始就找錯了那個最關鍵的按鈕。

模型怎麼「睡」？

一次計算排程的重新分配

那論文的解法是什麼？讓模型「睡一覺」論文。

這聽起來似乎有點玄乎論文，但背後的機制並不複雜，它的靈感來自生物學：

動物把短期記憶轉為長期記憶的過程，被認為依賴海馬體回放，尤其發生在睡眠期論文。睡眠期間動物對外界刺激沒有反應，說明這件事的認知收益，值得它付出「斷聯」的代價。

模型的「睡眠機制」，則是照搬了這個排程邏輯論文。該機制的觸發時機是：當上下文視窗被填滿。這時模型不急著清空快取，而是先進入睡眠模式。

在這段睡眠裡，它對累積下來的全部上下文做N次離線遞迴前向傳播，透過一個習得的區域性規則，遞迴地更新SSM模組中的快速權重論文。

當然，和動物睡覺一樣，這個階段模型不接收任何外部輸入token論文。睡醒之後，KV快取被清空，模型帶著更新過的快速權重繼續幹活。

這裡的關鍵在於：額外的計算被整體挪到了睡眠階段論文。只要這一步趕在快取驅逐前、或在空閒期完成，模型醒著回答時就仍是一次標準前向傳播，推理延遲不會增加。

這才是這套機制最聰明的地方：醒著的時候只管快答，真正費腦子的整理工作，留給睡覺論文。

HN上有人點出了這套機制的巧思：定期停下來，把近期上下文寫進一個快速權重狀態，這一步等於給了模型一段專門的「消化時間」，而不是讓它在回答時硬扛論文。

他更看好E2E-TTT那套做法，這是一種更靈活的持續學習方案論文。

遞迴不只為回答

也為記憶

這裡你可能會問：讓模型「多想幾步」論文，這不是早就有的思路嗎？

的確，此前的Looped LM（迴圈語言模型）、測試時計算（test-time compute），走的都是同一條路：讓模型在回答時多繞幾圈論文。

論文裡用到的Ouro 1.4B，本身就是一個這樣的迴圈模型論文。Ouro並非這篇論文新發布的模型，而是此前已有的工作，它採用引數共享的迴圈架構，讓同一批Transformer塊反覆作用，從而在潛在空間裡做迭代計算。

這篇論文的創新之處在於它把「迴圈」這件事的作用，從輸出端挪到了記憶端論文。

以往的迴圈模型，把遞迴計算花在「預測」上：回答問題時多想幾步論文。這篇論文的核心洞見是：遞迴不僅能用於預測，也能用於記憶鞏固。

把讀過的token變成好用的記憶，這件事本身就不簡單，一次傳播未必做得完論文。就像梯度下降，也是靠一次次迭代，才慢慢把權重調好的。睡眠期多迴圈幾次，就是多給模型幾步，讓它把上下文嚼得更透，壓進快速權重裡。

而且和以往的迴圈模型不同，這個模型回答時根本不用迴圈——該花的算力，睡覺時已經花完了論文。以前是回答時多想，現在是睡覺時多想。

不過在Hacker News上，也有人對「睡眠」這個說法提出相當尖銳的質疑：看不出這個方法在「睡眠」期間真的更新了模型權重論文。

被更新的，似乎只是SSM的狀態：任何Mamba類模型每處理一個token都會做的常規更新論文。這位使用者的判斷是：論文只是最佳化了模型，讓它在即將驅逐快取時更充分地利用這個狀態而已。

還有人翻出別的研究於它對比：端到端測試時訓練（E2E-TTT），以及Letta團隊的「睡眠時計算（sleep-time compute）」論文。焦點只有一個：去掉「睡眠」這個新包裝，它到底比前人多走了幾步？

Letta團隊《睡眠時計算》論文提出，讓模型在使用者提問前離線「思考」上下文，預先算好可能用得上的量，從而壓低測試時的計算開銷論文。與本文同屬「離線計算」路線，但是另一項獨立研究。

但換個角度看，這恰恰說明它踩在一條正在成形的路上論文。把部分計算從「回答時」前置到「空閒時」，並非這篇論文獨創。

離線思考、算力前置，正在成為一條新路線論文。它和「回答時無限拉長思維鏈」走的是相反方向：一個把算力往前挪，一個把算力向後堆。

52%的提升從哪來

成本是什麼

支撐這個機制的，是一堆紮實的資料論文。

論文的實驗任務有三類：元胞自動機、Depo多跳圖檢索，以及GSM-Infinite數學推理論文。

這些任務有個共同點：普通Transformer和SSM-注意力混合模型，在上面都會失敗論文。

第一個資料論文。在GSM-Infinite的六步運運算元任務上，Ouro 1.4B用4次迴圈後，最終準確率從0.419提升到0.615；更難的八步運算，從0.210提升到0.272。

第二個資料，在滑動視窗驅逐的設定下，使用迴圈讓準確率從0.596一路拉到0.905論文。論文稱之為52%的提升。

元胞自動機任務上的準確率對比論文。不迴圈的基線模型在50億訓練token後僅約10%準確率，2次迴圈升至約20%，3至4次迴圈時超過30%。

還有一條規律：增加睡眠時長N，效能會隨之提升，而且在最需要深度推理的樣本上，增益最大論文。睡得越久，想得越深。

當然，這52%的資料，對應條件是特定模型（Ouro 1.4B）、特定任務（GSM-Infinite）、特定子集（滑動視窗驅逐設定）上的相對提升，並非「大模型推理能力整體暴漲52%」，不能把這個數字泛化到所有任務、所有模型論文。

睡眠也是有「代價的」，作者也提到了：訓練時需要做N倍更深的前向和反向傳播，這會讓訓練更慢、更不穩定論文。

大模型要「卷睡覺」了

剛卷完上下文，接下來，AI該「卷睡覺」了論文。這意味著AI的「空閒時間」也要變得值錢了，如果這條路走通，改變的可能不只是一個跑分數字。

想象長程的AI智慧體、連續多輪對話、超長文件處理這類場景論文。

模型完全可以在「空閒期」做一件事：把堆積的上下文整理、鞏固，摺疊進權重論文。等下一個請求到來時，它不必重新翻一遍歷史，而是帶著已經消化好的記憶，一次前向給出答案。

「讓AI休息」這件事，可能不再只是一個擬人化的比喻，而是會變成一種專門的算力排程策略論文。

當然，它的約束依然存在：訓練成本、穩定性、工程排程，都仍未被解決論文。

作者也談到了該論文的侷限：這是一篇arXiv預印本，而且，實驗模型規模中等偏小，只是方法層面的探索論文。沒人能據此推斷這套機制已經能用在GPT、Claude、Gemini這些生產系統上，中間還隔著很長的路。

但它至少提醒了我們：讓大模型變強的方式，未必只是讓它在醒著的時候算得更多，有時讓它閒下來，反而是讓它變強的開始論文。

參考資料論文：

編輯論文：元宇

秒追ASI

別捲上下文了？CMU新論文：讓AI睡一覺，特定推理飆升52%

海之嵐財稅公司

熱門標籤

相關詞彙

分站導航