別捲上下文了?CMU新論文:讓AI睡一覺,特定推理飆升52%

別捲上下文了?CMU新論文:讓AI睡一覺,特定推理飆升52%

新智元報道

別捲上下文了?CMU新論文:讓AI睡一覺,特定推理飆升52%

【新智元導讀】都在捲上下文視窗,以為越大越強論文。CMU新論文發現:大模型缺的不是長上下文,是「睡一覺」。

這兩天,一篇arXiv上的論文在Hacker News上引發熱議論文

別捲上下文了?CMU新論文:讓AI睡一覺,特定推理飆升52%

展開全文

這篇論文題目為《Language Models Need Sleep》(大模型需要睡覺),作者是來自CMU的Sangyun Lee、Giulia Fanti,以及馬里蘭大學的Sean McLeish和Tom Goldstein論文

別捲上下文了?CMU新論文:讓AI睡一覺,特定推理飆升52%

它要解決的,是一個被整個行業卷瘋了的問題:長上下文論文

這兩年,大模型的上下文視窗從幾千token一路擴充套件到幾十萬乃至百萬級論文。對前沿模型來說,百萬級上下文已經不再罕見。

所有人都預設一條邏輯:視窗越大,模型記得越多,就越聰明論文

但這篇論文偏要打破這個行業共識:模型答不對,不是記不住,而是「缺覺」了論文

別捲上下文了?CMU新論文:讓AI睡一覺,特定推理飆升52%

長上下文

可能從一開始就卷錯了方向

先說清楚現在主流大模型是怎麼處理長文字的論文

純Transformer有個硬傷:注意力的計算量隨上下文長度呈平方級增長,快取佔用則線性增長:塞得越多,越燒錢論文

於是一些前沿長序列模型開始採用混合架構:注意力負責高保真地讀取近期token,再穿插固定大小的「快速權重」(fast weights,可快速更新的輕量記憶)負責壓縮儲存活躍視窗之外的資訊論文

注意力+SSM(狀態空間模型)的混合設計,如今在大規模前沿模型裡已經很常見論文。這套設計的邏輯是:只要快速權重的儲存容量夠大,長上下文問題就解決了。

但論文實驗結果,直接打臉了這個假設論文

別捲上下文了?CMU新論文:讓AI睡一覺,特定推理飆升52%

論文核心架構圖論文。當上下文視窗被填滿,模型在「驅逐邊界」(Eviction boundary)前先做N次離線遞迴前向傳播,反覆更新SSM模組中的快速權重(Fast weight)。隨後注意力快取(KV cache)被丟棄,模型僅憑鞏固後的快速權重,一次前向就答出「8」。

研究者設計了一組受控實驗:在token預算相同、需要儲存的資訊量固定的前提下,只調一個變數:所需的推理深度論文

結果發現,隨著推理深度增加,普通的SSM-注意力混合模型效能持續下降論文。哪怕快速權重的容量明明是夠的。

這意味著瓶頸並非「記憶容量」論文。真正缺的,是把已經被驅逐出快取的上下文,轉化成有用內部狀態的那部分計算量。

能記住,視窗塞得下,不等於會推理論文。整個行業捲了兩年的「視窗大小」,可能從一開始就找錯了那個最關鍵的按鈕。

別捲上下文了?CMU新論文:讓AI睡一覺,特定推理飆升52%

模型怎麼「睡」?

一次計算排程的重新分配

那論文的解法是什麼?讓模型「睡一覺」論文

這聽起來似乎有點玄乎論文,但背後的機制並不複雜,它的靈感來自生物學:

動物把短期記憶轉為長期記憶的過程,被認為依賴海馬體回放,尤其發生在睡眠期論文。睡眠期間動物對外界刺激沒有反應,說明這件事的認知收益,值得它付出「斷聯」的代價。

模型的「睡眠機制」,則是照搬了這個排程邏輯論文。該機制的觸發時機是:當上下文視窗被填滿。這時模型不急著清空快取,而是先進入睡眠模式。

在這段睡眠裡,它對累積下來的全部上下文做N次離線遞迴前向傳播,透過一個習得的區域性規則,遞迴地更新SSM模組中的快速權重論文

當然,和動物睡覺一樣,這個階段模型不接收任何外部輸入token論文。睡醒之後,KV快取被清空,模型帶著更新過的快速權重繼續幹活。

這裡的關鍵在於:額外的計算被整體挪到了睡眠階段論文。只要這一步趕在快取驅逐前、或在空閒期完成,模型醒著回答時就仍是一次標準前向傳播,推理延遲不會增加。

這才是這套機制最聰明的地方:醒著的時候只管快答,真正費腦子的整理工作,留給睡覺論文

別捲上下文了?CMU新論文:讓AI睡一覺,特定推理飆升52%

HN上有人點出了這套機制的巧思:定期停下來,把近期上下文寫進一個快速權重狀態,這一步等於給了模型一段專門的「消化時間」,而不是讓它在回答時硬扛論文

他更看好E2E-TTT那套做法,這是一種更靈活的持續學習方案論文

別捲上下文了?CMU新論文:讓AI睡一覺,特定推理飆升52%

遞迴不只為回答

也為記憶

這裡你可能會問:讓模型「多想幾步」論文,這不是早就有的思路嗎?

的確,此前的Looped LM(迴圈語言模型)、測試時計算(test-time compute),走的都是同一條路:讓模型在回答時多繞幾圈論文

論文裡用到的Ouro 1.4B,本身就是一個這樣的迴圈模型論文。Ouro並非這篇論文新發布的模型,而是此前已有的工作,它採用引數共享的迴圈架構,讓同一批Transformer塊反覆作用,從而在潛在空間裡做迭代計算。

這篇論文的創新之處在於它把「迴圈」這件事的作用,從輸出端挪到了記憶端論文

以往的迴圈模型,把遞迴計算花在「預測」上:回答問題時多想幾步論文。這篇論文的核心洞見是:遞迴不僅能用於預測,也能用於記憶鞏固。

把讀過的token變成好用的記憶,這件事本身就不簡單,一次傳播未必做得完論文。就像梯度下降,也是靠一次次迭代,才慢慢把權重調好的。睡眠期多迴圈幾次,就是多給模型幾步,讓它把上下文嚼得更透,壓進快速權重裡。

而且和以往的迴圈模型不同,這個模型回答時根本不用迴圈——該花的算力,睡覺時已經花完了論文。以前是回答時多想,現在是睡覺時多想。

不過在Hacker News上,也有人對「睡眠」這個說法提出相當尖銳的質疑:看不出這個方法在「睡眠」期間真的更新了模型權重論文

被更新的,似乎只是SSM的狀態:任何Mamba類模型每處理一個token都會做的常規更新論文。這位使用者的判斷是:論文只是最佳化了模型,讓它在即將驅逐快取時更充分地利用這個狀態而已。

別捲上下文了?CMU新論文:讓AI睡一覺,特定推理飆升52%

還有人翻出別的研究於它對比:端到端測試時訓練(E2E-TTT),以及Letta團隊的「睡眠時計算(sleep-time compute)」論文。焦點只有一個:去掉「睡眠」這個新包裝,它到底比前人多走了幾步?

別捲上下文了?CMU新論文:讓AI睡一覺,特定推理飆升52%

Letta團隊《睡眠時計算》論文提出,讓模型在使用者提問前離線「思考」上下文,預先算好可能用得上的量,從而壓低測試時的計算開銷論文。與本文同屬「離線計算」路線,但是另一項獨立研究。

但換個角度看,這恰恰說明它踩在一條正在成形的路上論文。把部分計算從「回答時」前置到「空閒時」,並非這篇論文獨創。

離線思考、算力前置,正在成為一條新路線論文。它和「回答時無限拉長思維鏈」走的是相反方向:一個把算力往前挪,一個把算力向後堆。

別捲上下文了?CMU新論文:讓AI睡一覺,特定推理飆升52%

52%的提升從哪來

成本是什麼

支撐這個機制的,是一堆紮實的資料論文

論文的實驗任務有三類:元胞自動機、Depo多跳圖檢索,以及GSM-Infinite數學推理論文

這些任務有個共同點:普通Transformer和SSM-注意力混合模型,在上面都會失敗論文

第一個資料論文。在GSM-Infinite的六步運運算元任務上,Ouro 1.4B用4次迴圈後,最終準確率從0.419提升到0.615;更難的八步運算,從0.210提升到0.272。

第二個資料,在滑動視窗驅逐的設定下,使用迴圈讓準確率從0.596一路拉到0.905論文。論文稱之為52%的提升。

別捲上下文了?CMU新論文:讓AI睡一覺,特定推理飆升52%

元胞自動機任務上的準確率對比論文。不迴圈的基線模型在50億訓練token後僅約10%準確率,2次迴圈升至約20%,3至4次迴圈時超過30%。

還有一條規律:增加睡眠時長N,效能會隨之提升,而且在最需要深度推理的樣本上,增益最大論文。睡得越久,想得越深。

當然,這52%的資料,對應條件是特定模型(Ouro 1.4B)、特定任務(GSM-Infinite)、特定子集(滑動視窗驅逐設定)上的相對提升,並非「大模型推理能力整體暴漲52%」,不能把這個數字泛化到所有任務、所有模型論文

睡眠也是有「代價的」,作者也提到了:訓練時需要做N倍更深的前向和反向傳播,這會讓訓練更慢、更不穩定論文

別捲上下文了?CMU新論文:讓AI睡一覺,特定推理飆升52%

大模型要「卷睡覺」了

剛卷完上下文,接下來,AI該「卷睡覺」了論文。這意味著AI的「空閒時間」也要變得值錢了,如果這條路走通,改變的可能不只是一個跑分數字。

想象長程的AI智慧體、連續多輪對話、超長文件處理這類場景論文

模型完全可以在「空閒期」做一件事:把堆積的上下文整理、鞏固,摺疊進權重論文。等下一個請求到來時,它不必重新翻一遍歷史,而是帶著已經消化好的記憶,一次前向給出答案。

「讓AI休息」這件事,可能不再只是一個擬人化的比喻,而是會變成一種專門的算力排程策略論文

當然,它的約束依然存在:訓練成本、穩定性、工程排程,都仍未被解決論文

作者也談到了該論文的侷限:這是一篇arXiv預印本,而且,實驗模型規模中等偏小,只是方法層面的探索論文。沒人能據此推斷這套機制已經能用在GPT、Claude、Gemini這些生產系統上,中間還隔著很長的路。

但它至少提醒了我們:讓大模型變強的方式,未必只是讓它在醒著的時候算得更多,有時讓它閒下來,反而是讓它變強的開始論文

參考資料論文

編輯論文:元宇

秒追ASI

本站內容來自使用者投稿,如果侵犯了您的權利,請與我們聯絡刪除。聯絡郵箱:835971066@qq.com

本文連結://mobile.haizhilanhn.com/post/45548.html

🌐 /