位元組Seed最新論文，解決了AI改圖的核心難點

文 | AI唱反調

今年的火山引擎FORCE 原動力大會上，位元組又把影像和影片兩條模型線重新整理了一遍論文。影像端是Seedream 5.0 Pro，能互動式精準編輯、把畫面拆成多圖層，直接產出可編輯的分層設計圖；影片端Seedance 2.5 首次亮相，單段原生時長拉到30 秒、一次支援50 個素材聯合參考。

往前數一年多，這條線幾乎按月更新——真正關鍵的一步落在 2025 年9 月的Seedream 4.0，它頭一回把"按文字生成圖片"和"修改已有圖片"塞進了同一個模型論文。

把多種能力裝進一個模型，聽上去是加法，做起來常是減法論文。

加了區域性編輯，文生圖的基本功掉一截；再疊上全域性改寫，區域性編輯又跟著亂論文。模型實際操作的時候就像好幾個人搶方向盤，結果就是方向亂七八糟。

大會落幕第二天，位元組Seed 團隊聯合新加坡國立大學（NUS）等幾家高校，把一篇衝著這道題去的論文掛上arXiv，名字叫DanceOPD論文。末位作者是NUS 資深教授Tat-Seng Chua，典型的工業界主導、學術界背書。論文掛出幾天，在模型社羣Hugging 作者親自下場答疑。

請輸入圖說HuggingFace 論文頁截圖

說白了，DanceOPD 想替位元組的生圖模型解決一件事：不停往上加新能力，又不影響原有能力論文。

這不光是學術層面的探究，而是能和使用者實際行為匹配論文。即夢（位元組的AI 創作工具，Seedream、Seedance 的主要落地入口）裡，使用者的動作通常連成一串：先一句話生成一張圖，再在圖上改背景、換風格、擴畫幅、區域性重繪。理想是這一串背後只有一個模型在響應，但現實裡每多一種編輯，要麼後臺多掛一個專用模型，要麼硬塞進主模型、把文生圖質量拖下水。DanceOPD 給的是第三條路：把一個練好的"編輯專家"當成凍結老師，用蒸餾把它的本事搬進主模型，而且只更新一小塊輕量引數（論文用的是LoRA，一種只訓練少量附加引數的微調方式），不動主模型的地基。

展開全文

對應到產品邏輯，這是"增量加能力"論文。位元組這條線幾乎按月更新，Seedream 從4.0、4.5 走到5.0，每次都往主模型上添新本事。

傳統做法是重訓或權重融合，風險是新能力提升、但老能力坍塌論文。在論文的實測結果裡裡weight merge，文生圖分數基本保留、但圖片編輯能力直接歸零，就是原有模式的具象化提醒那。換成硬路由蒸餾，理論上能加一項編輯能力而不碰已有的，迭代成本和翻車機率都低一截。

還有兩個非常具體的問題：其一，論文把CFG（無分類器引導，推理時讓畫面更貼提示詞的常用手段）也當成一個能力場吸收進權重，等於把那次額外計算省掉——對即夢這種扛海量 C 端請求的產品，每張圖省一次計算就是真實的成本降低論文。其二，Seedream 5.0 主打的精緻紋理、SeedEdit 主打的"非編輯區域保持不動"，在DanceOPD 框架裡分別對應"寫實場吸收"和"保留型區域性編輯場"，都是它點名支援的能力型別。

不過，論文沒講這套機制已經進了哪一版Seedream，它還停在研究產出這一步，離寫進產品有距離論文。但它瞄的問題、用的底座（計劃支援SD3.5、Z-Image 這類開源流匹配模型），和位元組自家的產品路線是同一個方向。

能力之間會互相拖累

要了解這篇論文到底降了身，得先交代一個概念論文。當下主流生圖模型走的是流匹配（flow matching）這條路：把"從一團隨機噪聲變成一張清晰圖片"的過程，拆成無數個微小位移，每一步都有一個箭頭，告訴這團資料該朝哪挪、挪多遠。把空間裡每個位置的箭頭匯起來，就是一個"速度場"。文生圖是一個速度場，區域性編輯是另一個，全域性改寫又是一個。

麻煩在於這幾個速度場各說各話，互相拉扯論文。同一個位置，文生圖的箭頭指東，編輯的箭頭指西。最省事的做法是把它們平均一下，兩個箭頭取箇中間方向。結果哪個目標都到不了，生成的圖既不像規整的文生圖，也不像乾淨的編輯，糊在中間。論文給這種丟失起了個名字：capability identity，能力的身份缺失。

業界之前試過幾條路，論文都拿來做了對照論文。把多種能力的資料混在一起重訓（joint training），編輯能力被稀釋；把分別訓好的模型權重做加權融合（weight merge），文生圖保住了、編輯直接塌掉；相當於讓學生模型去模仿老師模型、並且直接複製老師的路徑（off-policy 蒸餾，即在非學生軌跡的局面上教），但結果就是，訓練時見的局面和部署時遇的局面對不上。現有幾條方向的共同點是，幾個能力還是會打架，按下葫蘆起了瓢。

DanceOPD 的三招

DanceOPD 的用了一套全新的解法，相當於給了模型一套索引，問題具體指向了"在哪問、問誰、怎麼問"論文。

請輸入圖說方法概覽：每個樣本硬路由到一個能力場

第一招是硬路由（hard route）論文。不再把多個老師的模型的結論平均，每個訓練樣本只認一個老師：如果做文生圖，就只問文生圖那個場；下一步做圖片編輯，就只問編輯場。能力的身份不會被平均糊掉。

第二招是名字裡那個OP，on-policy論文。教學生的地點，選在學生自己實際會走到的狀態上，而不是老師走過、或資料裡現成的狀態上。

一個不那麼嚴謹的類比：教練糾動作，得根據學生真實動作進行糾正，而不是在教練自己的標準姿勢上糾，否則學員永遠學不會論文。具體做法是，讓當前學生模型先自己跑一遍生成軌跡，在這條軌跡上挑一個點，再把對應老師請過來，在這個點給出正確的箭頭。

請輸入圖說查詢構造：在學生軌跡的低噪聲點，向選中的老師場做一次速度對齊

第三招是挑哪個點、怎麼對齊論文。論文只挑一個點（K=1），而且挑低噪聲端，也就是接近成品、影像語義已經比較清晰的那一段。對齊用最樸素的方式：學生的箭頭和老師的箭頭做一次均方誤差（MSE），沒有獎勵模型，沒有對抗判別器。消融資料擺得很直接：硬路由配單點MSE 拿到5.751，換成軟融合掉到4.994；查詢點從1 個加到16 個，分數反而從5.751 跌到5.127。少即是多，在這裡是字面意義上的。

三招合起來，同一個學生模型在影像編輯評測GEditBench 上、文生圖加編輯的組合拿到5.347，比最強的同類蒸餾基線高8.1%；在更擰巴的區域性編輯加全域性編輯組合上5.498，比最強對照高16.1%；與此同時，衡量文生圖基本功的GenEval 不降反升論文。加法這次沒再變成減法。前面說的CFG，在這裡也被當成另一個速度場，一併吸收了進來。

請輸入圖說論文定性效果：一個模型支援多種編輯，同時保住原有文生圖能力

幾十行程式碼能看見的差別

DanceOPD 的官方程式碼還沒放出來，GitHub 上標著"等待批准釋出"，計劃支援SD3.5、Z-Image 等開源底座；論文用的Seedream、SeedEdit 教師模型也不開源論文。嚴格說，這篇論文的影像級結果眼下沒法在外部復現。

但它最核心的機制——硬路由加 on-policy 遠好於軟融合——不需要大模型也能看見論文。幾十行 Python、一個二維玩具就能跑出來，幾秒就能出結果。

構造很簡單：兩個目標分佈代替兩種能力，一個圓環當"文生圖"，四個角的四簇點當"編輯"，各配一個凍結的老師速度場論文。然後用三種策略訓同一個小網路，讓它同時還原這兩個分佈。

軟融合那組，把兩個老師的箭頭平均著教論文。跑完一看，讓它生成圓環時，它給出的是四個角的點簇——文生圖的能力被編輯帶串了味，正好對上論文開篇那句"editing degrades T2I"。換成DanceOPD 的硬路由加on-policy，圓環是圓環、四簇是四簇，兩個能力都乾乾淨淨。量化上，到目標分佈的平均偏差從軟融合的0.239 降到0.028，降了約88%。

原理演示：軟融合把兩個能力糊成一團，DanceOPD 兩個都保住（越接近最左列越好）請輸入圖說

對位元組這種已經把多能力生圖做成產品的玩家，這條機制的價值不抽象論文。Seedream 4.0 把生圖和編輯統一進一個架構，工程上要按住的"互相拖累"，DanceOPD 在研究層面給了一個乾淨的答法。也給AI生成圖片的直接修改，提供了一個高效的路徑。

位元組Seed最新論文，解決了AI改圖的核心難點

海之嵐財稅公司

熱門標籤

相關詞彙

分站導航