位元組Seed最新論文,解決了AI改圖的核心難點

文 | AI唱反調

文 | AI唱反調

今年的火山引擎FORCE 原動力大會上,位元組又把影像和影片兩條模型線重新整理了一遍論文。影像端是Seedream 5.0 Pro,能互動式精準編輯、把畫面拆成多圖層,直接產出可編輯的分層設計圖;影片端Seedance 2.5 首次亮相,單段原生時長拉到30 秒、一次支援50 個素材聯合參考。

往前數一年多,這條線幾乎按月更新——真正關鍵的一步落在 2025 年9 月的Seedream 4.0,它頭一回把"按文字生成圖片"和"修改已有圖片"塞進了同一個模型論文

把多種能力裝進一個模型,聽上去是加法,做起來常是減法論文

加了區域性編輯,文生圖的基本功掉一截;再疊上全域性改寫,區域性編輯又跟著亂論文。模型實際操作的時候就像好幾個人搶方向盤,結果就是方向亂七八糟。

大會落幕第二天,位元組Seed 團隊聯合新加坡國立大學(NUS)等幾家高校,把一篇衝著這道題去的論文掛上arXiv,名字叫DanceOPD論文。末位作者是NUS 資深教授Tat-Seng Chua,典型的工業界主導、學術界背書。論文掛出幾天,在模型社羣Hugging 作者親自下場答疑。

位元組Seed最新論文,解決了AI改圖的核心難點

請輸入圖說HuggingFace 論文頁截圖

說白了,DanceOPD 想替位元組的生圖模型解決一件事:不停往上加新能力,又不影響原有能力論文

這不光是學術層面的探究,而是能和使用者實際行為匹配論文。即夢(位元組的AI 創作工具,Seedream、Seedance 的主要落地入口)裡,使用者的動作通常連成一串:先一句話生成一張圖,再在圖上改背景、換風格、擴畫幅、區域性重繪。理想是這一串背後只有一個模型在響應,但現實裡每多一種編輯,要麼後臺多掛一個專用模型,要麼硬塞進主模型、把文生圖質量拖下水。DanceOPD 給的是第三條路:把一個練好的"編輯專家"當成凍結老師,用蒸餾把它的本事搬進主模型,而且只更新一小塊輕量引數(論文用的是LoRA,一種只訓練少量附加引數的微調方式),不動主模型的地基。

展開全文

對應到產品邏輯,這是"增量加能力"論文。位元組這條線幾乎按月更新,Seedream 從4.0、4.5 走到5.0,每次都往主模型上添新本事。

傳統做法是重訓或權重融合,風險是新能力提升、但老能力坍塌論文。在論文的實測結果裡裡weight merge,文生圖分數基本保留、但圖片編輯能力直接歸零,就是原有模式的具象化提醒那。換成硬路由蒸餾,理論上能加一項編輯能力而不碰已有的,迭代成本和翻車機率都低一截。

還有兩個非常具體的問題:其一,論文把CFG(無分類器引導,推理時讓畫面更貼提示詞的常用手段)也當成一個能力場吸收進權重,等於把那次額外計算省掉——對即夢這種扛海量 C 端請求的產品,每張圖省一次計算就是真實的成本降低論文。其二,Seedream 5.0 主打的精緻紋理、SeedEdit 主打的"非編輯區域保持不動",在DanceOPD 框架裡分別對應"寫實場吸收"和"保留型區域性編輯場",都是它點名支援的能力型別。

不過,論文沒講這套機制已經進了哪一版Seedream,它還停在研究產出這一步,離寫進產品有距離論文。但它瞄的問題、用的底座(計劃支援SD3.5、Z-Image 這類開源流匹配模型),和位元組自家的產品路線是同一個方向。

能力之間會互相拖累

要了解這篇論文到底降了身,得先交代一個概念論文。當下主流生圖模型走的是流匹配(flow matching)這條路:把"從一團隨機噪聲變成一張清晰圖片"的過程,拆成無數個微小位移,每一步都有一個箭頭,告訴這團資料該朝哪挪、挪多遠。把空間裡每個位置的箭頭匯起來,就是一個"速度場"。文生圖是一個速度場,區域性編輯是另一個,全域性改寫又是一個。

麻煩在於這幾個速度場各說各話,互相拉扯論文。同一個位置,文生圖的箭頭指東,編輯的箭頭指西。最省事的做法是把它們平均一下,兩個箭頭取箇中間方向。結果哪個目標都到不了,生成的圖既不像規整的文生圖,也不像乾淨的編輯,糊在中間。論文給這種丟失起了個名字:capability identity,能力的身份缺失。

業界之前試過幾條路,論文都拿來做了對照論文。把多種能力的資料混在一起重訓(joint training),編輯能力被稀釋;把分別訓好的模型權重做加權融合(weight merge),文生圖保住了、編輯直接塌掉;相當於讓學生模型去模仿老師模型、並且直接複製老師的路徑(off-policy 蒸餾,即在非學生軌跡的局面上教),但結果就是,訓練時見的局面和部署時遇的局面對不上。現有幾條方向的共同點是,幾個能力還是會打架,按下葫蘆起了瓢。

DanceOPD 的三招

DanceOPD 的用了一套全新的解法,相當於給了模型一套索引,問題具體指向了"在哪問、問誰、怎麼問"論文

位元組Seed最新論文,解決了AI改圖的核心難點

請輸入圖說方法概覽:每個樣本硬路由到一個能力場

第一招是硬路由(hard route)論文。不再把多個老師的模型的結論平均,每個訓練樣本只認一個老師:如果做文生圖,就只問文生圖那個場;下一步做圖片編輯,就只問編輯場。能力的身份不會被平均糊掉。

第二招是名字裡那個OP,on-policy論文。教學生的地點,選在學生自己實際會走到的狀態上,而不是老師走過、或資料裡現成的狀態上。

一個不那麼嚴謹的類比:教練糾動作,得根據學生真實動作進行糾正,而不是在教練自己的標準姿勢上糾,否則學員永遠學不會論文。具體做法是,讓當前學生模型先自己跑一遍生成軌跡,在這條軌跡上挑一個點,再把對應老師請過來,在這個點給出正確的箭頭。

位元組Seed最新論文,解決了AI改圖的核心難點

請輸入圖說查詢構造:在學生軌跡的低噪聲點,向選中的老師場做一次速度對齊

第三招是挑哪個點、怎麼對齊論文。論文只挑一個點(K=1),而且挑低噪聲端,也就是接近成品、影像語義已經比較清晰的那一段。對齊用最樸素的方式:學生的箭頭和老師的箭頭做一次均方誤差(MSE),沒有獎勵模型,沒有對抗判別器。消融資料擺得很直接:硬路由配單點MSE 拿到5.751,換成軟融合掉到4.994;查詢點從1 個加到16 個,分數反而從5.751 跌到5.127。少即是多,在這裡是字面意義上的。

三招合起來,同一個學生模型在影像編輯評測GEditBench 上、文生圖加編輯的組合拿到5.347,比最強的同類蒸餾基線高8.1%;在更擰巴的區域性編輯加全域性編輯組合上5.498,比最強對照高16.1%;與此同時,衡量文生圖基本功的GenEval 不降反升論文。加法這次沒再變成減法。前面說的CFG,在這裡也被當成另一個速度場,一併吸收了進來。

位元組Seed最新論文,解決了AI改圖的核心難點

請輸入圖說論文定性效果:一個模型支援多種編輯,同時保住原有文生圖能力

幾十行程式碼能看見的差別

DanceOPD 的官方程式碼還沒放出來,GitHub 上標著"等待批准釋出",計劃支援SD3.5、Z-Image 等開源底座;論文用的Seedream、SeedEdit 教師模型也不開源論文。嚴格說,這篇論文的影像級結果眼下沒法在外部復現。

但它最核心的機制——硬路由加 on-policy 遠好於軟融合——不需要大模型也能看見論文。幾十行 Python、一個二維玩具就能跑出來,幾秒就能出結果。

構造很簡單:兩個目標分佈代替兩種能力,一個圓環當"文生圖",四個角的四簇點當"編輯",各配一個凍結的老師速度場論文。然後用三種策略訓同一個小網路,讓它同時還原這兩個分佈。

軟融合那組,把兩個老師的箭頭平均著教論文。跑完一看,讓它生成圓環時,它給出的是四個角的點簇——文生圖的能力被編輯帶串了味,正好對上論文開篇那句"editing degrades T2I"。換成DanceOPD 的硬路由加on-policy,圓環是圓環、四簇是四簇,兩個能力都乾乾淨淨。量化上,到目標分佈的平均偏差從軟融合的0.239 降到0.028,降了約88%。

位元組Seed最新論文,解決了AI改圖的核心難點

原理演示:軟融合把兩個能力糊成一團,DanceOPD 兩個都保住(越接近最左列越好)請輸入圖說

對位元組這種已經把多能力生圖做成產品的玩家,這條機制的價值不抽象論文。Seedream 4.0 把生圖和編輯統一進一個架構,工程上要按住的"互相拖累",DanceOPD 在研究層面給了一個乾淨的答法。也給AI生成圖片的直接修改,提供了一個高效的路徑。

本站內容來自使用者投稿,如果侵犯了您的權利,請與我們聯絡刪除。聯絡郵箱:835971066@qq.com

本文連結://mobile.haizhilanhn.com/post/52535.html

🌐 /