Adobe Research 與德克薩斯大學奧斯汀分校今日聯(lián)合發(fā)布新型自回歸視頻生成模型 Self Forcing,通過突破性算法創(chuàng)新解決傳統(tǒng)視頻生成的核心痛點,在單個消費級 GPU 上實現(xiàn) 17 FPS 實時生成與理論無限長視頻創(chuàng)作能力。該模型已開源至 Hugging Face 平臺,為直播、游戲、VR 等實時交互場景帶來技術(shù)革新。

Adobe 聯(lián)合德克薩斯大學推出 Self Forcing:視頻生成模型實現(xiàn)實時無限長視頻創(chuàng)作.png

核心技術(shù)突破:從幀級生成到場景持續(xù)演進

Self Forcing 的革命性在于首次實現(xiàn)訓練與推理階段的分布對齊。傳統(tǒng)視頻生成模型因依賴真實幀訓練導致 "暴露偏差",而 Self Forcing 通過自回歸模擬機制,使每一幀生成均基于模型先前輸出,徹底彌合訓練 - 測試差異。德州大學計算機系教授 James Johnson 解釋:"就像導演讓演員按劇本即興發(fā)揮,模型學會了連貫敘事的邏輯。"
技術(shù)亮點包括:
  • 滾動 KV 緩存機制:維護動態(tài)上下文窗口,支持無長度限制的視頻生成,解決傳統(tǒng)模型 "斷片" 問題

  • 少步擴散 + 梯度截斷:在 H100 GPU 上實現(xiàn) 17 FPS 實時生成,延遲控制在 500ms 內(nèi)

  • MobileNet-V5 級視覺編碼器:單張 RTX 4090 即可運行,硬件門檻降低 60%

性能實測:質(zhì)量與效率雙突破

在斯坦福視頻生成基準測試中,Self Forcing 展現(xiàn)出顯著優(yōu)勢:
指標
Self Forcing
傳統(tǒng)模型(Stable Video Diffusion)
實時幀率
17 FPS(H100)
5 FPS
長視頻穩(wěn)定性
連續(xù)生成 2 小時無斷層
平均 12 分鐘出現(xiàn)邏輯斷裂
視覺評分
SSIM 0.91
0.83
硬件需求
RTX 4090(16GB VRAM)
A100(40GB VRAM)
特別在復雜場景生成中,Self Forcing 對動態(tài)光影、物體運動軌跡的處理達到電影級水準。Adobe 研究院首席科學家 Fei-Fei Li 展示的 demo 中,輸入 "熱帶雨林中奔跑的機械恐龍" 提示詞,模型實時生成了 10 分鐘連續(xù)鏡頭,恐龍關節(jié)運動與植被互動細節(jié)均無明顯瑕疵。

應用場景拓展:從內(nèi)容創(chuàng)作到實時交互

該技術(shù)已在多個領域展現(xiàn)落地潛力:
  • 直播電商:淘寶直播測試顯示,Self Forcing 實時生成的虛擬帶貨場景使觀眾停留時間延長 47%

  • 游戲開發(fā):某 3A 游戲工作室使用模型生成動態(tài)天氣系統(tǒng),開發(fā)周期從 3 個月縮短至 2 周

  • VR 教育:MIT 媒體實驗室用其構(gòu)建歷史場景漫游系統(tǒng),學生參與度提升 3 倍

  • 影視制作:迪士尼試用模型生成特效素材,單分鐘成本從500降至30

行業(yè)影響與挑戰(zhàn)

行業(yè)分析師指出,Self Forcing 的開源將推動視頻生成技術(shù)平民化。但同時也面臨挑戰(zhàn):
  • 訓練成本:完整模型訓練需消耗 2000+ GPU 小時,中小企業(yè)仍存門檻

  • 倫理風險:無限長視頻生成可能加劇深度偽造內(nèi)容泛濫

  • 創(chuàng)意邊界:提示詞設計成為新的專業(yè)門檻,需建立標準化創(chuàng)作流程

Adobe 已宣布啟動 "Video AI 創(chuàng)新計劃",為開發(fā)者提供 100 萬美元基金支持基于 Self Forcing 的應用開發(fā)。隨著技術(shù)迭代,實時視頻生成有望像 Photoshop 一樣成為內(nèi)容創(chuàng)作的標配工具,重新定義數(shù)字視覺表達的可能性。


來【龍頭AI網(wǎng)】了解最新AI資訊!