在OpenAI的Sora掀起文生視頻革命之際,中國科技巨頭字節(jié)跳動(dòng)悄然亮出了一張王牌——Boximator。這款創(chuàng)新性AI視頻生成模型通過獨(dú)特的“框選控制”技術(shù),解決了當(dāng)前AI視頻生成領(lǐng)域的關(guān)鍵痛點(diǎn):精準(zhǔn)動(dòng)作控制。它讓用戶能夠像導(dǎo)演一樣指揮視頻中的每個(gè)元素,徹底改變了動(dòng)態(tài)內(nèi)容的創(chuàng)作方式。
核心突破:為什么Boximator是游戲規(guī)則改變者?
傳統(tǒng)AI視頻工具如Runway Gen-2或Pika 1.0僅依賴文本提示生成視頻,導(dǎo)致動(dòng)作控制粗糙且不可預(yù)測。而Boximator引入了雙約束機(jī)制,實(shí)現(xiàn)像素級(jí)操控:
硬框約束(Hard Box):精確鎖定對(duì)象輪廓,嚴(yán)格定義其在每幀中的位置和形狀
軟框約束(Soft Box):劃定對(duì)象運(yùn)動(dòng)區(qū)域,允許路徑內(nèi)的自然隨機(jī)性,保持運(yùn)動(dòng)流暢度
這種技術(shù)讓Boximator在對(duì)比測試中完勝競品:
當(dāng)輸入“英俊男士從口袋掏玫瑰并注視花朵”時(shí),僅Boximator完整生成掏花+凝視動(dòng)作,Pika和Gen-2均失敗
在“往酒杯倒酒”場景中,Boximator是唯一同時(shí)實(shí)現(xiàn)傾倒動(dòng)作與酒面上升的模型
實(shí)戰(zhàn)演示:如何用Boximator生成精準(zhǔn)動(dòng)態(tài)視頻?
操作三步法(基于官方Demo及論文)
圈選主體:在靜態(tài)圖像中用矩形框標(biāo)記要?jiǎng)赢嫽膶?duì)象(如人物、動(dòng)物或物體)
設(shè)定軌跡:繪制箭頭或終點(diǎn)框定義運(yùn)動(dòng)路徑,支持多對(duì)象獨(dú)立路徑設(shè)計(jì)
生成視頻:輸入輔助文本提示,模型輸出帶精準(zhǔn)動(dòng)作的視頻片段
驚艷案例展示
一只小貓藏進(jìn)杯子后又探出頭,頭部運(yùn)動(dòng)自然連貫
穿藍(lán)襯衫的浣熊跳起接球,肢體動(dòng)作精準(zhǔn)同步
無人機(jī)在沙灘上空完成轉(zhuǎn)向盤旋,軌跡完全貼合預(yù)設(shè)路徑
技術(shù)架構(gòu):雙階段訓(xùn)練+插件化集成
Boximator的卓越性能源于其創(chuàng)新架構(gòu):
自追蹤預(yù)訓(xùn)練
模型首先生成視頻內(nèi)容及對(duì)應(yīng)邊界框,學(xué)習(xí)對(duì)象與框的關(guān)聯(lián)規(guī)律。此階段使用WebVid-10M數(shù)據(jù)集中110萬動(dòng)態(tài)視頻片段,包含220萬自動(dòng)標(biāo)注的對(duì)象框控制模塊強(qiáng)化
凍結(jié)基礎(chǔ)模型權(quán)重,專注訓(xùn)練控制網(wǎng)絡(luò)。通過Fourier編碼+MLP映射將框坐標(biāo)轉(zhuǎn)換為控制向量,再與視頻幀視覺特征融合無縫插件兼容
可作為插件集成至PixelDance、ModelScope等視頻擴(kuò)散模型,無需修改原模型即增強(qiáng)動(dòng)作控制能力
對(duì)標(biāo)競品:Boximator的差異化優(yōu)勢
功能維度 | Boximator | Runway Gen-2 | Pika 1.0 |
---|---|---|---|
動(dòng)作控制精度 | ? 硬框/軟框雙軌制 | ? 僅文本粗略控制 | ? 動(dòng)作隨機(jī)性高 |
多對(duì)象處理 | ? 同步控制多主體路徑 | ?? 單對(duì)象優(yōu)化 | ?? 常出現(xiàn)對(duì)象混淆 |
生成一致性 | ? 對(duì)象ID跨幀追蹤 | ? 幀間連貫性弱 | ?? 部分場景斷裂 |
輸出質(zhì)量(FVD分) | 21.7 (最優(yōu)) | 28.9 | 26.5 |
數(shù)據(jù)來源:MSR-VTT數(shù)據(jù)集測試及人類評(píng)估
適用場景與實(shí)用價(jià)值
短視頻創(chuàng)作者:快速生成精準(zhǔn)運(yùn)鏡的劇情片段,例如“雨傘被風(fēng)吹走”等復(fù)雜動(dòng)態(tài)
動(dòng)畫工作室:替代手繪關(guān)鍵幀,通過框選批量生成角色行走、取物等基礎(chǔ)動(dòng)作
電商廣告制作:演示產(chǎn)品使用路徑(如“口紅旋轉(zhuǎn)出鞘”),提升轉(zhuǎn)化率
教育內(nèi)容開發(fā):可視化科學(xué)實(shí)驗(yàn)中的物體運(yùn)動(dòng)軌跡,如拋物線運(yùn)動(dòng)或化學(xué)分子碰撞
Boximator的顛覆性在于將物理世界運(yùn)動(dòng)規(guī)律編碼進(jìn)AI生成流程。它不必替代專業(yè)動(dòng)畫工具,而是為普通創(chuàng)作者提供導(dǎo)演級(jí)控制權(quán)——無需學(xué)習(xí)復(fù)雜的關(guān)鍵幀技術(shù),一個(gè)方框+一條路徑即可讓靜態(tài)元素“活”起來。
AI還能顛覆哪些領(lǐng)域?上【龍頭AI網(wǎng)】,探索前沿應(yīng)用!
暫無評(píng)論
發(fā)表評(píng)論