在空間音頻技術(shù)日益成為沉浸式體驗關(guān)鍵的當(dāng)下,現(xiàn)有方案多基于固定視角視頻,難以滿足 360° 全景場景需求。在 ICML25 會議上,一項名為 OmniAudio 的研究成果橫空出世,實現(xiàn)了從 360° 視頻直接生成 3D 空間音頻的突破。
傳統(tǒng)視頻音頻生成技術(shù)缺乏聲音方向信息,導(dǎo)致 VR 影視、游戲等場景代入感不足。隨著全景攝像與虛擬現(xiàn)實發(fā)展,匹配的空間音頻生成成為行業(yè)亟待解決的難題。為此,OmniAudio 團隊提出 360V2SA 任務(wù),目標(biāo)是從 360° 視頻生成 FOA 格式空間音頻,這種音頻能精準(zhǔn)定位聲音方向,頭部轉(zhuǎn)動時也能保持定位準(zhǔn)確。
研究面臨的一大阻礙是缺乏對應(yīng)數(shù)據(jù)集,OmniAudio 團隊構(gòu)建了首個大規(guī)模 360V2SA 數(shù)據(jù)集 Sphere360。通過在 YouTube 爬取候選素材、技術(shù)篩選、人工審核,再經(jīng)算法清洗視頻靜態(tài)、音頻靜音等問題,最終形成超 10.3 萬個視頻片段、涵蓋 288 種音頻事件、總時長 288 小時的高質(zhì)量數(shù)據(jù)集,規(guī)模與適用性遠(yuǎn)超現(xiàn)有同類。
在技術(shù)實現(xiàn)上,OmniAudio 采用兩階段訓(xùn)練方法。先通過自監(jiān)督的 coarse-to-fine 流匹配預(yù)訓(xùn)練,用普通音頻轉(zhuǎn) “偽 FOA” 格式初步訓(xùn)練,再以真實 FOA 數(shù)據(jù)精細(xì)訓(xùn)練,提升模型對空間信息的理解;后結(jié)合雙分支視頻編碼器,提取視頻全局與局部特征進行有監(jiān)督微調(diào),從而生成高保真、方向準(zhǔn)確的空間音頻。
經(jīng) Sphere360-Bench 和 YT360-Test 測試,OmniAudio 性能遠(yuǎn)超基線模型。不過在復(fù)雜多聲源場景下,模型對事件類型識別仍有不足。團隊表示未來將探索多目標(biāo)視頻理解技術(shù),并持續(xù)擴充數(shù)據(jù)集,推動該領(lǐng)域進一步發(fā)展 。
暫無評論
發(fā)表評論