古代毛片免费视频网站,免费国产av操逼图片,国产在线一二三区,久久精品女人的天堂av,两攻一受**,老板和秘书车里做爰,他用舌头伸进我的下身

突破！ICML25 發(fā)布 OmniAudio，360° 全景視頻生成 3D 空間音頻

zhen 2025-05-16 AI新趨勢(shì) 192 0

在空間音頻技術(shù)日益成為沉浸式體驗(yàn)關(guān)鍵的當(dāng)下，現(xiàn)有方案多基于固定視角視頻，難以滿(mǎn)足 360° 全景場(chǎng)景需求。在 ICML25 會(huì)議上，一項(xiàng)名為 OmniAudio 的研究成果橫空出世，實(shí)現(xiàn)了從 360° 視頻直接生成 3D 空間音頻的突破。

傳統(tǒng)視頻音頻生成技術(shù)缺乏聲音方向信息，導(dǎo)致 VR 影視、游戲等場(chǎng)景代入感不足。隨著全景攝像與虛擬現(xiàn)實(shí)發(fā)展，匹配的空間音頻生成成為行業(yè)亟待解決的難題。為此，OmniAudio 團(tuán)隊(duì)提出 360V2SA 任務(wù)，目標(biāo)是從 360° 視頻生成 FOA 格式空間音頻，這種音頻能精準(zhǔn)定位聲音方向，頭部轉(zhuǎn)動(dòng)時(shí)也能保持定位準(zhǔn)確。

研究面臨的一大阻礙是缺乏對(duì)應(yīng)數(shù)據(jù)集，OmniAudio 團(tuán)隊(duì)構(gòu)建了首個(gè)大規(guī)模 360V2SA 數(shù)據(jù)集 Sphere360。通過(guò)在 YouTube 爬取候選素材、技術(shù)篩選、人工審核，再經(jīng)算法清洗視頻靜態(tài)、音頻靜音等問(wèn)題，最終形成超 10.3 萬(wàn)個(gè)視頻片段、涵蓋 288 種音頻事件、總時(shí)長(zhǎng) 288 小時(shí)的高質(zhì)量數(shù)據(jù)集，規(guī)模與適用性遠(yuǎn)超現(xiàn)有同類(lèi)。

在技術(shù)實(shí)現(xiàn)上，OmniAudio 采用兩階段訓(xùn)練方法。先通過(guò)自監(jiān)督的 coarse-to-fine 流匹配預(yù)訓(xùn)練，用普通音頻轉(zhuǎn) “偽 FOA” 格式初步訓(xùn)練，再以真實(shí) FOA 數(shù)據(jù)精細(xì)訓(xùn)練，提升模型對(duì)空間信息的理解；后結(jié)合雙分支視頻編碼器，提取視頻全局與局部特征進(jìn)行有監(jiān)督微調(diào)，從而生成高保真、方向準(zhǔn)確的空間音頻。

經(jīng) Sphere360-Bench 和 YT360-Test 測(cè)試，OmniAudio 性能遠(yuǎn)超基線模型。不過(guò)在復(fù)雜多聲源場(chǎng)景下，模型對(duì)事件類(lèi)型識(shí)別仍有不足。團(tuán)隊(duì)表示未來(lái)將探索多目標(biāo)視頻理解技術(shù)，并持續(xù)擴(kuò)充數(shù)據(jù)集，推動(dòng)該領(lǐng)域進(jìn)一步發(fā)展。