近日,騰訊 AI Lab 推出并開(kāi)源了一款名為 SongGeneration 的音樂(lè)生成大模型,旨在解決音樂(lè)生成領(lǐng)域長(zhǎng)期存在的音質(zhì)、音樂(lè)性和生成速度三大核心難題。該模型基于創(chuàng)新的 LLM-DiT 融合架構(gòu),通過(guò)對(duì)海量中英文歌曲的深度預(yù)訓(xùn)練,展現(xiàn)出了卓越的音樂(lè)生成能力。SongGeneration 不僅支持文本控制、多軌合成與風(fēng)格跟隨等多元功能,更致力于構(gòu)建面向未來(lái)的音樂(lè) AI 生產(chǎn)力工具,推動(dòng) “人人皆可創(chuàng)作音樂(lè)” 的愿景逐步落地。

騰訊開(kāi)源SongGeneration重塑AI音樂(lè)創(chuàng)作:3秒克隆音色,開(kāi)源界首超Suno.png

多元功能賦能音樂(lè)創(chuàng)作

SongGeneration 具備一系列強(qiáng)大的功能特性,為音樂(lè)創(chuàng)作帶來(lái)了全新可能。在文本控制方面,用戶只需輸入如 “開(kāi)心 流行”“激烈 搖滾” 等關(guān)鍵詞文本,模型就能精準(zhǔn)生成符合特定風(fēng)格和情緒的完整音樂(lè)作品。風(fēng)格跟隨功能則允許用戶上傳參考音頻,模型可據(jù)此生成風(fēng)格一致的全長(zhǎng)新曲,覆蓋流行、搖滾、中國(guó)風(fēng)等多種音樂(lè)流派。


多軌生成功能是 SongGeneration 的一大亮點(diǎn),它能夠自動(dòng)生成分離的人聲與伴奏軌道,確保旋律、結(jié)構(gòu)、節(jié)奏與配器之間達(dá)到高度匹配。同時(shí),模型支持基于參考音頻的音色跟隨功能,可實(shí)現(xiàn) “音色克隆” 級(jí)別的人聲表現(xiàn)?;?LLM-DiT 融合架構(gòu),SongGeneration 在保持快速生成速度的同時(shí),顯著提升了音質(zhì)表現(xiàn),實(shí)現(xiàn)了質(zhì)量與效率的平衡。

技術(shù)架構(gòu)與創(chuàng)新突破

SongGeneration 的訓(xùn)練架構(gòu)由數(shù)據(jù)管線和生成模型兩部分構(gòu)成。數(shù)據(jù)管線部分搭建了一套包含音伴分離、結(jié)構(gòu)分析、歌詞識(shí)別等模塊的音樂(lè)數(shù)據(jù)處理系統(tǒng),能從原始音頻中精準(zhǔn)提取歌詞、結(jié)構(gòu)、曲風(fēng)和音質(zhì)等標(biāo)簽數(shù)據(jù)。生成模型則由 codec、LM、FM、VAE 等部分組成,每個(gè)模塊單獨(dú)訓(xùn)練。


其中,Music Codec 用于對(duì)音樂(lè)進(jìn)行編解碼,可將 48kHz 的雙通道音樂(lè)以超低比特率壓縮成 25Hz 的離散表征,并實(shí)現(xiàn)高保真還原;Music LM 則負(fù)責(zé)根據(jù)用戶指令生成完整的歌曲。此外,SongGeneration 創(chuàng)新性地提出了 “混合優(yōu)先,雙軌其次” 的多類(lèi)別 token 并行預(yù)測(cè)策略,通過(guò)語(yǔ)言模型對(duì)混合 token 進(jìn)行預(yù)測(cè),指導(dǎo)旋律、節(jié)奏、節(jié)拍等高級(jí)結(jié)構(gòu)信息的整體安排,再通過(guò)擴(kuò)展的自回歸解碼器進(jìn)一步建模雙軌 token,有效提升了音質(zhì)和音樂(lè)性。


該模型還擁有多項(xiàng)創(chuàng)新點(diǎn),除了實(shí)現(xiàn)音質(zhì)與速度的平衡外,其推出的面向開(kāi)源社區(qū)的友好版本,有助于構(gòu)建開(kāi)放、靈活、可持續(xù)的音樂(lè) AI 生態(tài)系統(tǒng)。值得一提的是,SongGeneration 創(chuàng)新性地提出了業(yè)內(nèi)開(kāi)源模型中最低比特率、最低碼率的雙通道 48kHz 高質(zhì)量音樂(lè)編解碼器。

應(yīng)用前景與發(fā)展挑戰(zhàn)

在應(yīng)用領(lǐng)域,SongGeneration 有著廣泛的發(fā)展空間。它可為短視頻、游戲、虛擬人演出等內(nèi)容創(chuàng)作平臺(tái)提供優(yōu)質(zhì)的配樂(lè)和音效;能夠輔助音樂(lè)人進(jìn)行作曲、編曲和混音等工作,提升創(chuàng)作效率;還可作為音樂(lè)教育工具,幫助學(xué)生探索不同的音樂(lè)風(fēng)格和創(chuàng)作技巧;此外,根據(jù)用戶的情感或活動(dòng)生成個(gè)性化音樂(lè),也將為用戶帶來(lái)獨(dú)特的音樂(lè)體驗(yàn)。


不過(guò),SongGeneration 也存在一些有待優(yōu)化的地方。模型性能高度依賴訓(xùn)練數(shù)據(jù)的質(zhì)量和多樣性,在小眾或特定風(fēng)格音樂(lè)的生成方面可能存在局限性;盡管生成速度有所提升,但仍需要較高的計(jì)算資源進(jìn)行訓(xùn)練和推理;在創(chuàng)意和原創(chuàng)性方面,目前還難以完全替代人類(lèi)音樂(lè)人。

開(kāi)源助力生態(tài)發(fā)展

目前,SongGeneration 已正式開(kāi)源,開(kāi)發(fā)者可通過(guò)訪問(wèn)項(xiàng)目地址獲取模型的代碼和預(yù)訓(xùn)練權(quán)重。使用時(shí),需按照項(xiàng)目文檔配置開(kāi)發(fā)環(huán)境,包括安裝必要的依賴庫(kù)和框架,然后加載預(yù)訓(xùn)練模型或根據(jù)需求進(jìn)行微調(diào),通過(guò)文本、音頻或 MIDI 文件等方式輸入生成指令,運(yùn)行模型生成音樂(lè)作品,并根據(jù)需要進(jìn)行后處理和優(yōu)化。


SongGeneration 的開(kāi)源,為音樂(lè) AI 領(lǐng)域的發(fā)展注入了新的活力。它不僅展現(xiàn)了騰訊 AI Lab 在音樂(lè)生成技術(shù)上的領(lǐng)先實(shí)力,也為開(kāi)發(fā)者和音樂(lè)愛(ài)好者提供了一個(gè)創(chuàng)新的平臺(tái),有望推動(dòng)音樂(lè) AI 生態(tài)系統(tǒng)的繁榮發(fā)展。隨著技術(shù)的不斷進(jìn)步和完善,SongGeneration 有望在未來(lái)為音樂(lè)創(chuàng)作和體驗(yàn)帶來(lái)更多驚喜。


來(lái)【龍頭AI網(wǎng)】了解最新AI資訊!