Fish Audio 近日推出新一代文本轉(zhuǎn)語音(TTS)模型 OpenAudio S1,憑借高度自然的語音生成能力和技術(shù)創(chuàng)新,在 TTS-Arena 排行榜中登頂,成為專業(yè)語音生成領(lǐng)域的新標(biāo)桿。

 OpenAudio S1.jpg

技術(shù)突破:雙架構(gòu)驅(qū)動(dòng)自然語音生成

OpenAudio S1 基于 200 萬小時(shí)音頻數(shù)據(jù)訓(xùn)練,采用雙自回歸(Dual-AR)架構(gòu),結(jié)合快速與慢速 Transformer 模塊:快速模塊負(fù)責(zé)生成初步語音特征,慢速模塊精細(xì)調(diào)整語調(diào)細(xì)節(jié),確保語音穩(wěn)定性與流暢度。同時(shí),分組有限標(biāo)量矢量量化(GFSQ)技術(shù)在降低計(jì)算成本的同時(shí),保障高保真語音輸出;** 強(qiáng)化學(xué)習(xí)與人類反饋(RLHF)** 則讓模型精準(zhǔn)捕捉情感變化,支持憤怒、快樂等 50 種情感標(biāo)記及急促、尖叫等語調(diào)控制,生成的語音幾乎與真人配音無異。

功能亮點(diǎn):多語言支持與高效克隆

模型支持英語、中文、日語等 13 種語言,覆蓋跨文化內(nèi)容創(chuàng)作需求。其零樣本 / 少樣本語音克隆能力尤為突出,僅需 10-30 秒音頻樣本即可生成高保真克隆聲音,適用于虛擬角色配音、品牌聲線定制等場(chǎng)景。部署方面,提供 40 億參數(shù)的完整版 S1(專業(yè)級(jí))和 5 億參數(shù)的開源版 S1-mini(研究教育用),后者延遲低于 100 毫秒,支持實(shí)時(shí)游戲、直播等場(chǎng)景。

應(yīng)用場(chǎng)景與商業(yè)化落地

OpenAudio S1 已在視頻配音、播客制作、游戲開發(fā)等領(lǐng)域展現(xiàn)潛力。例如,為有聲書生成多情感旁白、為客服機(jī)器人提供多語言交互支持,或?yàn)樘摂M助手定制個(gè)性化聲線。用戶可通過官網(wǎng)每日 100 次免費(fèi)試用、GitHub 下載開源版本本地部署,或通過云 API 調(diào)用(20 秒 / 條,按量計(jì)費(fèi))滿足商業(yè)需求。

挑戰(zhàn)與展望

盡管模型在自然度和多語言能力上領(lǐng)先,但完整版 S1 對(duì)硬件資源要求較高,可能限制中小團(tuán)隊(duì)部署;開源版 S1-mini 功能則較完整版有所縮減。Fish Audio 表示,未來將持續(xù)優(yōu)化模型效率,并探索與 AIGC 工具的深度整合,推動(dòng)語音生成技術(shù)在元宇宙、教育等領(lǐng)域的創(chuàng)新應(yīng)用。


OpenAudio S1 的發(fā)布,標(biāo)志著文本轉(zhuǎn)語音技術(shù)從 “能用” 邁向 “逼真” 階段,其技術(shù)架構(gòu)與應(yīng)用生態(tài)或?yàn)樾袠I(yè)提供新的發(fā)展范式。

來【龍頭AI網(wǎng)】了解最新AI資訊!