一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

阿里巴巴集團的 Tongyi Lab 也發布了兩個開源模型，與來自 Tongyi Fun 語音模型系列的 Fun-Audio-Chat 一起，完成語音 AI 堆疊： Fun-ASR (0.8B) - 噪音穩健的多語言語音識別 Fun-CosyVoice 3 (0.5B TTS) - 具表現力的文本轉語音，支持零樣本語音克隆 Fun-ASR 能夠處理現實世界中的噪音環境，同時在多種語言中提供準確的實時轉錄。讓我們來詳細了解一下👇 #TongyiFun 1/5

2/5 - Fun-ASR 詳情： Fun-ASR 的 0.8B 開源版本專為現實世界條件而建，具備強大的噪音處理能力和多語言支持。 *(注意：更大的閉源版本也可用作主流部署)* 主要特點： - 處理嘈雜環境（咖啡館、街道、辦公室） - 多語言支持 - 實時轉錄 - 對多種口音的高準確性使用案例： - 會議轉錄 - 多語言呼叫中心 - 實時字幕 - 語音命令系統

3/5 - Fun-CosyVoice 3: 這個 0.5B 開源 TTS 模型提供更快、更具表現力的文本轉語音生成。（注意：更大的封閉源版本也可用作主流部署）主要特點： - 從短音頻樣本進行零樣本語音克隆 - 跨語言語音生成 - 多種說話風格和情感 - 自然的韻律和語調使用案例： - 有聲書旁白 - 配音生成 - 內容本地化 - 角色語音合成

73