阿里巴巴集團的 Tongyi Lab 也發布了兩個開源模型,與來自 Tongyi Fun 語音模型系列的 Fun-Audio-Chat 一起,完成語音 AI 堆疊: Fun-ASR (0.8B) - 噪音穩健的多語言語音識別 Fun-CosyVoice 3 (0.5B TTS) - 具表現力的文本轉語音,支持零樣本語音克隆 Fun-ASR 能夠處理現實世界中的噪音環境,同時在多種語言中提供準確的實時轉錄。 讓我們來詳細了解一下👇 #TongyiFun 1/5
2/5 - Fun-ASR 詳情: Fun-ASR 的 0.8B 開源版本專為現實世界條件而建,具備強大的噪音處理能力和多語言支持。 *(注意:更大的閉源版本也可用作主流部署)* 主要特點: - 處理嘈雜環境(咖啡館、街道、辦公室) - 多語言支持 - 實時轉錄 - 對多種口音的高準確性 使用案例: - 會議轉錄 - 多語言呼叫中心 - 實時字幕 - 語音命令系統
3/5 - Fun-CosyVoice 3: 這個 0.5B 開源 TTS 模型提供更快、更具表現力的文本轉語音生成。 (注意:更大的封閉源版本也可用作主流部署) 主要特點: - 從短音頻樣本進行零樣本語音克隆 - 跨語言語音生成 - 多種說話風格和情感 - 自然的韻律和語調 使用案例: - 有聲書旁白 - 配音生成 - 內容本地化 - 角色語音合成
73