熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
阿里巴巴集團的 Tongyi Lab 也發布了兩個開源模型,與來自 Tongyi Fun 語音模型系列的 Fun-Audio-Chat 一起,完成語音 AI 堆疊:
Fun-ASR (0.8B) - 噪音穩健的多語言語音識別
Fun-CosyVoice 3 (0.5B TTS) - 具表現力的文本轉語音,支持零樣本語音克隆
Fun-ASR 能夠處理現實世界中的噪音環境,同時在多種語言中提供準確的實時轉錄。
讓我們來詳細了解一下👇
#TongyiFun
1/5
2/5 - Fun-ASR 詳情:
Fun-ASR 的 0.8B 開源版本專為現實世界條件而建,具備強大的噪音處理能力和多語言支持。
*(注意:更大的閉源版本也可用作主流部署)*
主要特點:
- 處理嘈雜環境(咖啡館、街道、辦公室)
- 多語言支持
- 實時轉錄
- 對多種口音的高準確性
使用案例:
- 會議轉錄
- 多語言呼叫中心
- 實時字幕
- 語音命令系統
3/5 - Fun-CosyVoice 3:
這個 0.5B 開源 TTS 模型提供更快、更具表現力的文本轉語音生成。
(注意:更大的封閉源版本也可用作主流部署)
主要特點:
- 從短音頻樣本進行零樣本語音克隆
- 跨語言語音生成
- 多種說話風格和情感
- 自然的韻律和語調
使用案例:
- 有聲書旁白
- 配音生成
- 內容本地化
- 角色語音合成
73
熱門
排行
收藏
