热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
阿里巴巴集团的Tongyi Lab还发布了两个开源模型,以及来自Tongyi Fun语音模型系列的Fun-Audio-Chat,以完成语音AI堆栈:
Fun-ASR (0.8B) - 抗噪声的多语言语音识别
Fun-CosyVoice 3 (0.5B TTS) - 具有零样本语音克隆的富有表现力的文本转语音
Fun-ASR能够处理现实世界中的嘈杂环境,同时在多种语言中提供准确的实时转录。
让我们来详细了解一下👇
#TongyiFun
1/5
2/5 - Fun-ASR 详情:
Fun-ASR 的 0.8B 开源版本专为真实世界条件而构建,具有强大的噪声处理能力和多语言支持。
*(注意:更大的闭源版本也可用作主流部署)*
主要特点:
- 处理嘈杂环境(咖啡馆、街道、办公室)
- 多语言支持
- 实时转录
- 对多种口音的高准确性
使用案例:
- 会议转录
- 多语言呼叫中心
- 实时字幕
- 语音命令系统
3/5 - Fun-CosyVoice 3:
0.5B 开源 TTS 模型提供更快、更具表现力的文本转语音生成。
(注意:更大的闭源版本也可作为主流部署)
主要特点:
- 从短音频样本进行零样本语音克隆
- 跨语言语音生成
- 多种说话风格和情感
- 自然的韵律和语调
使用案例:
- 有声书叙述
- 配音生成
- 内容本地化
- 角色语音合成
95
热门
排行
收藏
