阿里巴巴集团的Tongyi Lab还发布了两个开源模型,以及来自Tongyi Fun语音模型系列的Fun-Audio-Chat,以完成语音AI堆栈: Fun-ASR (0.8B) - 抗噪声的多语言语音识别 Fun-CosyVoice 3 (0.5B TTS) - 具有零样本语音克隆的富有表现力的文本转语音 Fun-ASR能够处理现实世界中的嘈杂环境,同时在多种语言中提供准确的实时转录。 让我们来详细了解一下👇 #TongyiFun 1/5
2/5 - Fun-ASR 详情: Fun-ASR 的 0.8B 开源版本专为真实世界条件而构建,具有强大的噪声处理能力和多语言支持。 *(注意:更大的闭源版本也可用作主流部署)* 主要特点: - 处理嘈杂环境(咖啡馆、街道、办公室) - 多语言支持 - 实时转录 - 对多种口音的高准确性 使用案例: - 会议转录 - 多语言呼叫中心 - 实时字幕 - 语音命令系统
3/5 - Fun-CosyVoice 3: 0.5B 开源 TTS 模型提供更快、更具表现力的文本转语音生成。 (注意:更大的闭源版本也可作为主流部署) 主要特点: - 从短音频样本进行零样本语音克隆 - 跨语言语音生成 - 多种说话风格和情感 - 自然的韵律和语调 使用案例: - 有声书叙述 - 配音生成 - 内容本地化 - 角色语音合成
95