一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

阿里巴巴集团的Tongyi Lab还发布了两个开源模型，以及来自Tongyi Fun语音模型系列的Fun-Audio-Chat，以完成语音AI堆栈： Fun-ASR (0.8B) - 抗噪声的多语言语音识别 Fun-CosyVoice 3 (0.5B TTS) - 具有零样本语音克隆的富有表现力的文本转语音 Fun-ASR能够处理现实世界中的嘈杂环境，同时在多种语言中提供准确的实时转录。让我们来详细了解一下👇 #TongyiFun 1/5

2/5 - Fun-ASR 详情： Fun-ASR 的 0.8B 开源版本专为真实世界条件而构建，具有强大的噪声处理能力和多语言支持。 *(注意：更大的闭源版本也可用作主流部署)* 主要特点： - 处理嘈杂环境（咖啡馆、街道、办公室） - 多语言支持 - 实时转录 - 对多种口音的高准确性使用案例： - 会议转录 - 多语言呼叫中心 - 实时字幕 - 语音命令系统

3/5 - Fun-CosyVoice 3: 0.5B 开源 TTS 模型提供更快、更具表现力的文本转语音生成。（注意：更大的闭源版本也可作为主流部署）主要特点： - 从短音频样本进行零样本语音克隆 - 跨语言语音生成 - 多种说话风格和情感 - 自然的韵律和语调使用案例： - 有声书叙述 - 配音生成 - 内容本地化 - 角色语音合成

95