如果我们想要在现实世界中有效的模型,它们需要现实世界的数据。 今天,@psdnai 团队发布了关于 Poseidon Voice AI 数据集的技术深度分析。 超过 33,000 小时。3 周。现实世界的音频。低资源语言。 在 Story 上已获得权利清除 ↴
Poseidon
Poseidon1月29日 01:30
介绍波塞冬语音AI数据集。 超过33K小时的权利清除音频,涵盖低资源语言。 在几种语言中,这超过了多年的公共数据收集。 下面是对数据的技术深入分析 ↓
波塞冬优先考虑高质量数据,而不仅仅是数量。 音频片段通过波塞冬评分进行过滤,这是语义准确性的基准。 由母语者验证。针对现实世界条件进行过滤。 低资源不再意味着低质量。
6.67K