如果我們想要在現實世界中運作的模型,它們需要現實世界的數據。 今天,@psdnai 團隊發佈了一篇關於 Poseidon Voice AI 數據集的技術深入分析。 超過 33,000 小時。3 週。現實世界的音頻。低資源語言。 在 Story 上獲得權利清除 ↴
Poseidon
Poseidon1月29日 01:30
介紹波塞冬語音AI數據集。 超過33K小時的權利清除音頻,涵蓋低資源語言。 在幾種語言中,這超過了多年的公共數據收集。 以下是對數據的技術深入分析 ↓
Poseidon 優先考慮高品質數據,而不僅僅是數量。 音頻片段通過 Poseidon 分數進行過濾,這是一個語義準確性的基準。 由母語者驗證。針對現實條件進行過濾。 低資源不再意味著低品質。
7.26K