Pokud chceme modely, které fungují v reálném světě, potřebují reálná data. Dnes tým @psdnai publikoval technický podrobný průzkum datové sady Poseidon Voice AI. 33 000+ hodin. 3 týdny. Zvuk z reálného světa. Jazyky s nízkými zdroji. Práva vyčištěna na Story ↴
Poseidon
Poseidon29. 1. 01:30
Představujeme datovou sadu Poseidon Voice AI. 33 000+ hodin audiozáznamu s povolenými právy v málo zdrojových jazycích. V několika jazycích to převyšuje roky veřejného sběru dat. Níže je technický podrobný pohled na data ↓
Poseidon upřednostňuje kvalitní data, nejen objem. Zvukové klipy jsou filtrovány pomocí Poseidonova skóre, což je měřítko sémantické přesnosti. Ověřeno rodilými mluvčími. Filtrováno podle reálných podmínek. Nízké zdroje už neznamenají nízkou kvalitu.
7,56K