Om vi vill ha modeller som fungerar i verkligheten behöver de verkliga data. Idag publicerade @psdnai-teamet en teknisk djupdykning av Poseidon Voice AI-datasetet. 33 000+ timmar. 3 veckor. Ljud från verkligheten. Lågresursspråk. Rättigheter klargjorda på Story ↴
Poseidon
Poseidon29 jan. 01:30
Vi presenterar Poseidon Voice AI-datasetet. 33 000+ timmar av rättighetsrensat ljud över språk med låga resurser. I flera språk överstiger detta år av offentlig datainsamling. Nedan följer en teknisk djupdykning av datan ↓
Poseidon prioriterar högkvalitativ data, inte bara volym. Ljudklipp filtreras med Poseidon Score, en riktmärke för semantisk noggrannhet. Validerat av modersmålstalare. Filtrerad för verkliga förhållanden. Låg resurs betyder inte längre låg kvalitet.
8,18K