Sunt dispus să mor pe această problemă: Cele mai bune modele vocale sunt cele cu cea mai mare acuratețe a entităților cheie, nu cele care optimizează pentru WER (Word Error Rate). Majoritatea furnizorilor de voce în text optimizează pentru WER, dar în aplicațiile de producție, WER nu este atât de relevant. Să corectezi 95% din cuvinte este inutil dacă ratezi numele clientului, numărul său de telefon sau adresa stradală pe care tocmai a scris-o literă cu literă. Echipa de la Gladia a realizat un benchmark foarte interesant: • 1.000+ conversații din call center • Mult zgomot de fundal • Să se concentreze pe extragerea numelor, numerelor de telefon, adreselor, locațiilor etc. Modelul Gladia a depășit toate celelalte modele de ultimă generație cu până la 17%! Acestea sunt exact datele care contează pentru companiile care folosesc aceste modele. Dacă greșești asta, tot ce urmează se strică. Câteva alte lucruri demne de menționat: • Latență pe parțiale: < 150ms • 100+ limbi suportate • Detectarea dinamică a limbajului • WER total de 5,97% Cu siguranță merită să verifici pentru oricine folosește modele de voce: Mulțumesc echipei Gladia pentru colaborarea cu mine la această postare.