Jag är villig att dö på denna höjd: De bästa röstmodellerna är de med bäst noggrannhet med nyckelenheter, inte de som optimerar för WER (Word Error Rate). De flesta tal-till-text-leverantörer optimerar för WER, men i produktionsapplikationer är WER inte så relevant. Att få 95 % av orden rätt är meningslöst om du missar kundens namn, telefonnummer eller gatuadressen de just stavat bokstav för bokstav. Teamet på Gladia körde en väldigt häftig benchmark: • 1 000+ samtal i callcenter • Mycket bakgrundsljud • Fokusera på att extrahera namn, telefonnummer, adresser, platser med mera. Gladia-modellen överträffade alla andra toppmoderna modeller med upp till 17 %! Det är just denna data som är viktig för företag som använder dessa modeller. Gör du fel på det här, går allt nedströms sönder. Några andra saker värda att nämna: • Latens på partialer: < 150 ms • 100+ språk stöds • Dynamisk språkdetektion • Totalt WER på 5,97 % Definitivt värt att kolla för alla som använder röstmodeller: Tack till Gladia-teamet för samarbetet med mig i detta inlägg.