Jeg er villig til å stå på denne saken: De beste stemmemodellene er de med best nøyaktighet med nøkkelenheter, ikke de som optimaliserer for WER (Word Error Rate). De fleste tale-til-tekst-leverandører optimaliserer for WER, men i produksjonsapplikasjoner er WER ikke så relevant. Å få 95 % av ordene riktig er nytteløst hvis du overser kundens navn, telefonnummer eller gateadressen de bare stavet bokstav for bokstav. Teamet hos Gladia kjørte en veldig kul benchmark: • 1 000+ samtaler i kundesenteret • Mye bakgrunnsstøy • Fokuser på å hente ut navn, telefonnumre, adresser, lokasjoner osv. Gladia-modellen overgikk alle andre toppmoderne modeller med opptil 17 %! Dette er nettopp dataene som er viktige for selskaper som bruker disse modellene. Gjør du dette feil, går alt nedstrøms i stykker. Noen andre ting verdt å nevne: • Forsinkelse på delvis: < 150 ms • 100+ språk støttes • Dynamisk språkdeteksjon • Totalt WER på 5,97 % Absolutt verdt å sjekke for alle som bruker stemmemodeller: Takk til Gladia-teamet for samarbeidet med meg på dette innlegget.