Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Jag är villig att dö på denna höjd:
De bästa röstmodellerna är de med bäst noggrannhet med nyckelenheter, inte de som optimerar för WER (Word Error Rate).
De flesta tal-till-text-leverantörer optimerar för WER, men i produktionsapplikationer är WER inte så relevant.
Att få 95 % av orden rätt är meningslöst om du missar kundens namn, telefonnummer eller gatuadressen de just stavat bokstav för bokstav.
Teamet på Gladia körde en väldigt häftig benchmark:
• 1 000+ samtal i callcenter
• Mycket bakgrundsljud
• Fokusera på att extrahera namn, telefonnummer, adresser, platser med mera.
Gladia-modellen överträffade alla andra toppmoderna modeller med upp till 17 %!
Det är just denna data som är viktig för företag som använder dessa modeller. Gör du fel på det här, går allt nedströms sönder.
Några andra saker värda att nämna:
• Latens på partialer: < 150 ms
• 100+ språk stöds
• Dynamisk språkdetektion
• Totalt WER på 5,97 %
Definitivt värt att kolla för alla som använder röstmodeller:
Tack till Gladia-teamet för samarbetet med mig i detta inlägg.
Topp
Rankning
Favoriter
