Spraak-naar-spraakmodellen klinken geweldig in theorie… totdat ze op ondernemingsschaal worden ingezet.
Het is gemakkelijk te begrijpen waarom mensen enthousiast zijn. Door de aparte spraak-naar-tekst en tekst-naar-spraakmodellen over te slaan, leveren S2S-modellen spannende demo's die toon, emotie en nuance vastleggen met minimale latentie.
S2S-modellen kunnen een ongelooflijke technische prestatie zijn, maar ze zijn nog steeds moeilijk te beheersen in productie en moeilijker te garanderen dat workflows precies worden uitgevoerd.
Veel van de S2S-stemdemo's optimaliseren voor snelheid en natuurlijkheid, niet voor correctheid of veiligheid. In real-world implementaties ondermijnen die afwegingen snel het vertrouwen.
Voor onze stemagenten hebben we de gestructureerde pijplijn behouden, maar deze opnieuw ontworpen voor snelheid. We hebben een hoop model- en infrastructuuroptimalisaties doorgevoerd om snellere, natuurlijker klinkende spraak te leveren. Het resultaat is een verbetering van 65% in snelheid, terwijl we de controleerbaarheid en precisie behouden die ondernemingen nodig hebben.
Spraak-naar-spraak zal uiteindelijk daar komen. Maar vandaag zijn precisie en betrouwbaarheid wat spraak-AI op ondernemingsschaal laat werken.
Wat is er echt voor nodig om AI in de onderneming te laten werken?
Onze mede-oprichter en CEO @thejessezhang stond op het hoofdpodium van @OpenAI DevDay samen met @kimberlywtan en @vxanand om dit te bespreken.
Volledige opname hieronder. ↓