Modelele speech-to-speech sună uimitor în teorie... până când sunt implementate la scară enterprise.
Este ușor de înțeles de ce oamenii sunt entuziasmați. Sărind peste modelele separate de vorbire în text și text-to-vorbire, modelele S2S oferă demonstrații interesante care surprind tonul, emoția și nuanțele cu latență minimă.
Modelele S2S pot fi o realizare tehnică incredibilă, dar sunt încă dificil de controlat în producție și mai greu de garantat că fluxurile de lucru sunt executate cu precizie.
Multe dintre demonstrațiile vocale S2S optimizează viteza și naturalețea, nu corectitudinea sau siguranța. În implementările din lumea reală, aceste compromisuri erodează rapid încrederea.
Pentru agenții noștri vocali, am păstrat conducta structurată, dar am reproiectat-o pentru viteză. Am făcut o mulțime de optimizări ale modelelor și infrastructurii pentru a oferi un discurs mai rapid și mai natural. Rezultatul este o îmbunătățire cu 65% a vitezei, menținând în același timp auditabilitatea și precizia de care depind întreprinderile.
Speech-to-speech va ajunge acolo în cele din urmă. Dar astăzi, precizia și fiabilitatea sunt ceea ce face ca AI vocală să funcționeze la scară enterprise.
Ce este nevoie cu adevărat pentru ca AI să funcționeze în întreprindere?
Co-fondatorul și CEO-ul nostru @thejessezhang a urcat pe scena principală a @OpenAI DevDay cu @kimberlywtan și @vxanand pentru a discuta.
Înregistrarea completă mai jos. ↓