I modelli di sintesi vocale a sintesi vocale sembrano fantastici in teoria… fino a quando non vengono implementati su scala aziendale. È facile capire perché le persone siano entusiaste. Saltando i modelli separati di sintesi vocale in testo e di sintesi vocale, i modelli S2S offrono dimostrazioni entusiasmanti che catturano tono, emozione e sfumature con una latenza minima. I modelli S2S possono essere un incredibile traguardo tecnico, ma sono ancora difficili da controllare in produzione e più complicati da garantire che i flussi di lavoro vengano eseguiti con precisione. Molte delle dimostrazioni vocali S2S ottimizzano per velocità e naturalezza, non per correttezza o sicurezza. Nelle implementazioni del mondo reale, questi compromessi erodono rapidamente la fiducia. Per i nostri agenti vocali, abbiamo mantenuto la pipeline strutturata ma l'abbiamo riprogettata per la velocità. Abbiamo effettuato un sacco di ottimizzazioni ai modelli e all'infrastruttura per fornire una sintesi vocale più veloce e naturale. Il risultato è un miglioramento del 65% nella velocità mantenendo l'auditabilità e la precisione su cui le aziende fanno affidamento. La sintesi vocale a sintesi vocale arriverà lì alla fine. Ma oggi, precisione e affidabilità sono ciò che rende l'AI vocale funzionante su scala aziendale.