Моделі перетворення мови в мову в теорію звучать приголомшливо... доки вони не будуть розгорнуті в масштабі підприємства. Легко зрозуміти, чому люди в захваті. Пропускаючи окремі моделі перетворення мови в текст і текст в мову, моделі S2S забезпечують захоплюючі демонстрації, які вловлюють тон, емоції та нюанси з мінімальною затримкою. Моделі S2S можуть бути неймовірним технічним досягненням, але їх все одно важко контролювати на виробництві та важче гарантувати точне виконання робочих процесів. Багато голосових демонстрацій S2S оптимізуються для швидкості та природності, а не для коректності чи безпеки. У реальному розгортанні ці компроміси швидко підривають довіру. Для наших голосових агентів ми зберегли структуровану воронку продажів, але переробили її для швидкості. Ми оптимізували моделі та інфраструктуру, щоб забезпечити швидший і природніший звук мовлення. Результатом є підвищення швидкості на 65% при збереженні можливості аудиту та точності, від яких залежать підприємства. Speech-to-speech рано чи пізно дійде туди. Але сьогодні точність і надійність – це те, що змушує голосовий штучний інтелект працювати в масштабі підприємства.