Модели «речь в речь» звучат потрясающе в теории… пока их не развернут в масштабах предприятия. Легко понять, почему люди взволнованы. Пропуская отдельные модели «речь в текст» и «текст в речь», модели S2S предлагают захватывающие демонстрации, которые передают тон, эмоции и нюансы с минимальной задержкой. Модели S2S могут быть невероятным техническим достижением, но их все еще трудно контролировать в производстве и сложнее гарантировать, что рабочие процессы выполняются точно. Многие демонстрации голосов S2S оптимизируют скорость и естественность, а не правильность или безопасность. В реальных развертываниях такие компромиссы быстро подрывают доверие. Для наших голосовых агентов мы сохранили структурированный конвейер, но переработали его для скорости. Мы сделали множество оптимизаций модели и инфраструктуры, чтобы обеспечить более быструю и естественно звучащую речь. В результате мы добились 65% улучшения скорости при сохранении возможности аудита и точности, на которые полагаются предприятия. Речь в речь в конечном итоге достигнет своей цели. Но сегодня именно точность и надежность делают голосовой ИИ работающим в масштабах предприятия.