Модели «речь в речь» звучат потрясающе в теории… пока их не развернут в масштабах предприятия.
Легко понять, почему люди взволнованы. Пропуская отдельные модели «речь в текст» и «текст в речь», модели S2S предлагают захватывающие демонстрации, которые передают тон, эмоции и нюансы с минимальной задержкой.
Модели S2S могут быть невероятным техническим достижением, но их все еще трудно контролировать в производстве и сложнее гарантировать, что рабочие процессы выполняются точно.
Многие демонстрации голосов S2S оптимизируют скорость и естественность, а не правильность или безопасность. В реальных развертываниях такие компромиссы быстро подрывают доверие.
Для наших голосовых агентов мы сохранили структурированный конвейер, но переработали его для скорости. Мы сделали множество оптимизаций модели и инфраструктуры, чтобы обеспечить более быструю и естественно звучащую речь. В результате мы добились 65% улучшения скорости при сохранении возможности аудита и точности, на которые полагаются предприятия.
Речь в речь в конечном итоге достигнет своей цели. Но сегодня именно точность и надежность делают голосовой ИИ работающим в масштабах предприятия.
Что на самом деле нужно, чтобы сделать AI работающим в корпоративной среде?
Наш соучредитель и CEO @thejessezhang вышел на главную сцену DevDay @OpenAI вместе с @kimberlywtan и @vxanand, чтобы обсудить это.
Полная запись ниже. ↓