语音到语音模型在理论上听起来很棒……直到它们在企业规模上部署。 人们兴奋的原因很容易理解。通过跳过单独的语音转文本和文本转语音模型,S2S模型提供了令人兴奋的演示,能够以最小的延迟捕捉语气、情感和细微差别。 S2S模型可能是一个令人难以置信的技术成就,但在生产中仍然难以控制,并且更难保证工作流程的精确执行。 许多S2S语音演示优化了速度和自然性,而不是正确性或安全性。在现实世界的部署中,这些权衡会迅速侵蚀信任。 对于我们的语音代理,我们保留了结构化管道,但重新设计以提高速度。我们进行了大量模型和基础设施优化,以提供更快、更自然的语音。结果是速度提高了65%,同时保持了企业所依赖的可审计性和精确性。 语音到语音最终会实现。但今天,精确性和可靠性是使语音AI在企业规模上运作的关键。