Thực tế là tất cả các chế độ giọng nói AI lớn đều được hỗ trợ bởi các mô hình ngu ngốc, chưa kể đến những mô hình ngu ngốc nịnh bợ được thiết kế để có những sự không lưu loát giả mạo một cuộc trò chuyện của con người ("um"), đã làm giảm giá trị của giọng nói trong việc quản lý các tác nhân. Một "chế độ giọng nói nghiêm túc" cho công việc sẽ rất hữu ích.
Có những mô hình tốt hơn ở ngoài kia: Giọng nói AI đã trở thành một phần không thể thiếu của truyền thông trong suốt phần lớn thế kỷ qua. Và có lý do tại sao chiếc máy tính trong Star Trek không cười khúc khích và thở dài và nói "um" và khen bạn tuyệt vời giữa một nhiệm vụ đầy căng thẳng.
Cũng rất khó để tạo chế độ giọng nói thông minh này với các API hiện tại. Bạn cần phải chuyển đổi giọng nói thành một mô hình thông minh bằng một công cụ và sau đó sử dụng TTS bằng một công cụ khác, điều này không có sự tương tác qua lại và khả năng ngắt quãng mà giọng nói đa phương thức hoàn chỉnh có thể làm được.
227