Я готов умереть на этом холме: Лучшие голосовые модели — это те, которые имеют наилучшую точность по ключевым сущностям, а не те, которые оптимизируют WER (коэффициент ошибок слов). Большинство поставщиков распознавания речи оптимизируют WER, но в производственных приложениях WER не так важен. Получить 95% правильных слов бесполезно, если вы пропустите имя клиента, его номер телефона или адрес улицы, который он только что продиктовал по буквам. Команда Gladia провела очень интересный бенчмарк: • Более 1000 разговоров в колл-центре • Много фонового шума • Фокус на извлечении имен, номеров телефонов, адресов, местоположений и т.д. Модель Gladia превзошла все другие современные модели на 17%! Это именно те данные, которые важны для компаний, использующих эти модели. Если вы ошибетесь здесь, все последующее сломается. Несколько других моментов, которые стоит упомянуть: • Задержка на частичных данных: < 150 мс • Поддержка более 100 языков • Динамическое определение языка • Общий WER на уровне 5.97% Определенно стоит проверить для всех, кто использует голосовые модели: Спасибо команде Gladia за сотрудничество со мной над этим постом.