Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Я готовий померти на цьому пагорбі:
Найкращі голосові моделі — це ті, що мають найкращу точність із ключовими сутностями, а не ті, що оптимізуються під WER (Word Error Rate).
Більшість провайдерів мовлення в текст оптимізують для WER, але в виробничих застосунках WER не є таким важливим.
Правильно підібрати 95% слів марно, якщо ви пропустите ім'я клієнта, номер телефону чи адресу, яку він щойно написав буква за літерою.
Команда Gladia провела дуже цікавий бенчмарк:
• 1 000+ розмов у кол-центрах
• Багато фонового шуму
• Зосередитися на вилученні імен, номерів телефонів, адрес, локацій тощо.
Модель Gladia перевершила всі інші сучасні моделі до 17%!
Саме ці дані важливі для компаній, що використовують ці моделі. Якщо помилитися, все далі ламається.
Ще кілька речей, які варто згадати:
• Затримка на часткових частотах: < 150 мс
• 100+ підтримуваних мов
• Динамічне виявлення мови
• Загальний WER — 5,97%
Обов'язково варто перевірити для тих, хто використовує голосові моделі:
Дякую команді Gladia за співпрацю зі мною над цим дописом.
Найкращі
Рейтинг
Вибране
