Большинство публичных наборов данных для голосового ввода имеют избыточное представительство английского языка, студийного аудио и отшлифованных условий записи. Этот уклон проявляется на более поздних этапах: системы распознавания речи (STT) и синтеза речи (TTS) показывают низкие результаты для пользователей по всему миру в реальных условиях. Это проблема данных, а не проблема модели.