Die meisten öffentlichen Sprachdatensätze sind überproportional auf Englisch, Studio-Audio und polierte Aufnahmebedingungen ausgerichtet. Diese Verzerrung zeigt sich in der Folge: STT- und TTS-Systeme schneiden für globale Nutzer in realen Umgebungen schlecht ab. Das ist eher ein Datenproblem als ein Modellproblem.