La maggior parte dei dataset vocali pubblici sovra-rappresenta l'inglese, l'audio da studio e le condizioni di registrazione curate. Questo bias si manifesta a valle: i sistemi STT e TTS non funzionano bene per gli utenti globali in ambienti reali. Questo è un problema di dati più che un problema di modello.