Majoritatea seturilor de date vocale publice se supraindexează pe engleză, audio de studio și condiții de înregistrare rafinate. Această tendință se vede și în aval: sistemele STT și TTS au performanțe slabe pentru utilizatorii globali în medii reale. Aceasta este mai degrabă o problemă de date decât o problemă de model.