De fleste offentlige taledatasett overindekserer på engelsk, studiolyd og polerte opptaksforhold. Denne skjevheten viser seg senere: STT- og TTS-systemer presterer dårligere for globale brukere i virkelige miljøer. Dette er mer et dataproblem enn et modell-problem.