De flesta offentliga röstdataset överindexerar på engelska, studioljud och polerade inspelningsförhållanden. Den där biasen visar sig längre fram: STT- och TTS-system presterar sämre för globala användare i verkliga miljöer. Detta är mer ett dataproblem än ett modell-problem.