大多数公共语音数据集在英语、录音室音频和精致录音条件上过度集中。 这种偏见在下游表现出来:语音转文本(STT)和文本转语音(TTS)系统在真实环境中对全球用户的表现不佳。 这更多是一个数据问题,而不是模型问题。