ほとんどの公開音声データセットは英語、スタジオ音声、洗練された録音条件に過剰にインデックスを付けています。 そのバイアスは下流にも現れます。STTやTTSシステムは実際の環境でグローバルユーザーに対して性能が劣ります。 これはモデルの問題というよりデータの問題です。