アリババグループのTongyi Labも、Tongyi FunボイスモデルファミリーのFun-Audio-Chatとともに2つのオープンソースモデルをリリースし、音声AIスタックを完成させました。 Fun-ASR(0.8B) - ノイズに強靭で多言語対応の音声認識 Fun-CosyVoice 3(0.5B TTS) - ゼロショット音声クローン機能を備えた表現力豊かなテキスト読み上げ Fun-ASRは、実際のノイズの多い環境にも対応しつつ、複数の言語で正確なリアルタイム文字起こしを提供します。 それらを分解👇して見てみましょう #TongyiFun 1/5
2/5 - 楽しさ・ASRの詳細: 0.8Bのオープンソース版Fun-ASRは、堅牢なノイズ処理と多言語対応を備えた実世界環境向けに構築されています。 *(注:より大きなクローズドソース版も主流の展開として利用可能です)* 主な特徴: - 騒がしい環境(カフェ、通り、オフィス)への対応 - 多言語サポート - リアルタイム転写 - 多様なアクセントに対する高精度 ユースケース: - 会議の書き起こし - 多言語コールセンター - リアルタイム字幕 - 音声コマンドシステム
3/5 - Fun-CosyVoice 3: 0.5BのオープンソースTTSモデルは、より高速で表現力豊かなテキスト読み上げ生成を実現します。 (注:より大きなクローズドソース版も主流の展開として利用可能です) 主な特徴: - 短い音声サンプルからのゼロショット音声クローン - クロスリンガル音声生成 - 多様な話し方や感情 - 自然韻律とイントネーション ユースケース: - オーディオブックのナレーション - ボイスオーバー生成 - コンテンツのローカライゼーション - キャラクターの声合成
100