O Tongyi Lab do Alibaba Group também lançou dois modelos de código aberto juntamente com o Fun-Audio-Chat da família de modelos de voz Tongyi Fun para completar a pilha de IA de voz: Fun-ASR (0.8B) - Reconhecimento de fala multilingue e robusto a ruídos Fun-CosyVoice 3 (0.5B TTS) - Texto-para-fala expressivo com clonagem de voz zero-shot O Fun-ASR lida com ambientes ruidosos do mundo real enquanto fornece transcrição precisa em tempo real em vários idiomas. Vamos analisá-los👇 #TongyiFun 1/5
2/5 - Detalhes do Fun-ASR: A versão open-source 0.8B do Fun-ASR é construída para condições do mundo real, com robusta gestão de ruído e suporte multilíngue. *(Nota: Versões maiores e closed-source também estão disponíveis como a implementação principal)* Principais características: - Lida com ambientes ruidosos (cafés, ruas, escritórios) - Suporte a múltiplas línguas - Transcrição em tempo real - Alta precisão em diversos sotaques Casos de uso: - Transcrição de reuniões - Centros de atendimento multilíngues - Legendas em tempo real - Sistemas de comando de voz
3/5 - Fun-CosyVoice 3: O modelo TTS de código aberto 0.5B oferece uma geração de texto para fala mais rápida e expressiva. (Nota: Versões maiores de código fechado também estão disponíveis como a implementação principal) Principais características: - Clonagem de voz em zero-shot a partir de amostras de áudio curtas - Geração de voz cross-lingual - Múltiplos estilos de fala e emoções - Prosódia e entonação naturais Casos de uso: - Narração de audiolivros - Geração de voiceover - Localização de conteúdo - Síntese de voz de personagens
64