O Tongyi Lab, do Alibaba Group, também lançou dois modelos open-source junto com o Fun-Audio-Chat da família de modelos de voz Tongyi Fun para completar a pilha de IA de voz: Fun-ASR (0.8B) - Reconhecimento de fala multilíngue robusto ao ruído Fun-CosyVoice 3 (0,5B TTS) - Texto expressivo para fala com clonagem de voz zero-shot O Fun-ASR lida com ambientes ruidosos do mundo real enquanto entrega transcrições precisas em tempo real em vários idiomas. Vamos analisá-los👇 #TongyiFun 1/5
2/5 - Detalhes do Fun-ASR: A versão open-source 0.8B do Fun-ASR foi construída para condições reais, com manejo robusto de ruído e suporte multilíngue. *(Nota: Versões maiores de código fechado também estão disponíveis como a implantação principal)* Principais características: - Lidar com ambientes barulhentos (cafés, ruas, escritórios) - Suporte a múltiplos idiomas - Transcrição em tempo real - Alta precisão em diversos acentos Casos de uso: - Transcrição de reuniões - Call centers multilíngues - Legendas em tempo real - Sistemas de comando por voz
3/5 - VozDivertida e Aconchegante 3: O modelo TTS open-source 0.5B proporciona uma geração de texto para fala mais rápida e expressiva. (Nota: Versões maiores de código fechado também estão disponíveis como implantação principal) Principais características: - Clonagem de voz zero-shot a partir de amostras curtas de áudio - Geração de voz cross-lingual - Múltiplos estilos de fala e emoções - Prosódia e entoação naturais Casos de uso: - Narração em audiolivro - Geração de narração - Localização de conteúdo - Síntese de vozes de personagens
59