El Laboratorio Tongyi del Grupo Alibaba también lanzó dos modelos de código abierto junto con Fun-Audio-Chat de la familia de modelos de voz Tongyi Fun para completar la pila de IA de voz: Fun-ASR (0.8B) - Reconocimiento de voz multilingüe y robusto ante el ruido Fun-CosyVoice 3 (0.5B TTS) - Texto a voz expresivo con clonación de voz en cero disparos Fun-ASR maneja entornos ruidosos del mundo real mientras ofrece transcripción precisa en tiempo real en múltiples idiomas. Desglosemos esto👇 #TongyiFun 1/5
2/5 - Detalles de Fun-ASR: La versión de código abierto 0.8B de Fun-ASR está diseñada para condiciones del mundo real con un manejo robusto del ruido y soporte multilingüe. *(Nota: También están disponibles versiones más grandes de código cerrado como implementación principal)* Características clave: - Maneja entornos ruidosos (cafés, calles, oficinas) - Soporte para múltiples idiomas - Transcripción en tiempo real - Alta precisión en diversos acentos Casos de uso: - Transcripción de reuniones - Centros de llamadas multilingües - Subtítulos en tiempo real - Sistemas de comandos de voz
3/5 - Fun-CosyVoice 3: El modelo TTS de código abierto 0.5B ofrece una generación de texto a voz más rápida y expresiva. (Nota: También están disponibles versiones más grandes de código cerrado como la implementación principal) Características clave: - Clonación de voz en cero disparos a partir de muestras de audio cortas - Generación de voz multilingüe - Múltiples estilos de habla y emociones - Prosodia e entonación naturales Casos de uso: - Narración de audiolibros - Generación de voz en off - Localización de contenido - Síntesis de voz de personajes
67