Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
O Tongyi Lab do Alibaba Group também lançou dois modelos de código aberto juntamente com o Fun-Audio-Chat da família de modelos de voz Tongyi Fun para completar a pilha de IA de voz:
Fun-ASR (0.8B) - Reconhecimento de fala multilingue e robusto a ruídos
Fun-CosyVoice 3 (0.5B TTS) - Texto-para-fala expressivo com clonagem de voz zero-shot
O Fun-ASR lida com ambientes ruidosos do mundo real enquanto fornece transcrição precisa em tempo real em vários idiomas.
Vamos analisá-los👇
#TongyiFun
1/5
2/5 - Detalhes do Fun-ASR:
A versão open-source 0.8B do Fun-ASR é construída para condições do mundo real, com robusta gestão de ruído e suporte multilíngue.
*(Nota: Versões maiores e closed-source também estão disponíveis como a implementação principal)*
Principais características:
- Lida com ambientes ruidosos (cafés, ruas, escritórios)
- Suporte a múltiplas línguas
- Transcrição em tempo real
- Alta precisão em diversos sotaques
Casos de uso:
- Transcrição de reuniões
- Centros de atendimento multilíngues
- Legendas em tempo real
- Sistemas de comando de voz
3/5 - Fun-CosyVoice 3:
O modelo TTS de código aberto 0.5B oferece uma geração de texto para fala mais rápida e expressiva.
(Nota: Versões maiores de código fechado também estão disponíveis como a implementação principal)
Principais características:
- Clonagem de voz em zero-shot a partir de amostras de áudio curtas
- Geração de voz cross-lingual
- Múltiplos estilos de fala e emoções
- Prosódia e entonação naturais
Casos de uso:
- Narração de audiolivros
- Geração de voiceover
- Localização de conteúdo
- Síntese de voz de personagens
64
Top
Classificação
Favoritos
