Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Tongyi Lab al Alibaba Group a lansat, de asemenea, două modele open-source împreună cu Fun-Audio-Chat din familia de modele vocale Tongyi Fun, pentru a completa stack-ul vocal AI:
Fun-ASR (0.8B) - Recunoaștere vocală multilingvă robustă la zgomot
Fun-CosyVoice 3 (0.5B TTS) - Text-to-speech expresiv cu clonare vocală zero-shot
Fun-ASR gestionează medii zgomotoase din lumea reală, oferind în același timp transcrieri exacte în timp real în mai multe limbi.
Hai să le descompunem👇
#TongyiFun
1/5
2/5 - Detalii Fun-ASR:
Versiunea open-source 0.8B a Fun-ASR este construită pentru condiții reale, cu gestionare robustă a zgomotului și suport multilingv.
*(Notă: Versiuni mai mari, closed-source, sunt disponibile și ca implementare principală)*
Caracteristici cheie:
- Gestionează medii zgomotoase (cafenele, străzi, birouri)
- Suport pentru mai multe limbi
- Transcriere în timp real
- Acuratețe ridicată la accente diverse
Cazuri de utilizare:
- Transcrierea ședințelor
- Centre de apel multilingve
- Subtitrări în timp real
- Sisteme de comandă vocală
3/5 - Voce-Plăcută 3:
Modelul TTS open-source 0.5B oferă o generare text-to-speech mai rapidă și mai expresivă.
(Notă: Versiuni mai mari, closed-source, sunt disponibile și ca implementare principală)
Caracteristici cheie:
- Clonare vocală zero-shot din mostre audio scurte
- Generarea vocii cross-lingve
- Stiluri și emoții multiple de vorbire
- Prozodie naturală și intonație
Cazuri de utilizare:
- Narațiune audiobook
- Generarea de voice-over
- Localizarea conținutului
- Sinteza vocii personajelor
72
Limită superioară
Clasament
Favorite
