Alibaba Groups Tongyi Lab lanserte også to åpen kildekode-modeller sammen med Fun-Audio-Chat fra Tongyi Fun voice model-familien for å fullføre voice AI-stakken: Fun-ASR (0,8B) - Støyrobust, flerspråklig talegjenkjenning Fun-CosyVoice 3 (0,5B TTS) - Uttrykksfull tekst-til-tale med null-skudd stemmekloning Fun-ASR håndterer støyende miljøer i virkeligheten samtidig som den leverer nøyaktig sanntidstranskripsjon på tvers av flere språk. La oss bryte dem ned👇 #TongyiFun 1/5
2/5 - Fun-ASR Detaljer: 0,8B åpen kildekode-versjonen av Fun-ASR er bygget for virkelige forhold med robust støyhåndtering og flerspråklig støtte. *(Merk: Større lukkede versjoner er også tilgjengelige som hoveddistribusjon)* Nøkkelfunksjoner: - Håndterer støyende miljøer (kafeer, gater, kontorer) - Støtte for flere språk - Transkripsjon i sanntid - Høy nøyaktighet på ulike aksenter Bruksområder: - Møtetranskripsjon - Flerspråklige kundesentre - Undertekster i sanntid - Talekommandosystemer
3/5 - Fun-CosyVoice 3: 0,5B åpen kildekode-TTS-modellen gir raskere og mer uttrykksfull tekst-til-tale-generering. (Merk: Større lukkede versjoner er også tilgjengelige som hoveddistribusjon) Nøkkelfunksjoner: - Zero-shot stemmekloning fra korte lydprøver - Tverrspråklig stemmegenerering - Flere talestiler og følelser - Naturlig prosodi og intonasjon Bruksområder: - Lydbokfortellerstemme - Voiceover-generering - Innholdslokalisering - Karakterstemmesyntese
61