Alibaba Groupin Tongyi Lab julkaisi myös kaksi avoimen lähdekoodin mallia sekä Fun-Audio-Chatin Tongyi Fun -äänimalliperheestä täydentääkseen äänitekoälypinon: Fun-ASR (0.8B) – Melun kestävä, monikielinen puheentunnistus Fun-CosyVoice 3 (0.5B TTS) – Ilmaisullinen tekstistä puheeksi -järjestelmä, jossa puhekloonaus ei ole mahdollista Fun-ASR käsittelee todellisia meluisia ympäristöjä ja tarjoaa tarkkaa reaaliaikaista transkriptiota useilla kielillä. Puretaan ne osiin👇 #TongyiFun 1/5
2/5 - Hauska ASR -tiedot: Fun-ASR:n 0,8B avoimen lähdekoodin versio on suunniteltu todellisiin olosuhteisiin, tarjoten vahvan melunhallinnan ja monikielisen tuen. *(Huom: Laajemmat suljetun lähdekoodin versiot ovat myös saatavilla valtavirran käyttöön)* Keskeiset ominaisuudet: - Hoitaa meluisia ympäristöjä (kahvilat, kadut, toimistot) - Monikielinen tuki - Reaaliaikainen transkriptio - Korkea tarkkuus erilaisissa aksenteissa Käyttötapaukset: - Kokouksen litterointi - Monikieliset puhelinpalvelukeskukset - Reaaliaikaiset tekstitykset - Äänikomentojärjestelmät
3/5 - Hauska Kodikas Ääni 3: 0,5B avoimen lähdekoodin TTS-malli tarjoaa nopeamman ja ilmeikkäämmän tekstin puheeksi -generoinnin. (Huomautus: Laajemmat suljetun lähdekoodin versiot ovat myös saatavilla valtavirran käyttöön) Keskeiset ominaisuudet: - Zero-shot -äänen kloonaus lyhyistä ääninäytteistä - Kielten välinen äänen generointi - Useita puhetyylejä ja tunteita - Luonnollinen prosodia ja intonaatio Käyttötapaukset: - Äänikirjan kerronta - Voiceover-generointi - Sisällön lokalisointi - Hahmojen äänensynteesi
63