Tongyi Lab skupiny Alibaba také vydal dva open-source modely spolu s Fun-Audio-Chat z rodiny hlasových modelů Tongyi Fun, čímž doplnil hlasový AI stack: Fun-ASR (0,8B) – Hlukově odolný, vícejazyčný rozpoznávání řeči Fun-CosyVoice 3 (0,5B TTS) – Expresivní převod textu na řeč s nulovým klonováním hlasu Fun-ASR zvládá reálná hlučná prostředí a zároveň poskytuje přesný přepis v reálném čase napříč více jazyky. Pojďme je rozebrat👇 #TongyiFun 1/5
2/5 - Detaily o zábavě ASR: Open-source verze Fun-ASR 0,8B je navržena pro reálné podmínky s robustní manipulací s hlukem a podporou vícejazyčných hovorů. *(Poznámka: Větší uzavřené verze jsou také dostupné jako hlavní nasazení)* Klíčové vlastnosti: - Zvládá hlučné prostředí (kavárny, ulice, kanceláře) - Podpora více jazyků - Přepis v reálném čase - Vysoká přesnost na různé přízvuky Případy použití: - Přepis setkání - Vícejazyčná call centra - Titulky v reálném čase - Hlasové ovládací systémy
3/5 - Fun-CosyVoice 3: Open-source TTS model 0,5B umožňuje rychlejší a výraznější generování textu na řeč. (Poznámka: Větší uzavřené verze jsou také dostupné jako hlavní nasazení) Klíčové vlastnosti: - Zero-shot klonování hlasu z krátkých zvukových vzorků - Generování hlasu napříč jazyky - Více mluvených stylů a emocí - Přirozená prozodie a intonace Případy použití: - Audiokniha a vyprávění - Generování hlasových komentářů - Lokalizace obsahu - Syntéza hlasu postav
61