Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Tongyi Lab skupiny Alibaba také vydal dva open-source modely spolu s Fun-Audio-Chat z rodiny hlasových modelů Tongyi Fun, čímž doplnil hlasový AI stack:
Fun-ASR (0,8B) – Hlukově odolný, vícejazyčný rozpoznávání řeči
Fun-CosyVoice 3 (0,5B TTS) – Expresivní převod textu na řeč s nulovým klonováním hlasu
Fun-ASR zvládá reálná hlučná prostředí a zároveň poskytuje přesný přepis v reálném čase napříč více jazyky.
Pojďme je rozebrat👇
#TongyiFun
1/5
2/5 - Detaily o zábavě ASR:
Open-source verze Fun-ASR 0,8B je navržena pro reálné podmínky s robustní manipulací s hlukem a podporou vícejazyčných hovorů.
*(Poznámka: Větší uzavřené verze jsou také dostupné jako hlavní nasazení)*
Klíčové vlastnosti:
- Zvládá hlučné prostředí (kavárny, ulice, kanceláře)
- Podpora více jazyků
- Přepis v reálném čase
- Vysoká přesnost na různé přízvuky
Případy použití:
- Přepis setkání
- Vícejazyčná call centra
- Titulky v reálném čase
- Hlasové ovládací systémy
3/5 - Fun-CosyVoice 3:
Open-source TTS model 0,5B umožňuje rychlejší a výraznější generování textu na řeč.
(Poznámka: Větší uzavřené verze jsou také dostupné jako hlavní nasazení)
Klíčové vlastnosti:
- Zero-shot klonování hlasu z krátkých zvukových vzorků
- Generování hlasu napříč jazyky
- Více mluvených stylů a emocí
- Přirozená prozodie a intonace
Případy použití:
- Audiokniha a vyprávění
- Generování hlasových komentářů
- Lokalizace obsahu
- Syntéza hlasu postav
61
Top
Hodnocení
Oblíbené
