Die Tongyi Lab der Alibaba Group hat auch zwei Open-Source-Modelle zusammen mit Fun-Audio-Chat aus der Tongyi Fun Sprachmodellfamilie veröffentlicht, um den Voice-AI-Stack zu vervollständigen: Fun-ASR (0,8B) - Geräuschrobuste, mehrsprachige Spracherkennung Fun-CosyVoice 3 (0,5B TTS) - Ausdrucksstarke Text-zu-Sprache mit Zero-Shot-Stimmenklonung Fun-ASR bewältigt reale, geräuschvolle Umgebungen und liefert gleichzeitig eine präzise Echtzeit-Transkription in mehreren Sprachen. Lass uns sie aufschlüsseln👇 #TongyiFun 1/5
2/5 - Fun-ASR Details: Die 0,8B Open-Source-Version von Fun-ASR ist für reale Bedingungen mit robuster Geräuschbewältigung und mehrsprachiger Unterstützung entwickelt. *(Hinweis: Größere Closed-Source-Versionen sind ebenfalls als die gängige Bereitstellung verfügbar)* Hauptmerkmale: - Bewältigt laute Umgebungen (Cafés, Straßen, Büros) - Unterstützung mehrerer Sprachen - Echtzeit-Transkription - Hohe Genauigkeit bei verschiedenen Akzenten Anwendungsfälle: - Transkription von Besprechungen - Mehrsprachige Callcenter - Echtzeit-Untertitel - Sprachsteuerungssysteme
3/5 - Fun-CosyVoice 3: Das 0,5B Open-Source TTS-Modell bietet eine schnellere, ausdrucksvollere Text-zu-Sprache-Generierung. (Hinweis: Größere Closed-Source-Versionen sind ebenfalls als die gängige Bereitstellung verfügbar) Hauptmerkmale: - Zero-Shot-Stimmenklonierung aus kurzen Audio-Proben - Sprachgenerierung über Sprachgrenzen hinweg - Mehrere Sprechstile und Emotionen - Natürliche Prosodie und Intonation Anwendungsfälle: - Hörbuchnarration - Voiceover-Generierung - Inhaltslokalisierung - Charakterstimmen-Synthese
95