Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Grupa Alibaba z Tongyi Lab również wydała dwa modele open-source wraz z Fun-Audio-Chat z rodziny modeli głosowych Tongyi Fun, aby uzupełnić stos AI głosowego:
Fun-ASR (0.8B) - Odporny na hałas, wielojęzyczne rozpoznawanie mowy
Fun-CosyVoice 3 (0.5B TTS) - Ekspresywna synteza mowy z klonowaniem głosu w trybie zero-shot
Fun-ASR radzi sobie w hałaśliwych warunkach rzeczywistych, jednocześnie dostarczając dokładną transkrypcję w czasie rzeczywistym w wielu językach.
Rozłóżmy je na czynniki👇
#TongyiFun
1/5
2/5 - Szczegóły Fun-ASR:
Wersja open-source 0.8B Fun-ASR została stworzona do warunków rzeczywistych z solidnym zarządzaniem hałasem i wsparciem dla wielu języków.
*(Uwaga: Dostępne są również większe wersje closed-source jako główne wdrożenie)*
Kluczowe cechy:
- Obsługuje hałaśliwe środowiska (kawiarnie, ulice, biura)
- Wsparcie dla wielu języków
- Transkrypcja w czasie rzeczywistym
- Wysoka dokładność w przypadku różnych akcentów
Przykłady zastosowania:
- Transkrypcja spotkań
- Wielojęzyczne centra obsługi klienta
- Napisy w czasie rzeczywistym
- Systemy poleceń głosowych
3/5 - Fun-CosyVoice 3:
Model TTS o otwartym kodzie źródłowym 0.5B zapewnia szybsze i bardziej ekspresyjne generowanie mowy z tekstu.
(Uwaga: Większe wersje zamkniętego kodu są również dostępne jako główne wdrożenie)
Kluczowe cechy:
- Klonowanie głosu w trybie zero-shot z krótkich próbek audio
- Generowanie głosu w różnych językach
- Wiele stylów mówienia i emocji
- Naturalna prozodia i intonacja
Przykłady zastosowania:
- Narracja audiobooków
- Generowanie głosu do filmów
- Lokalizacja treści
- Synteza głosu postaci
68
Najlepsze
Ranking
Ulubione
