Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Tập đoàn Alibaba's Tongyi Lab cũng đã phát hành hai mô hình mã nguồn mở cùng với Fun-Audio-Chat từ gia đình mô hình giọng nói Tongyi Fun để hoàn thiện bộ công nghệ AI giọng nói:
Fun-ASR (0.8B) - Nhận diện giọng nói đa ngôn ngữ, chống ồn
Fun-CosyVoice 3 (0.5B TTS) - Chuyển văn bản thành giọng nói biểu cảm với khả năng sao chép giọng nói không cần mẫu
Fun-ASR xử lý các môi trường ồn ào trong thế giới thực trong khi cung cấp bản ghi chính xác theo thời gian thực trên nhiều ngôn ngữ.
Hãy cùng phân tích chúng👇
#TongyiFun
1/5
2/5 - Chi tiết Fun-ASR:
Phiên bản mã nguồn mở 0.8B của Fun-ASR được xây dựng cho các điều kiện thực tế với khả năng xử lý tiếng ồn mạnh mẽ và hỗ trợ đa ngôn ngữ.
*(Lưu ý: Các phiên bản mã nguồn đóng lớn hơn cũng có sẵn như là triển khai chính thống)*
Các tính năng chính:
- Xử lý môi trường ồn ào (quán cà phê, đường phố, văn phòng)
- Hỗ trợ nhiều ngôn ngữ
- Chuyển đổi văn bản theo thời gian thực
- Độ chính xác cao trên nhiều giọng điệu khác nhau
Các trường hợp sử dụng:
- Chuyển đổi văn bản cuộc họp
- Trung tâm cuộc gọi đa ngôn ngữ
- Phụ đề theo thời gian thực
- Hệ thống lệnh bằng giọng nói
3/5 - Fun-CosyVoice 3:
Mô hình TTS mã nguồn mở 0.5B cung cấp khả năng tạo giọng nói từ văn bản nhanh hơn và biểu cảm hơn.
(Ghi chú: Các phiên bản mã nguồn đóng lớn hơn cũng có sẵn như là triển khai chính thống)
Các tính năng chính:
- Nhân bản giọng nói không cần mẫu từ các đoạn âm thanh ngắn
- Tạo giọng nói đa ngôn ngữ
- Nhiều phong cách và cảm xúc nói khác nhau
- Ngữ điệu và ngữ điệu tự nhiên
Các trường hợp sử dụng:
- Kể chuyện audiobook
- Tạo giọng nói lồng ghép
- Địa phương hóa nội dung
- Tổng hợp giọng nói nhân vật
94
Hàng đầu
Thứ hạng
Yêu thích
