Memperkenalkan Voxtral Transcribe 2, model ucapan-ke-teks generasi berikutnya oleh @MistralAI. Transkripsi canggih, diarisasi pembicara, latensi real-time sub-200ms. Rincian di 🧵
Voxtral Realtime dibuat untuk agen suara dan aplikasi langsung. Arsitektur streaming aslinya memberikan latensi yang dapat dikonfigurasi hingga sub-200 ms. Dan pada 480ms, itu tetap dalam 1-2% WER dari model offline kami. Kami merilis model sebagai bobot terbuka di bawah Apache 2.0.
Mulailah bereksperimen dengan Voxtral Mini Transcribe 2 di taman bermain audio baru di Mistral Studio. Unggah file, alihkan diarisasi, tambahkan bias konteks, dan dapatkan transkripsi instan.
Tersedia sekarang. Transkripsi Mini 2 melalui API seharga $0.003/menit. Realtime melalui API seharga $0,006/menit, ditambah bobot terbuka. Mulai →
34