Presentiamo Voxtral Transcribe 2, modelli di riconoscimento vocale di nuova generazione di @MistralAI. Trascrizione all'avanguardia, diarizzazione degli oratori, latenza in tempo reale sotto i 200 ms. Dettagli in 🧵
Voxtral Realtime è progettato per agenti vocali e applicazioni dal vivo. La sua architettura di streaming nativa offre una latenza configurabile a meno di 200 ms. E a 480 ms, rimane entro l'1-2% di WER rispetto al nostro modello offline. Rilasciamo il modello come pesi aperti sotto Apache 2.0.
Inizia a sperimentare con Voxtral Mini Transcribe 2 nel nuovo audio playground di Mistral Studio. Carica file, attiva la diarizzazione, aggiungi contesto e ottieni trascrizioni istantanee.
Disponibile ora. Mini Transcribe 2 tramite API a $0.003/min. Realtime tramite API a $0.006/min, più pesi aperti. Inizia →
83