أنا مستعد للموت من أجل هذا الهدف: أفضل نماذج الصوت هي تلك التي تحقق أفضل دقة مع الكيانات الرئيسية، وليست تلك التي تحسب معدل خطأ الكلمة (WER). معظم مزودي تحويل الكلام إلى نص يحسنون WER، لكن في التطبيقات الإنتاجية، WER ليس ذا صلة كبيرة. الحصول على 95٪ من الكلمات بشكل صحيح لا فائدة منه إذا فاتتك اسم العميل أو رقم هاتفه أو عنوان الشارع الذي كتبه حرفا بحرف. قدم فريق غلاديا معيارا رائعا جدا: • 1,000+ محادثة في مراكز الاتصال • الكثير من الضوضاء الخلفية • التركيز على استخراج الأسماء، وأرقام الهواتف، والعناوين، والمواقع، وما إلى ذلك. تفوق نموذج غلاديا على جميع الطرازات الحديثة الأخرى بنسبة تصل إلى 17٪! هذه هي بالضبط البيانات التي تهم الشركات التي تستخدم هذه النماذج. إذا أخطأت في هذا، ينهار كل شيء بعد التيار. هناك بعض الأمور الأخرى التي تستحق الذكر: • زمن الاستجابة في الأجزاء الجزئية: < 150 مللي ثانية • 100+ لغة مدعومة • الكشف الديناميكي عن اللغة • إجمالي WER بنسبة 5.97٪ بالتأكيد يستحق الاطلاع لأي شخص يستخدم نماذج صوتية: شكرا لفريق غلاديا على تعاونهم معي في هذا المنشور.