Modely převodu řeči na řeč znějí teoreticky úžasně... dokud nebudou nasazeny v podnikovém měřítku.
Je snadné pochopit, proč jsou lidé nadšení. Přeskočením samostatných modelů převodu řeči na text a převodu textu na řeč poskytují modely S2S vzrušující ukázky, které zachycují tón, emoce a nuance s minimální latencí.
Modely S2S mohou být neuvěřitelným technickým úspěchem, ale stále je obtížné je kontrolovat v produkci a je obtížnější zaručit přesné provádění pracovních postupů.
Mnoho hlasových ukázek S2S optimalizuje rychlost a přirozenost, nikoli korektnost nebo bezpečnost. Při nasazení v reálném světě tyto kompromisy rychle narušují důvěru.
Pro naše hlasové agenty jsme zachovali strukturovaný kanál, ale přepracovali jsme ho tak, aby byl rychlý. Provedli jsme spoustu optimalizací modelů a infrastruktury, abychom poskytli rychlejší a přirozeněji znějící řeč. Výsledkem je 65% zlepšení rychlosti při zachování auditovatelnosti a přesnosti, na které jsou podniky závislé.
Převod řeči na řeč se tam nakonec dostane. Dnes je však přesnost a spolehlivost tím, co umožňuje hlasové umělé inteligenci fungovat v podnikovém měřítku.
Co je skutečně potřeba k tomu, aby umělá inteligence v podniku fungovala?
Náš spoluzakladatel a generální ředitel @thejessezhang se ujal hlavního pódia @OpenAI DevDay s @kimberlywtan a @vxanand, aby o tom diskutovali.
Celá nahrávka níže. ↓