Tal-till-tal-modeller låter fantastiskt i teorin... tills de distribueras i företagsskala.
Det är lätt att förstå varför folk är upphetsade. Genom att hoppa över de separata tal-till-text- och text-till-tal-modellerna levererar S2S-modeller spännande demonstrationer som fångar ton, känslor och nyanser med minimal latens.
S2S-modeller kan vara en otrolig teknisk prestation, men de är fortfarande svåra att kontrollera i produktion och svårare att garantera att arbetsflöden utförs exakt.
Många av S2S röstdemos optimerar för hastighet och naturlighet, inte för korrekthet eller säkerhet. I verkliga distributioner urholkar dessa kompromisser förtroendet snabbt.
För våra röstagenter har vi behållit den strukturerade pipelinen men omarbetat den för att gå snabbare. Vi har gjort massor av modell- och infrastrukturoptimeringar för att leverera snabbare och mer naturligt tal. Resultatet är en 65-procentig förbättring av hastigheten samtidigt som revisionsbarheten och precisionen som företag är beroende av bibehålls.
Tal-till-tal kommer att nå dit så småningom. Men i dag är det precision och tillförlitlighet som gör att röst-AI fungerar i företagsskala.
Vad krävs egentligen för att få AI att fungera i företaget?
Vår medgrundare och VD @thejessezhang intog @OpenAI DevDay-huvudscenen med @kimberlywtan och @vxanand att diskutera.
Hela inspelningen nedan. ↓