Una conversazione naturale include interruzioni e sovrapposizioni, il che è difficile per un LLM da modellare come una singola sequenza autoregressiva. Sono sicuro che puoi arrivare abbastanza lontano creando una sequenza di testo con pause simili a quelle di un copione cinematografico a metà frase, ma sembra che la vera soluzione comporterebbe flussi paralleli di ascolto e pensiero con il parlare in coda per le pause o che si alza a una priorità di interruzione. Mescolare token da diversi flussi e fare qualcosa di personalizzato con l'attenzione sembra plausibile.
178,05K