Hai qualche raccomandazione su testi che introducono come gli approcci alla memoria nei modelli transformer? Dovrebbe essere a livello introduttivo senza sacrificare la specificità tecnica. Vale la pena scriverne uno?