Alguma recomendação de textos que introduzam como as abordagens à memória em modelos transformer? Deve ser de nível introdutório sem sacrificar a especificidade técnica. Vale a pena escrever um?