Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Kann mir jemand sagen, was ich hier übersehe, denn die titulierte Behauptung scheint mir trivial falsch zu sein:
Sie definieren ein LLM als eine Funktion, die die Sequenz s in V^k auf einen Vektor in R^d abbildet.
Angenommen, der verborgene Zustand hat eine n-Bit-Präzision. Irgendwann gibt es mehr mögliche Eingaben als verborgene Zustände:
|V|^k > 2^{n * d}
k > n d log(2) / log |V|
Nehmen wir GPT-2: n=16, d=768, V≈50.000
Dann müssen Kollisionen ab einer Kontextfenstergröße von 214 Tokens auftreten.
Das scheint tatsächlich irgendwie schlecht zu sein, oder?
Top
Ranking
Favoriten

