dit is eigenlijk krankzinnig sinds AI is verschenen, had elk model voor biologie dezelfde beperking: train het op één ziekte, het werkt alleen op die ziekte. opnieuw trainen voor een nieuw medicijn, patiënt of weefsel. de belofte van het fundamentele model voor biologie bestond eigenlijk niet. zero-shot voorspelling was onmogelijk. tot nu toe. Het model van het Arc Institute (Stack) leert van groepen cellen in plaats van één voor één. de manier waarop LLM's woorden in een zin zien en niet in isolatie, cellen worden context voor elkaar. je kunt het cellen laten zien die met een medicijn zijn behandeld, en het voorspelt hoe volkomen verschillende cellen op datzelfde medicijn zouden reageren. zelfs als niemand ooit dat experiment heeft uitgevoerd. zelfs als dat weefsel nooit is verstoord. zelfs als die combinatie nooit in de training heeft bestaan. cellen zelf worden prompts, gewoon door inferentie. je kunt nu biologie ondervragen. "wat zouden levercellen doen als ik ze dit kankermedicijn gaf?" en het antwoordt met daadwerkelijke voorspellingen van genexpressie. nog niet perfect, maar goed genoeg dat het bestaande methoden in 28 van de 31 benchmarks heeft verslagen (bijna ongehoord in dit veld waar het verslaan van 60% als goed wordt beschouwd). ze hebben het gebruikt om een virtuele perturbatie-atlas te bouwen: 28 menselijke weefsels, 40 celklassen, 201 medicijnen. geen laboratorium vereist. puur in silico. toen ze het valideerden tegen echte wet-lab experimenten, kwamen de voorspellingen overeen. de kosten voor medicijnontdekking bedragen momenteel $5M+ en 2 jaar per experiment dat misschien niet werkt. nu screen je eerst computationeel. "welke weefsels zullen off-target effecten hebben?" "hoe zullen de cellen van deze patiënt anders reageren?" vraagstukken die vroeger miljoenen aan subsidies vereisten, hebben nu alleen een GPU nodig. langzaam maar zeker lossen we biologie op.