Наше нове тематичне дослідження про те, як Сіджун Танг (@sijun_tan) з Каліфорнійського університету в Берклі Sky Computing Lab і раніше @Agentica_ створили LLoCO - техніку, яка дозволяє обробляти контекст на 128 тисяч з 30× меншою кількістю токенів і на 7,62× швидшим висновком. Працює на відеокартах H100 від Hyperbolic Labs.
1,18K