Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
В Інтернеті існує багато плутанини щодо того, що таке середовище RL.
Це буквально просто орієнтир.
- Навколишнє середовище
- Початковий стан
- Верифікатор, який перевіряє, чи є кінцевий стан правильним або прийнятним
Навколишнє середовище — це маленька пісочниця, яка дає LLM можливість реально взаємодіяти — виконувати дії, бачити результати та впливати на світ, у якому вона перебуває. У випадку з TerminalBench це просто контейнер Docker, який емулює реальний термінал розробника, укомплектований файлами, залежностями та системними інструментами, які може використовувати модель.
Початковий стан визначає, що модель бачить, коли починається завдання — вхідні дані, контекст і початкові умови. У тесті кодування, це може бути стан репозиторію Git, коли користувач вперше почав працювати: файли, звіт про помилку, невдалі тести та стартовий запит користувача, який повідомляє моделі, що потрібно зробити. Це «постановка проблеми», застигла в часі, тому кожна модель починається з однієї і тієї ж позиції, і результат можна справедливо порівняти.
Нарешті, верифікатор – це те, що робить все це вимірним. Це частина, яка перевіряє, чи дійсно модель вирішила завдання — автоматизований суддя, який перетворює безладні результати на просту оцінку або сигнал «склав/не склав».
Ось чому ви чуєте, як люди в лабораторіях кажуть: «Ми навчалися на верифікаторах». Вони говорять про наявність автоматизованого способу оцінювання поведінки моделі. Потім це стає функцією винагороди для RL або сигналом «пройшов/не пройшов» для бенчмарків.

Найкращі
Рейтинг
Вибране

