В Інтернеті існує багато плутанини щодо того, що таке середовище RL. Це буквально просто орієнтир. - Навколишнє середовище - Початковий стан - Верифікатор, який перевіряє, чи є кінцевий стан правильним або прийнятним Навколишнє середовище — це маленька пісочниця, яка дає LLM можливість реально взаємодіяти — виконувати дії, бачити результати та впливати на світ, у якому вона перебуває. У випадку з TerminalBench це просто контейнер Docker, який емулює реальний термінал розробника, укомплектований файлами, залежностями та системними інструментами, які може використовувати модель. Початковий стан визначає, що модель бачить, коли починається завдання — вхідні дані, контекст і початкові умови. У тесті кодування, це може бути стан репозиторію Git, коли користувач вперше почав працювати: файли, звіт про помилку, невдалі тести та стартовий запит користувача, який повідомляє моделі, що потрібно зробити. Це «постановка проблеми», застигла в часі, тому кожна модель починається з однієї і тієї ж позиції, і результат можна справедливо порівняти. Нарешті, верифікатор – це те, що робить все це вимірним. Це частина, яка перевіряє, чи дійсно модель вирішила завдання — автоматизований суддя, який перетворює безладні результати на просту оцінку або сигнал «склав/не склав». Ось чому ви чуєте, як люди в лабораторіях кажуть: «Ми навчалися на верифікаторах». Вони говорять про наявність автоматизованого способу оцінювання поведінки моделі. Потім це стає функцією винагороди для RL або сигналом «пройшов/не пройшов» для бенчмарків.