.@willccbb (Trưởng nghiên cứu, Prime Intellect) về cách mà các môi trường RL thực sự hoạt động:
“Một môi trường về cơ bản là một bài đánh giá. Bạn có các nhiệm vụ đầu vào, một bộ điều khiển, và ở cuối nó sẽ chấm điểm cách mà mô hình hoặc tác nhân của bạn hoạt động. Đó là cấu hình mà chúng tôi sử dụng cho cả đánh giá và đào tạo RL.”
Ông ấy bổ sung rằng tương lai không chỉ là “có 100.000 GPU trong một cụm khổng lồ.”
Tôi đã phát triển các môi trường trong suốt tuần qua. Tôi tin rằng điều này có thể giải quyết nhu cầu về môi trường RL của đại chúng. Có rất nhiều thứ thú vị và tuyệt vời để thử nghiệm, bao gồm môi trường chứng minh Lean4 đa lượt StepRunProver mà tôi đã tạo ra.