Theo quan điểm của tôi, rl chỉ là một cách dễ chịu hơn để nói về dữ liệu tổng hợp mà mọi người không thích cách đây hai năm khi tôi bắt đầu thực hiện lấy mẫu từ chối để tạo ra Hermes 1. Dữ liệu tổng hợp (bao gồm dữ liệu bán tổng hợp) đã hiện diện kể từ khi ChatGPT ra mắt.
aurelium /ɔˈreːliəm/
aurelium /ɔˈreːliəm/14:33 15 thg 10
những người nói, một cách mơ hồ và không giải thích, rằng RL không phải là tương lai luôn khiến tôi bối rối điều đó giống như việc loại bỏ "học không giám sát" như không phải là tương lai
@gregcoppola5d @kalomaze Để làm rõ, chúng tôi chỉ cần khoảng 25 mẫu sft để phá kỷ lục đó mà chắc chắn grok đã thực hiện nghiên cứu thực tế tốn kém và nghiêm túc để đạt được.
@niklassheth @kalomaze Những điều đang hoạt động đều xoay quanh việc triển khai với các xác thực viên hoặc người đủ điều kiện của dữ liệu. Với điều đó, mọi thứ đều có thể. Phần rl trực tuyến chỉ là một sự tăng cường hiệu quả.
10,6K