Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
📢 Liệu LLM có thực sự có khả năng suy luận ngoài khuôn khổ trong toán học không? Hay chúng chỉ đang remix các chiến lược quen thuộc?
Nhớ DeepSeek R1, o1 đã gây ấn tượng với chúng ta trong toán học cấp Olympiad nhưng cũng đã thất bại ở những phép tính đơn giản 😬
Chúng tôi đã xây dựng một tiêu chuẩn để tìm hiểu → OMEGA Ω 📐
💥 Chúng tôi phát hiện rằng mặc dù rất mạnh mẽ, RL gặp khó khăn trong việc kết hợp các kỹ năng và đổi mới các chiến lược mới mà không được thấy trong quá trình đào tạo. 👇
làm việc với @UCBerkeley @allen_ai
Một chuỗi về những gì chúng tôi đã học được 🧵

🤯 Chúng tôi nhận thấy rằng nhiều thất bại không xuất phát từ việc thiếu kiến thức mà từ việc suy nghĩ quá nhiều. Các mô hình thường tìm ra câu trả lời đúng sớm trong CoT, nhưng lại rơi vào vòng tự sửa chữa và từ bỏ các giải pháp đúng. Điều này thách thức giả định:
Nhiều CoT ≠ kết quả tốt hơn
Đôi khi, các cơ chế tự sửa chữa của mô hình có thể vô tình phản tác dụng.

🔁 Liệu RL có thể tổng quát hiệu quả từ các vấn đề dễ đến khó không? Chúng tôi thấy có sự cải thiện mạnh mẽ ở giai đoạn đầu, nhưng khả năng tổng quát dừng lại khi độ phức tạp của nhiệm vụ tăng lên.
Đào tạo trên các cấp độ 1–4 mang lại sự tăng cường vững chắc cho các vấn đề trong miền, ví dụ như ở cấp độ 1 (📈 0.45 → 0.80 sau RL).
NHƯNG khi chúng tôi tăng độ khó
📉 hiệu suất giảm trên cùng một loại vấn đề.
⚠️ Có giới hạn cho việc các chiến lược đã học có thể kéo dài đến đâu.

🧠 Tổng quát biến đổi?
Vẫn ngoài tầm với. khi thành công phụ thuộc vào việc phát minh một chiến lược giải pháp mới (ví dụ: đối xứng thông minh thay vì sức mạnh thô bạo), các mô hình thường xuyên thất bại ngay cả sau khi RL.
RL có thể nâng cao đáng kể hiệu suất trong các nhiệm vụ theo các mẫu quen thuộc được quan sát trong quá trình đào tạo, nhưng gặp khó khăn khi thành công phụ thuộc vào cái nhìn sáng tạo hoặc các chiến lược lý luận không được thể hiện rõ ràng trong dữ liệu.

170,17K
Hàng đầu
Thứ hạng
Yêu thích