Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Chúa ơi… Stanford vừa chỉ ra lý do tại sao LLM nghe có vẻ thông minh nhưng vẫn thất bại ngay khi thực tế phản kháng.
Bài báo này giải quyết một chế độ thất bại tàn khốc mà mọi người xây dựng tác nhân đều đã thấy: cho một mô hình một nhiệm vụ không được xác định rõ và nó vui vẻ tưởng tượng ra những phần thiếu, tạo ra một kế hoạch trông có vẻ trôi chảy nhưng sụp đổ khi thực hiện.
Nhận thức cốt lõi rất đơn giản nhưng tàn phá cho các phương pháp chỉ dựa vào prompt: lý luận bị phá vỡ khi các điều kiện tiên quyết không rõ ràng. Và hầu hết các nhiệm vụ trong thế giới thực đều đầy rẫy những điều không biết.
Giải pháp của Stanford được gọi là Lập kế hoạch Phân loại Hai chiều Tự truy vấn (SQ-BCP), và nó buộc các mô hình ngừng giả vờ rằng chúng biết những điều mà chúng không biết.
Thay vì giả định các sự thật thiếu, mỗi hành động theo dõi rõ ràng các điều kiện tiên quyết của nó như sau:
• Được thỏa mãn
• Bị vi phạm
• Không rõ
Không rõ là chìa khóa. Khi mô hình gặp một điều không rõ, nó không được phép tiếp tục.
Nó phải:
1. Đặt một câu hỏi có mục tiêu để giải quyết sự thật thiếu
hoặc
2. Đề xuất một hành động cầu nối để thiết lập điều kiện trước (đo, kiểm tra, chuẩn bị, v.v.)
Chỉ sau khi tất cả các điều kiện tiên quyết được giải quyết, kế hoạch mới có thể tiếp tục.
Nhưng đây là bước đột phá thực sự: các kế hoạch không được chấp nhận chỉ vì chúng trông gần với mục tiêu.
Chúng chỉ được chấp nhận nếu chúng vượt qua một bước xác minh chính thức sử dụng các kiểm tra pullback lý thuyết danh mục. Điểm tương đồng chỉ được sử dụng để xếp hạng, không bao giờ cho độ chính xác.
...

Hàng đầu
Thứ hạng
Yêu thích
