Vay canına... Stanford, LLM'lerin neden akıllı göründüğünü ama gerçeklik geri adım attığı anda yine de başarısız olduğunu gösterdi. Bu makale, bina ajanlarının gördüğü acımasız bir başarısızlık modunu ele alıyor: bir modele az belirtilmiş bir görev verin, model eksik parçaları mutlu bir şekilde halüsinasyon haline getiriyor, akıcı görünen ve uygulamada çöken bir plan ortaya çıkıyor. Temel içgörülü basit ama sadece prompt tabanlı yaklaşımlar için yıkıcıdır: önkoşullar bilinmediğinde akıl yürütme bozulur. Ve gerçek dünya görevlerinin çoğu bilinmeyenlerle dolu. Stanford'un çözümü Kendi Sorgulayan İki Yönlü Kategorik Planlama (SQ-BCP) olarak adlandırılır ve modelleri bilmedikleri şeyleri biliyormuş gibi yapmayı bırakmaya zorluyor. Eksik gerçekleri varsaymak yerine, her eylem ön koşullarını açıkça şu şekilde takip eder: • Memnun • İhlal edildi • Bilinmiyor Bilinmeyen anahtardır. Model bilinmeyen bir noktaya ulaştığında, devam etmesine izin verilmiyor. Ya şunları yapması gerekir: 1. Eksik olan gerçeği çözmek için hedefli bir soru sorun veya 2. Önce koşulu belirleyen bir köprüleme eylemi önerin (ölç, kontrol et, hazırla vb.) Tüm ön koşullar çözüldükten sonra plan devam edebilir. Ama asıl atılım şu: planlar kabul edilmiyor çünkü hedefe yakın görünüyorlar. Sadece kategori teorik geri çekim kontrolleriyle resmi bir doğrulama adımını geçerlerse kabul edilirler. Benzerlik puanları sadece sıralama için kullanılır, doğruluk için değil. ...