Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
As arquiteturas atuais do AI Agent (ReAct, Plan-then-Act, etc.) produzem muitas respostas incorretas.
Nosso novo benchmark confirma isso, avaliando 5 arquiteturas populares de agentes em perguntas e respostas multi-hop.
Em seguida, adicionamos pontuação de confiança em tempo real a cada um, o que reduziu as respostas incorretas em todos os tipos de agentes: de Act em 56%, de ReAct (Zero-shot) em 56%, de ReAct (Few-shot) em 16%, de PlanAct em 25% e de PlanReAct em 10%.
Se você não puder tolerar erros de IA, a pontuação de confiança funcionará para qualquer agente de IA e terá apenas algumas linhas de código.
Confira o benchmark completo aqui:

5,52K
Melhores
Classificação
Favoritos