Live AI Wire
14 เบนช์มาร์กใหม่วัดความสามารถ AI Agent ในงานจริง ยาวนาน และซับซ้อน
ชุดวิจัยใหม่จาก arXiv เน้นปัญหาที่ benchmark เดิมพลาด: AI agent ต้องทำงานหลายชั่วโมง รู้เวลาไหนต้องรอ เวลาไหนต้องทำ จัดการข้อมูลที่ยุ่ง และรู้เมื่อควรปฏิเสธงาน งานวิจัยเหล่านี้สร้าง SentinelBench, ALE, Curation-Bench, DeskCraft และอื่นๆ เพื่อวัดความสามารถเหล่านี้จริงๆ พร้อมเปิดปัญหา hallucination ที่ลุกลามข้ามขั้นตอน และ compliance bias ที่ agent ทำงานแม้ไม่ควร
arXiv — cs.AI