Live AI Wire

14 เบนช์มาร์กใหม่วัดความสามารถ AI Agent ในงานจริง ยาวนาน และซับซ้อน

ชุดวิจัยใหม่จาก arXiv เน้นปัญหาที่ benchmark เดิมพลาด: AI agent ต้องทำงานหลายชั่วโมง รู้เวลาไหนต้องรอ เวลาไหนต้องทำ จัดการข้อมูลที่ยุ่ง และรู้เมื่อควรปฏิเสธงาน งานวิจัยเหล่านี้สร้าง SentinelBench, ALE, Curation-Bench, DeskCraft และอื่นๆ เพื่อวัดความสามารถเหล่านี้จริงๆ พร้อมเปิดปัญหา hallucination ที่ลุกลามข้ามขั้นตอน และ compliance bias ที่ agent ทำงานแม้ไม่ควร

05 มิ.ย. 2569 12:08 1 แหล่งข่าว AI สรุปภาษาไทย

arXiv — cs.AI

ประเด็นที่ควรจับตา

Benchmark เดิมวัดแค่ \"ทำได้หรือไม่\" ไม่วัด \"ควรทำหรือไม่\" และ \"รอหรือทำ\" ในงานจริง
ปัญหา cascading hallucination: ข้อผิดพลาดตั้นต้นลุกลามและขยายตัวข้ามหลายขั้นตอน agent
Agent มีแนวโน้มทำงานแม้ไม่มีข้อมูลหรือสิทธิพอ (compliance bias) เพราะ reward signal ชักนำให้ทำ

14 เบนช์มาร์กใหม่วัดความสามารถ AI Agent ในงานจริง ยาวนาน และซับซ้อน

ประเด็นที่ควรจับตา

Join Our Free Trial