Live AI Wire
วงการ AI เปลี่ยนวิธีวัดความสามารถ Model — จากเบนช์มาร์กไปสู่งานจริง
ชุมชน AI กำลังเลิกพึ่งเบนช์มาร์กแบบเดิม ๆ แล้วเปิดตัววิธีประเมินใหม่ที่ใกล้เคียงกับงานจริง OpenAI ออกคู่มือสำหรับการประเมินจากบุคคลที่สาม Hugging Face เปิดตัว EVA-Bench 2.0 (121 เครื่องมือ 213 สถานการณ์) และ ITBench-AA ที่วัดงาน IT ระดับองค์กร ขณะที่ arXiv มีการเสนอเมตริกใหม่สำหรับระบบที่มีความไม่แน่นอน และการประเมินแบบ open-world ที่ยาวนาน ยุ่งเหยิง เหมือนสภาพจริง
arXiv — cs.AIOpenAI BlogHugging Face BlogLatent.Space