Live AI Wire

วงการ AI เปลี่ยนวิธีวัดความสามารถ Model — จากเบนช์มาร์กไปสู่งานจริง

ชุมชน AI กำลังเลิกพึ่งเบนช์มาร์กแบบเดิม ๆ แล้วเปิดตัววิธีประเมินใหม่ที่ใกล้เคียงกับงานจริง OpenAI ออกคู่มือสำหรับการประเมินจากบุคคลที่สาม Hugging Face เปิดตัว EVA-Bench 2.0 (121 เครื่องมือ 213 สถานการณ์) และ ITBench-AA ที่วัดงาน IT ระดับองค์กร ขณะที่ arXiv มีการเสนอเมตริกใหม่สำหรับระบบที่มีความไม่แน่นอน และการประเมินแบบ open-world ที่ยาวนาน ยุ่งเหยิง เหมือนสภาพจริง

05 มิ.ย. 2569 06:09 4 แหล่งข่าว AI สรุปภาษาไทย

arXiv — cs.AIOpenAI BlogHugging Face BlogLatent.Space

วงการ AI เปลี่ยนวิธีวัดความสามารถ Model — จากเบนช์มาร์กไปสู่งานจริง

ประเด็นที่ควรจับตา

Join Our Free Trial