รับ Brief ฟรี
← กลับไป Wire

Live AI Wire

วิจัยใหม่เปิดปัญหา On-Policy Distillation — วิธีฝึก LLM ที่ได้รับความนิยม แต่ไม่เสถียร

กลุ่มวิจัยเผยว่า On-Policy Distillation (OPD) และ On-Policy Self-Distillation (OPSD) — เทคนิคฝึก LLM ยอดนิยมที่ให้ supervision ที่หนาแน่นในระดับ token — มีปัญหาเสถียรภาพและการเสื่อมคุณภาพที่ไม่คาดคิด บทความหลายฉบับเสนอแนวทางแก้ไข เช่น CAST ที่ใช้ advantage flipping และ Feedback Distillation ที่ฝึกให้ model จับคู่กับ feedback จาก LLM อื่น นอกจากนี้ยังพบว่า safety alignment ของ LLM ไม่เสถียร — fine-tuning แม้แต่ตัวอย่างเล็กน้อยก็อาจลบล้างพฤติกรรมความปลอดภัยที่เรียนรู้มาแล้ว

05 มิ.ย. 2569 12:07 1 แหล่งข่าว AI สรุปภาษาไทย
arXiv — cs.AI

ประเด็นที่ควรจับตา

  • เรื่องนี้ยังอยู่ในสถานะข่าวสด อ่านเป็นสัญญาณก่อน แล้วรอ Insiderly คัดต่อเป็น Brief หรือบทความเมื่อมีน้ำหนักพอ