Live AI Wire

วิจัยใหม่เปิดปัญหา On-Policy Distillation — วิธีฝึก LLM ที่ได้รับความนิยม แต่ไม่เสถียร

กลุ่มวิจัยเผยว่า On-Policy Distillation (OPD) และ On-Policy Self-Distillation (OPSD) — เทคนิคฝึก LLM ยอดนิยมที่ให้ supervision ที่หนาแน่นในระดับ token — มีปัญหาเสถียรภาพและการเสื่อมคุณภาพที่ไม่คาดคิด บทความหลายฉบับเสนอแนวทางแก้ไข เช่น CAST ที่ใช้ advantage flipping และ Feedback Distillation ที่ฝึกให้ model จับคู่กับ feedback จาก LLM อื่น นอกจากนี้ยังพบว่า safety alignment ของ LLM ไม่เสถียร — fine-tuning แม้แต่ตัวอย่างเล็กน้อยก็อาจลบล้างพฤติกรรมความปลอดภัยที่เรียนรู้มาแล้ว

05 มิ.ย. 2569 12:07 1 แหล่งข่าว AI สรุปภาษาไทย

arXiv — cs.AI

วิจัยใหม่เปิดปัญหา On-Policy Distillation — วิธีฝึก LLM ที่ได้รับความนิยม แต่ไม่เสถียร

ประเด็นที่ควรจับตา

Join Our Free Trial