Live AI Wire
วิจัยใหม่เปิดปัญหา On-Policy Distillation — วิธีฝึก LLM ที่ได้รับความนิยม แต่ไม่เสถียร
กลุ่มวิจัยเผยว่า On-Policy Distillation (OPD) และ On-Policy Self-Distillation (OPSD) — เทคนิคฝึก LLM ยอดนิยมที่ให้ supervision ที่หนาแน่นในระดับ token — มีปัญหาเสถียรภาพและการเสื่อมคุณภาพที่ไม่คาดคิด บทความหลายฉบับเสนอแนวทางแก้ไข เช่น CAST ที่ใช้ advantage flipping และ Feedback Distillation ที่ฝึกให้ model จับคู่กับ feedback จาก LLM อื่น นอกจากนี้ยังพบว่า safety alignment ของ LLM ไม่เสถียร — fine-tuning แม้แต่ตัวอย่างเล็กน้อยก็อาจลบล้างพฤติกรรมความปลอดภัยที่เรียนรู้มาแล้ว
arXiv — cs.AI