AI Updates Google เปิดตัวโมเดล AI สร้างวิดีโอตัวใหม่ ชื่อ Lumiere
Jan 26, 2024

เป็นโมเดล AI สร้างวิดีโอในระดับ state-of-the-art สุดๆ ชื่อว่า Lumiere
จากเดิมที Google มีตัวสร้างวิดีโอที่ชื่อว่า VideoPoet อยู่แล้ว VideoPoet – Google Research A Large Language Model for Zero-Shot Video Generation. VideoPoet demonstrates simple modeling method that can convert any autoregressive language model into a high quality video generator. Imagen Video High-definition video Generation with Diffusion Models แต่ Lumiere ออกมา นี่ดูเจ๋งกว่าตัวเดิมมาก สามารถสร้าง Short-form Video คุณภาพสูงได้เลย ข้อมูลเบื้องต้น Lumiere ถูกเทรนด้วยชุดข้อมูลเป็นวิดีโอกว่า 30 ล้านวิดีโอ ความยาว 80 เฟรม พร้อมการใส่ text caption เข้าไปเพื่อฝึกมัน สามารถสร้างวิดีโอได้ 16 เฟรม ต่อวินาที ซึ่งไม่มีการบอกว่าเอาวิดีโอ 30 ล้านวิดีโอนี่ มีแหล่งที่มาจากไหนเหมือนกัน ผลงานนี้ เป็นงานวิจัยร่วมกันระหว่างทีมงาน Google Research และมหาวิทยาลัยชั้นนําด้านเทคโนโลยีของอิสราเอล คือ Technion - Israel Institute of Technology Weizmann Institute of Science และ มหาวิทยาลัย Tel Aviv Lumiere มีฟีเจอร์เด็ดอยู่ 4 อย่าง คือ Video Editing หรือการแก้ไขวิดีโอ - แก้ได้ด้วยการ Prompt คําสั่งเข้าไปเลย (ง่ายแต่เทพมาก) Stylized Generation - สามารถสร้างวิดีโอจาก reference ที่เราให้ได้เลย (ให้ ref เป็นรูปภาพหรือวิดีโอก็ได้) - โมเดลจะเรียนรู้สไตล์ที่ใส่ไป แล้วสร้างวิดีโอออกมาใช้สไตล์นั้น เทพไปอีกกกกก’
Image & Text to Video - ไม่ใช่แค่ใส่ Prompt เป็นข้อความนะ โยนรูปภาพใส่เข้าไป มันเจนเป็นวิดีโอให้โดยใช้รูปนั้นอีก เช่น โยนรูปเราหน้านิ่งๆเข้าไป แล้วสั่งให้มันสร้างรูปเรากําลังหัวเราะ มันทําได้ เทพเกินไปละ Cinemagraphs - สามารถเลือกแค่บางส่วนของรูปภาพนั้น แล้วทําให้มันเคลื่อนไหวเป็นวิดีโอได้ แหล่งข้อมูล ข้อมูลทั้งหมดนี้ เป็นงานวิจัยของ Google ที่เผยแพร่ลงใน GitHub Lumiere - Google ResearchSpace-Time Text-to-Video diffusion model by Google Research.lumiere-video.github.io Paper งานวิจัย https://arxiv.org/abs/2401.12945 หนึ่งในนักวิจัย ชื่อ Hila Chefer จากมหาวิทยาลัย Tel Aviv เป็นคนโพสต์ลงใน X แนะนําเว็บไซต์และ Newsletter อื่นๆที่น่าสนใจ
อ่านฟรีให้ตามทัน สมัครสมาชิกเมื่ออยากตัดสินใจให้คมขึ้น
บทความเปิดให้อ่านได้ตามปกติ ส่วนสมาชิกจะได้ brief เชิงลึก คลังย้อนหลัง และมุมวิเคราะห์สำหรับใช้คุยงานกับทีม