Presentan Vidu, primer modelo chino de IA de texto a video a nivel de Sora

Por DIARIO DEL PUEBLO digital | el 28 de abril de 2024 | 14:30

Lanzamiento de Vidu, nuevo modelo chino de IA de texto a video, durante el Foro Zhongguancun 2024, 27 de abril del 2024. (Foto: Cortesía del Foro Zhongguancun)

Lanzamiento de Vidu, nuevo modelo chino de IA de texto a video, durante el Foro Zhongguancun 2024, 27 de abril del 2024. (Foto: Cortesia del Foro Zhongguancun)

La empresa tecnologica china ShengShu-AI y la Universidad de Tsinghua presentaron este sabado el modelo de inteligencia artificial (IA) de texto a video, del que se afirma que es el primero en China que esta a nivel de Sora. Vidu es otra manifestacion del rapido desarrollo de China en el campo emergente de la IA critica.

Lanzado en el Foro Zhongguancun, que se celebra en Beijing, Vidu puede generar un videoclip de 1080P y 16 segundos con un solo clic. Se basa en una arquitectura de modelo de transformacion visual de desarrollo propio llamada Universal Vision Transformer (U-ViT) que integra dos modelos de IA de texto a video de Diffusion y Transformer.

El modelo de texto a video de IA se produjo casi dos meses despues de que Sora, del estadounidense OpenAI, se anunciara con gran fanfarria por todo el mundo.

"Despues del lanzamiento de Sora, descubrimos que se alineaba estrechamente con nuestra hoja de ruta tecnica, lo que nos motivo aun mas a avanzar en nuestra investigacion con determinacion", indico en el foro Zhu Jun, vicedecano del Instituto de Inteligencia Artificial de la Universidad de Tsinghua y cientifico jefe de ShengShu-AI.

La tecnologia central de U-ViT fue propuesta por primera vez en septiembre de 2022 por el equipo de investigacion de Vidu, antes que la arquitectura modelo de Sora de DiT - Diversity in Transformation, que es la primera arquitectura de modelo de transformacion visual del mundo que combina las ventajas de Diffusion y Transformer.

Durante una demostracion en vivo ocurrida este sabado, Vidu pudo simular el mundo fisico real y generar escenas con detalles complejos en linea con las leyes fisicas reales, como efectos razonables de luz y sombra y expresiones faciales delicadas. Tambien puede generar tomas dinamicas complejas, en lugar de fijas.

Vidu tambien tiene un gran conocimiento de las singularidades chinas y puede generar imagenes de caracteres chinos unicos como pandas y loong.

(Web editor: Zhao Jian, 周雨)