Exalumnos de Google DeepMind y TikTok han desarrollado una nueva herramienta de inteligencia artificial (IA) generativa que es capaz de crear vídeos de dos segundos a partir de descripciones de texto breves en calidad HD, con un funcionamiento similar a Sora.
Sora es una herramienta creada por OpenAI que puede crear escenas realistas de vídeo de hasta 60 segundos a partir de instrucciones de texto, con un resultado detallado, un movimiento de cámara complejo y múltiples personajes con emociones.
Exalumnos de los equipos de desarrollo de Google DeepMind, TikTok y de otros laboratorios de investigación del mundo académico han desarrollado una herramienta que ofrece funciones similares a Sora de manera gratuita.
Dos de sus desarrolladores, Yishu Miao y Ziyu Wang, han explicado en una entrevista para TechCrunch que comenzaron a trabajar en esta empresa, Haiper, en 2021 para lanzarla en 2022, apostando inicialmente por la reconstrucción 3D utilizando redes neuronales.
Sin embargo, en sus investigaciones descubrieron que les interesaba más la generación de vídeo, por lo que terminaron desarrollando diferentes funcionalidades de IA generativa, entre las que se encuentra una solución que permite crear vídeos en alta calidad (HD) a partir de breves descripciones de texto.
Para utilizar esta herramienta, se debe acceder con una cuenta de Google o de Discord, momento en que se presentan las diferentes opciones de generación de contenido de Haiper: desde esta última novedad hasta animar una imagen o volver a pintar el vídeo, entre otras opciones.
Al escoger la opción de crear vídeo con texto, se abre una ventana en la que se debe describir “cualquier vídeo” que se pueda imaginar con texto, momento en el que se muestran sugerencias temáticas para los vídeos. Por ejemplo, ‘Steampunk’, ‘Lego’ o ‘Impresionismo’.
Junto al botón de ‘Crear’, que se debe pulsar al introducir la descripción del texto, se sitúan otras dos opciones. La primera de ellas muestra el icono de un ojo y permite a los usuarios decidir si crear sus vídeos para verlos en privado o mostrarlos en público, para que otros usuarios puedan visualizarlos a través del botón ‘Explorar’.
Asimismo, se presenta un botón que permite elegir la duración del vídeo. Por el momento, este puede ser de dos segundos, aunque la compañía ya trabaja en el formato de cuatro segundos, que llegará “muy pronto”, según indica la página de la herramienta.
Planes futuros de Haiper
Los investigadores han reconocido en la entrevista con TechCrunch que, a pesar de que Haiper se centra en un sitio web orientado al consumidor, esperan construir un modelo central de generación de vídeo que se pueda ofrecer a terceros.
Para ello, han comenzado a trabajar con otro grupo de desarrolladores, a fin de probar su interfaz de programación de aplicaciones (API, por sus siglas en inglés) cerrada. Asimismo, han considerado publicar el código fuente de sus modelos para permitir que los usuarios exploren diferentes casos de uso de la IA.
Con información de Europa Press