Tecnología
Después de lanzar a Sora, OpenAI revela otra ‘arma’ con IA para enfrentarse a Google
Sora es la innovadora IA que permite la creación de videos con escenas “altamente detalladas”.
La compañía tecnológica OpenAI está desarrollando un nuevo buscador, impulsado por inteligencia artificial (IA) y por el motor de búsqueda desarrollado por Microsoft, Bing, que competirá directamente con el producto de Google.
Microsoft y la compañía dirigida por Sam Altman mantiene una alianza que permite desde hace meses introducir la función ‘Examinar con Bing’ en ChatGPT, mientras que este buscador está potenciado por el ‘chatbot’ de OpenAI.
La firma deshabilitó esta característica, disponible en la versión Plus de ChatGPT, al poco de su lanzamiento. El motivo fue que, al tener acceso a internet, algunos usuarios la utilizaron para ingresar a contenido de medios de comunicación eludiendo sus muros de pago.
Los creadores de esta herramienta de inteligencia artificial trabajan ahora en un nuevo proyecto de búsqueda web con el que pretenden competir con el motor de búsqueda de Google, tal y como ha adelantado recientemente The Information.
Este medio ha señalado que este servicio estaría parcialmente impulsado por Bing y por la IA, lo que sugiere que sería una evolución de la mencionada característica ‘Navegar con Bing’, según ha matizado Wired.
Por el momento, se desconoce si el buscador en el que trabaja OpenAI será independiente de ChatGPT o si formará parte de esta herramienta conversacional y de generación de texto.
Sora, un nuevo modelo de IA que crea videos realistas con base a un texto
OpenAI ha presentado Sora, su nuevo modelo impulsado por Inteligencia Artificial (IA) generativa, capaz de crear escenas realistas de vídeo de hasta 60 segundos a partir de instrucciones de texto, con un resultado detallado, un movimiento de cámara complejo y múltiples personajes con emociones.
Con esta innovación, la compañía estadounidense pretende continuar avanzando en las capacidades de la IA, en concreto, entrenando modelos que ayuden a las personas a resolver problemas que requieran interacción con el mundo real. Para ello, ha estado trabajando en formas de enseñar a la IA a comprender y simular el mundo físico en movimiento.
Así, tal y como ha detallado la compañía en su web y ha compartido a través de una publicación en X (antigua Twitter), Sora permite la creación de vídeos con escenas “altamente detalladas”, así como con un movimiento de cámara “complejo” y la integración de múltiples personajes que, incluso, muestran emociones.
Introducing Sora, our text-to-video model.
— OpenAI (@OpenAI) February 15, 2024
Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W
Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
Para la creación de estos vídeos, los usuarios tan solo deberán escribir una serie de indicaciones detallando qué características tiene que incluir la escena, como los personajes y las acciones que llevarán a cabo, el entorno, el clima, y los movimientos de cámara que se deban recrear.
En concreto, la compañía dirigida por Sam Altman ha subrayado que el modelo puede llevar a cabo escenas tan precisas porque no solo comprende lo que el usuario solicita en sus indicaciones de texto, sino que también es capaz de comprender cómo existen esas cosas en el mundo físico.
Siguiendo esta línea, se ha de tener en cuenta su amplio conocimiento del lenguaje, lo que permite que Sora interprete todas las indicaciones de texto con “precisión”, por ejemplo, creando personajes realistas que expresan “emociones vibrantes”.
Incluso, Sora es capaz de generar un vídeo a partir de una imagen fija existente, animando el contenido de la imagen con precisión y sin perder detalle. De la misma forma, también permite alargar la duración de un vídeo existente o completar algunos fotogramas.
En cuanto a su funcionamiento, Sora genera un vídeo a partir de otros vídeos que, según OpenAI, parecen “ruido estático”. De esta manera, el modelo lo transforma gradualmente eliminando el ruido en muchos pasos, hasta llegar a la visualización de las imágenes realistas.
Asimismo, al igual que los modelos GPT, utiliza una “arquitectura de transformador” con la que, según la compañía, se desbloquea un rendimiento de escalado superior. Concretamente, las imágenes del vídeo se representan como “colecciones de unidades de datos más pequeñas”, a las que se refiere como parches. Así, cada parche es el equivalente a un token en GPT.
Prompt: “A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. she wears a black leather jacket, a long red dress, and black boots, and carries a black purse. she wears sunglasses and red lipstick. she walks confidently and casually.… pic.twitter.com/cjIdgYFaWq
— OpenAI (@OpenAI) February 15, 2024
Por el momento, el uso del nuevo modelo solo está disponible para los miembros del equipo rojo de OpenAI, el equipo dedicado a la investigación del servicio, de cara a ponerlo a prueba y comprobar qué fallos presenta y cuáles son sus posibles riesgos.
Con información de Europa Press