Tecnología
Así funciona la inteligencia artificial de Meta para generar imágenes o textos
La compañía explicó que esta solución es resultado de una idea del científico jefe de IA de Meta, Yann LeCun.
Recientemente, se conoció que Meta presentó una nueva herramienta que permite la generación de imágenes y textos con inteligencia artificial (IA) utilizando para ello la predicción de ciertas partes del contenido e imitando el razonamiento humano.
La compañía explicó que esta solución es resultado de una idea del científico jefe de IA de Meta, Yann LeCun, que propuso “una nueva arquitectura destinada a superar las principales limitaciones de los sistemas de IA más avanzados”, según ha puntualizado en un comunicado.
Resultado de su trabajo es el Image Joint Embedding predictive Architecture (I-JEPA), una herramienta que recopila datos del mundo exterior, crea un modelo interno de este y compara representaciones abstractas de imágenes, en lugar de comparar los propios píxeles.
La compañía recordó que los humanos “aprenden una enorme cantidad de conocimientos previos sobre el mundo observándolo de forma pasiva”, un aspecto que considera “clave para posibilitar un comportamiento inteligente”.
Lo más leído
Por eso, el objetivo de este modelo es predecir la representación de una parte de un contenido, como puede ser una imagen o de un texto, a partir del contexto que le ofrezcan otras partes de la composición.
Una vez I-JEPA recoge toda esta información, se encarga de predecir los píxeles ausentes de una imagen o las palabras que no aparecen en un determinado texto, para darle un sentido natural y realista.
Meta ha comentado también que, a diferencia de otras inteligencias artificiales generativas, la suya utiliza “objetivos de predicción abstractos” para los que se eliminan los detalles innecesarios a nivel de píxel, de modo que permita al modelo aprender características semánticas adicionales.
La compañía ha indicado finalmente que continúa trabajando en ampliar el enfoque de esta herramienta a fin de que aprenda modelos “más generales” con base en modalidades más específicas. Por ejemplo, permitiendo hacer predicciones espaciales y temporales sobre acontecimientos futuros con un video a partir de un contexto simple.
Meta no se queda atrás y presenta su inteligencia artificial
Microsoft, con OpenAI y ChatGPT, y Google, con Bard, dieron los primeros golpes sobre la mesa del mundo tecnológico, en especial en la arena de la inteligencia artificial; aunque hay otras compañías que han desarrollado herramientas bastante útiles, estas compañías han acaparado los reflectores por el peso que tienen dentro de la industria.
Todo esto sucedía mientras Meta, casa matriz de Facebook, Instagram y WhatsApp, se ocupaba gastando tiempo e invirtiendo miles de millones de dólares en el metaverso, plan que parece haber pasado a un segundo plano en medio de este revolcón que ha significado la masificación de este nuevo tipo de tecnología en el mundo entero.
De esta forma, la compañía de Mark Zuckerberg presentó ImageBind, su modelo de inteligencia artificial que promete poderosos avances y con el que espera destronar a ChatGPT.
Según la propia compañía, esta herramienta tiene incluido un sistema multisensorial que le permite aprender de la misma forma como lo hacen los seres humanos, pues contiene imágenes, texto, video y audio, insumos que se pueden computar con datos de profundidad, térmicos y de inercia.
“En los sistemas típicos de IA existe una incorporación específica (es decir, vectores de números que pueden representar datos y sus relaciones en el aprendizaje automático) para cada modalidad respectiva. ImageBind muestra que es posible crear un espacio de incorporación conjunto a través de múltiples modalidades, sin necesidad de entrenar en datos con cada combinación diferente de modalidades”, explica la compañía.
La propia Meta ha señalado que su nueva herramienta tiene infinitas posibilidades frente a ChatGPT o MidJourney, ya que ha intentado generar un sistema que le permita obtener información, sobre un mismo objeto, pero desde diferentes perspectivas como su olor, los sonidos que produce, su aspecto, su funcionamiento y sus usos, forma como el ser humano suele asimilar algo nuevo que llega a su vida.
La empresa asegura que ImageBind supera a otros modelos entrenados para una modalidad en particular. A diferencia de las IA generativas como ChatGPT o Midjourney, la alternativa de Meta vincula seis tipos de datos en un índice multidimensional. Los investigadores podrían usar cualquiera de estos como método de entrada, o realizar una referencia cruzada de ellos.
“ImageBind usa la propiedad vinculante de las imágenes, lo que significa que coexisten con una variedad de modalidades y pueden servir como un puente para conectarlas, como vincular texto a imagen usando datos web o vinculando movimiento a video usando datos de video capturados de cámaras portátiles con sensores IMU”, explicó Meta.
*Con información de Europa Press.