El final del año 2022 se vio marcado por el inicio de la era de la inteligencia artificial para el mundo, una tecnología en la que se venía trabajando hace décadas, pero que hasta ese momento se cristalizó como una verdadera posibilidad para el ser humano.
Chat GPT fue la primera marca que se dio a conocer en el mundo y ahora pertenece a Microsoft. Es un chatbot de inteligencia artificial abierta especializado en diálogo. Aunque ya no es el único, el hecho de haber sido el primero en darse a conocer le permitió posicionarse como una gran opción.
Como respuesta al auge de Chat GPT se desarrolló desde Google (filial de Alphabet) la opción de inteligencia artificial abierta, Google Bard, en marzo de 2023 se lanzó de forma limitada y en mayo de 2023 se lanzó oficialmente. Sin embargo, poco a poco ha ido ganando terreno sobre su competencia original.
La diferencia
Una de las funciones de Google Bard que ha marcado la diferencia es la de interpretar imágenes. La aplicación de Google permite adjuntar un enlace a una imagen y en el corto plazo permitirá adjuntarla, para que la aplicación realice una descripción textual de la fotografía.
De acuerdo con el portal Xatacandroid, la aplicación otorga descripciones muy detalladas de las imágenes, una función que de hecho puede ser muy útil para las personas con visión limitada, eso sí, como muchos adelantos de la inteligencia artificial, en algunos puntos la aplicación describe información que no es del todo acorde con la imagen.
La otra característica que marca la diferencia entre ambas aplicaciones es la de respuestas por voz, una función útil también para quienes tienen visión limitada, así como para quienes no quieran o puedan detenerse a leer toda una respuesta.
Meta entra a la pelea
El pasado viernes 14 de julio, Meta anunció el lanzamiento de su propia herramienta de inteligencia artificial, creada para producir texto a partir de una imagen y viceversa.
La herramienta se conoció con el nombre de CM3leon, el primer modelo de IA generativa diseñada a partir de un lenguaje multimodal.
Mark Zuckerberg, líder de la compañía, ha optado por explorar estos modelos generativos de inteligencia artificial que poco a poco se han ido incorporando en el procesamiento de lenguaje natural, ya que puede comprender tanto imágenes como textos.
Las técnicas avanzadas de aprendizaje automático son utilizadas en estas herramientas de IA con el fin de que aprendan a interpretar correctamente lo requerido por el usuario.
En este sentido, CM3leon se estrena con cinco veces menos recursos que los modelos anteriores; pese a esto, es capaz de ofrecer el más alto rendimiento en cada uno de sus resultados.
CM3leon
Meta indicó en su blog oficial que la nueva herramienta tiene la capacidad para producir imágenes más coherentes y detalladas al seguir las indicaciones de entrada. Son diversas las tareas que la IA puede realizar.
Texto a imagen: a partir de un texto en específico el usuario podrá obtener una representación visual de este. La descripción de la imagen debe ser completamente detallada y con las composiciones exactas para obtener los resultados esperados.
Generación y edición de imágenes guiadas por texto: esta actividad puede ser un desafío cuando se trata de objetos complejos o cuando la solicitud del usuario no incluye los detalles suficientes. Para ello debe ser muy descriptivo con lo que desea y con los cambios que quiera realizarle a la imagen.
Tareas de texto: este modelo de IA puede generar subtítulos, descripciones largas y cortas, según las indicaciones del usuario. Asimismo, usted podrá darle instrucciones a la IA sobre la generación de subtítulos de imágenes y respuestas a preguntas visuales.
Edición de imágenes: la edición de imágenes es guiada por una estructura que implica no solo las indicaciones textuales, sino también la información de diseño que requiere. De este modo, la herramienta le brinda las ediciones visualmente coherentes.