Google anunció recientemente el lanzamiento de la primera versión (1.0) de Gemini, una Inteligencia Artificial (IA) multimodal y flexible que se presenta en tres niveles de uso -Gemini Ultra, Gemini Pro y Gemini Nano- para diferentes aplicaciones, como pueden ser dispositivos o centros de datos.
En marzo de este año, The Information adelantó que el equipo de inteligencia artificial (IA) de Google y DeepMind estaban trabajando en una nueva iniciativa con la que buscaban competir y superar el dominio de la desarrolladora de ChatGPT.
Esta iniciativa, que internamente se conocía como Gemini (Geminis), aunaba ambos equipos dedicados a la IA de Alphabet, matriz de Google para crear un nuevo modelo de IA, de la que no trascendieron datos.
Ahora, Google presentó la primera versión de Gemini (1.0), un modelo de IA que inicia una “nueva era de modelos” y que “representa uno de los mayores esfuerzos de ciencia e ingeniería” de Google, según comentó el CEO de la firma, Sundar Pichai, en un comunicado.
El director ejecutivo y cofundador de Google, DeepMind, Demis Hassabis, comentó que Gemini se ha construido desde cero para ser multimodal de forma nativa, lo que quiere decir que puede comprender, operar y combinar sin problemas distintos tipos de información, “incluidos texto, código, audio, imagen y video”.
Esta IA también se caracteriza por ser flexible, de modo que se puede ejecutar de manera eficiente tanto en centros de datos como en dispositivos móviles, motivo por el que se ha optimizado en tres tamaños diferentes.
Gemini Ultra, por su parte, es el modelo más grande y capaz para dedicarse a tareas altamente complejas. Por otra parte, Google señaló que Gemini Pro es idóneo para escalar en una amplia gama de tareas y que Gemini Nano es el más eficiente para tareas en el dispositivo.
Así es Gemini
Google explicó que el desempeño de Gemini Ultra supera los resultados actuales de última generación en 30 de los 32 puntos de referencia académicos utilizados en la investigación y el desarrollo de modelos de lenguaje grande (LLM, por sus siglas en inglés).
Esta versión de la nueva IA de Google también supera a los expertos humanos en comprensión masiva de lenguajes multitarea (MMLU), con un 90 %, al utilizar una combinación de 57 materias, como matemáticas, física, historia, derecho o medicina.
Adicionalmente, indicó que con los puntos de referencia de imágenes que ha probado para su desarrollo, Gemini Ultra “superó a los modelos de última generación anteriores” sin la ayuda de sistema de reconocimiento óptico de caracteres (OCR), que extraen texto para su posterior procesamiento.
Esta IA también puede extraer información “de cientos de miles de documentos” mediante la lectura, el filtrado y la comprensión de la información, lo que, según la compañía, ayudará a lograr nuevos avances a velocidades digitales en muchos campos, desde la ciencia hasta las finanzas”.
Por el momento, esta primera versión de Gemini puede comprender, explicar y generar código de alta calidad en los lenguajes de programación más populares, como Python, Java C++ y Go. Asimismo, se puede utilizar como motor para sistemas de codificación como AlphaCode 2, que destaca en la resolución de problemas de programación que van más allá de la codificación e involucran matemáticas complejas e informática teórica.
En los próximos meses, Gemini estará disponible en servicios de Google como ‘Búsqueda’, ‘Anuncios’, ‘Chrome’ y ‘Duet AI’, y también se está probando para que la Experiencia Generativa de Búsqueda (SGE) sea más rápida para los usuarios.
A partir del 13 de diciembre, los desarrolladores también podrán acceder a Gemini Pro a través de la API de Gemini en Google AI Studio o Google Cloud Vertex AI.
En cuanto a Gemini Ultra, la firma estadounidense precisó que actualmente está completando “exhaustivas comprobaciones de confianza y seguridad”, entre las que se incluye la formación de equipos externos, así como refinando el modelo a partir del denominado Reinforcement Learning from Human Feedback (RLHF).
*Con información de Europa Press.