Tecnología

Crean temible chatbot capaz de hackear a ChatGPT y Bard para que generen contenidos peligrosos

Existen varias preocupaciones sobre las debilidades de la IA.

Redacción Tecnología
4 de enero de 2024
Aparece nueva IA que busca enloquecer a otras inteligencias artificiales.
Aparece un nuevo chatbot que podría enloquecer a ChatGPT y otras inteligencias artificiales. | Foto: Ilustración creada con la IA de Bing Image Creator

Un grupo de investigadores ha creado un ‘bot’ que emplea la técnica conocida como ‘jailbreaking’ sobre herramientas de inteligencia artificial (IA) generativa como Google Bard y ChatGPT de OpenAI para lograr que estos generen contenido poco ético y fuera de los límites legítimos establecidos por sus desarrolladores.

Científicos informáticos de la Universidad Tecnológica de Nanyang de Singapur, dirigidos por el profesor de la Escuela de Ingeniería y Ciencias de la Computación Liu Yang, han descubierto cómo comprometer ‘chatbots’ como Microsoft Bing Chat, según han explicado en un informe.

Para ello, han empleado el llamado ‘jailbreaking’ (traducido en español como ‘fuga de la cárcel’), contra sus modelos de lenguaje grande (LLM), que son los que impulsan estos ‘chatbots’ y les permiten mantener conversaciones más naturales y coherentes con los usuarios.

El ‘jailbreaking’ consiste en romper algunas de las limitaciones del sistema operativo mediante un ‘kernel’ modificado para poder acceder al control completo del sistema. Esto es posible porque los ciberdelincuentes analizan el código del ‘software’ y buscan posibles vulnerabilidades para acceder a él.

'God in a Box', implementación de ChatGPT 3.5 se puede utilizar para mantener conversaciones e interactuar con esta plataforma desde la aplicación de mensajería.
ChatGPT ha sufrido varios cambios en los últimos años | Foto: Europa Press via Getty Images

Esto quiere decir que, una vez se han hecho con el control de este, los actores maliciosos pueden modificar la finalidad de los sistemas comprometidos y, en el caso de los ‘chatbots’, ejecutar directrices que sus desarrolladores prohibieron “deliberadamente”, lo que puede dar como resultado la generación de contenido inapropiado, según este análisis.

Para llegar a esta conclusión y lograr desestabilizar el funcionamiento natural de ‘chatbots’ como ChatGPT o Bard, los investigadores adoptaron un procedimiento que han denominado Masterkey (‘clave maestra’, en español).

Con él, estudiaron el funcionamiento legítimo de estas herramientas de IA, esto es, el modo en que los LLM detectaban y eludían consultas con fines maliciosos, aplicando métodos de ingeniería inversa y haciendo justo lo contrario, es decir, generar contenido inicialmente restringido.

ChatGPT
Ilustración de la inteligencia artificial ChatGPT. | Foto: Future Publishing via Getty Imag

Con esa información, crearon otro ‘chatbot’ y enseñaron a su LLM a ejecutar ‘jailbreak’ a los ‘chatbots’ comprometidos. O lo que es lo mismo, a aprender y producir automáticamente una serie de indicaciones capaces de sortear los sistemas de defensa y control de sus LLM.

Para lograr que los ‘chatbots’ generasen contenido inapropiado, los investigadores hicieron trampas, como proporcionar indicaciones que contenían espacios después de cada caracter de forma manual u ordenar al ‘chatbot’ a responder “sin reservas ni restricciones morales” a ciertas peticiones, lo que aumentó las posibilidades de generar contenido poco ético.

ChatGPT ha abierto un mundo de oportunidades para mejorar la calidad de la educación en el mundo.
ChatGPT ha abierto un mundo de oportunidades en diferentes campos | Foto: Getty Images/iStockphoto

Asimismo, advirtieron que era posible automatizar este proceso para ejecutar ‘jailbreak’ sobre los otros ‘chatbots’ comprometidos. Esto, a pesar de que sus desarrolladores implementasen diferentes parches de seguridad para corregir fallas y evitar acciones maliciosas.

Para este equipo de científicos, Masterkey logra borrar el “ciclo interminable del gato y el ratón, esto es, entre hacker y desarrollador” en la implementación de correcciones y parches, debido a que este método “puede producir un gran volumen de indicaciones y aprender continuamente qué funciona y qué no, lo que permite a los ciberdelincuentes vencer a los desarrolladores de los LLM en su propio juego y con sus propias herramientas”.

Asimismo, considera que sus hallazgos “pueden ser fundamentales para ayudar a las empresas a ser conscientes de las debilidades” de sus herramientas de IA generativa y tomar medidas para fortalecerlas contra ataques informáticos de este tipo.

Con información de Europa Press