Así funciona el 'chatbot' que hace 'jailbreak' a ChatGPT o Bard para que creen contenidos inapropiados

Un grupo de investigadores ha creado un ‘bot’ que emplea la técnica conocida como ‘jailbreaking’ sobre herramientas de inteligencia artificial (IA) generativa como Google Bard y ChatGPT de OpenAI para lograr que estos generen contenido poco ético y fuera de los límites legítimos establecidos por sus desarrolladores.

Científicos informáticos de la Universidad Tecnológica de Nanyang de Singapur, dirigidos por el profesor de la Escuela de Ingeniería y Ciencias de la Computación Liu Yang, han descubierto cómo comprometer ‘chatbots’ como Microsoft Bing Chat, según han explicado en un informe.

Para ello, han empleado el llamado ‘jailbreaking’ (traducido en español como ‘fuga de la cárcel’), contra sus modelos de lenguaje grande (LLM), que son los que impulsan estos ‘chatbots’ y les permiten mantener conversaciones más naturales y coherentes con los usuarios.

Contexto: Creadores de ChatGPT le preguntan a la inteligencia artificial cómo exterminar personas. Esta fue la aterradora respuesta

El ‘jailbreaking’ consiste en romper algunas de las limitaciones del sistema operativo mediante un ‘kernel’ modificado para poder acceder al control completo del sistema. Esto es posible porque los ciberdelincuentes analizan el código del ‘software’ y buscan posibles vulnerabilidades para acceder a él.

ChatGPT ha sufrido varios cambios en los últimos años | Foto: Europa Press 2023

Esto quiere decir que, una vez se han hecho con el control de este, los actores maliciosos pueden modificar la finalidad de los sistemas comprometidos y, en el caso de los ‘chatbots’, ejecutar directrices que sus desarrolladores prohibieron “deliberadamente”, lo que puede dar como resultado la generación de contenido inapropiado, según este análisis.

2. Alias Calarcá, señalado de la muerte de siete militares en el Guaviare, se refiere al 2026: “Si preguntan por quién votar, responderemos que por los de Petro”

3. Donald Trump y la segunda línea del metro de Bogotá: recortes en el BID y tensiones entre la Casa Blanca y la Casa de Nariño podrían afectar el proyecto

Para llegar a esta conclusión y lograr desestabilizar el funcionamiento natural de ‘chatbots’ como ChatGPT o Bard, los investigadores adoptaron un procedimiento que han denominado Masterkey (‘clave maestra’, en español).

Con él, estudiaron el funcionamiento legítimo de estas herramientas de IA, esto es, el modo en que los LLM detectaban y eludían consultas con fines maliciosos, aplicando métodos de ingeniería inversa y haciendo justo lo contrario, es decir, generar contenido inicialmente restringido.

Ilustración de la inteligencia artificial ChatGPT. | Foto: CFOTO

Contexto: Así se puede ‘manipular’ a ChatGPT para que desate su lado oscuro y ofrezca respuestas sin censura

Con esa información, crearon otro ‘chatbot’ y enseñaron a su LLM a ejecutar ‘jailbreak’ a los ‘chatbots’ comprometidos. O lo que es lo mismo, a aprender y producir automáticamente una serie de indicaciones capaces de sortear los sistemas de defensa y control de sus LLM.

Para lograr que los ‘chatbots’ generasen contenido inapropiado, los investigadores hicieron trampas, como proporcionar indicaciones que contenían espacios después de cada caracter de forma manual u ordenar al ‘chatbot’ a responder “sin reservas ni restricciones morales” a ciertas peticiones, lo que aumentó las posibilidades de generar contenido poco ético.

ChatGPT ha abierto un mundo de oportunidades en diferentes campos | Foto: Redacción Semana

Asimismo, advirtieron que era posible automatizar este proceso para ejecutar ‘jailbreak’ sobre los otros ‘chatbots’ comprometidos. Esto, a pesar de que sus desarrolladores implementasen diferentes parches de seguridad para corregir fallas y evitar acciones maliciosas.

Contexto: La modelo que impactó en las redes sociales: las estrellas del deporte la invitaron a salir, creyeron que era real, pero todo fue una creación de la IA

Para este equipo de científicos, Masterkey logra borrar el “ciclo interminable del gato y el ratón, esto es, entre hacker y desarrollador” en la implementación de correcciones y parches, debido a que este método “puede producir un gran volumen de indicaciones y aprender continuamente qué funciona y qué no, lo que permite a los ciberdelincuentes vencer a los desarrolladores de los LLM en su propio juego y con sus propias herramientas”.

Asimismo, considera que sus hallazgos “pueden ser fundamentales para ayudar a las empresas a ser conscientes de las debilidades” de sus herramientas de IA generativa y tomar medidas para fortalecerlas contra ataques informáticos de este tipo.

Con información de Europa Press

Tecnología

Crean temible chatbot capaz de hackear a ChatGPT y Bard para que generen contenidos peligrosos

Obtenga acceso al contenido exclusivo para suscriptores y a toda nuestra información digital por:

Lo más leído

Encuentra aquí lo último en Semana

1. “Estamos hablando en serio”: Petro pidió a los campesinos salir a marchar por las carreteras del país y dijo “no nos toreen”

2. Mamá de Sofía Delgado reaccionó a dura condena contra su asesino, Brayan Campo: “Nunca saldrá”

3. Pronóstico del Ideam: estas son las regiones donde se espera una reducción de lluvias en los próximos tres meses

4. Jueza acepta petición del expresidente Álvaro Uribe Vélez y niega precluir investigación por el llamado caso ‘hacker’

5. Nuevo lío para Laura Sarabia: la acusan de presunto “abuso de poder” y “desvío de recursos públicos”

Noticias relacionadas