Así funciona el 'chatbot' que hace 'jailbreak' a ChatGPT o Bard para que creen contenidos inapropiados

Un grupo de investigadores ha creado un ‘bot’ que emplea la técnica conocida como ‘jailbreaking’ sobre herramientas de inteligencia artificial (IA) generativa como Google Bard y ChatGPT de OpenAI para lograr que estos generen contenido poco ético y fuera de los límites legítimos establecidos por sus desarrolladores.

Científicos informáticos de la Universidad Tecnológica de Nanyang de Singapur, dirigidos por el profesor de la Escuela de Ingeniería y Ciencias de la Computación Liu Yang, han descubierto cómo comprometer ‘chatbots’ como Microsoft Bing Chat, según han explicado en un informe.

Para ello, han empleado el llamado ‘jailbreaking’ (traducido en español como ‘fuga de la cárcel’), contra sus modelos de lenguaje grande (LLM), que son los que impulsan estos ‘chatbots’ y les permiten mantener conversaciones más naturales y coherentes con los usuarios.

Contexto: Creadores de ChatGPT le preguntan a la inteligencia artificial cómo exterminar personas. Esta fue la aterradora respuesta

El ‘jailbreaking’ consiste en romper algunas de las limitaciones del sistema operativo mediante un ‘kernel’ modificado para poder acceder al control completo del sistema. Esto es posible porque los ciberdelincuentes analizan el código del ‘software’ y buscan posibles vulnerabilidades para acceder a él.

2. Los signos del zodiaco que podrían ganarse la lotería en la penúltima semana de abril 2025, según la inteligencia artificial

3. El electrodoméstico de la cocina que consume 10 veces más energía que una nevera

ChatGPT ha sufrido varios cambios en los últimos años | Foto: Europa Press via Getty Images

Esto quiere decir que, una vez se han hecho con el control de este, los actores maliciosos pueden modificar la finalidad de los sistemas comprometidos y, en el caso de los ‘chatbots’, ejecutar directrices que sus desarrolladores prohibieron “deliberadamente”, lo que puede dar como resultado la generación de contenido inapropiado, según este análisis.

Para llegar a esta conclusión y lograr desestabilizar el funcionamiento natural de ‘chatbots’ como ChatGPT o Bard, los investigadores adoptaron un procedimiento que han denominado Masterkey (‘clave maestra’, en español).

Con él, estudiaron el funcionamiento legítimo de estas herramientas de IA, esto es, el modo en que los LLM detectaban y eludían consultas con fines maliciosos, aplicando métodos de ingeniería inversa y haciendo justo lo contrario, es decir, generar contenido inicialmente restringido.

Ilustración de la inteligencia artificial ChatGPT. | Foto: Future Publishing via Getty Imag

Cada vez se hace más estrecha la interacción entre humanos e inteligencias artificiales.

Contexto: Así se puede ‘manipular’ a ChatGPT para que desate su lado oscuro y ofrezca respuestas sin censura

Con esa información, crearon otro ‘chatbot’ y enseñaron a su LLM a ejecutar ‘jailbreak’ a los ‘chatbots’ comprometidos. O lo que es lo mismo, a aprender y producir automáticamente una serie de indicaciones capaces de sortear los sistemas de defensa y control de sus LLM.

Para lograr que los ‘chatbots’ generasen contenido inapropiado, los investigadores hicieron trampas, como proporcionar indicaciones que contenían espacios después de cada caracter de forma manual u ordenar al ‘chatbot’ a responder “sin reservas ni restricciones morales” a ciertas peticiones, lo que aumentó las posibilidades de generar contenido poco ético.

ChatGPT ha abierto un mundo de oportunidades en diferentes campos | Foto: Getty Images/iStockphoto

Asimismo, advirtieron que era posible automatizar este proceso para ejecutar ‘jailbreak’ sobre los otros ‘chatbots’ comprometidos. Esto, a pesar de que sus desarrolladores implementasen diferentes parches de seguridad para corregir fallas y evitar acciones maliciosas.

“Le pregunté a Chat GPT cuál es la chica de los sueños del hombre promedio y me dijo cabello castaño largo y piernas largas, así que la hice exactamente como decía", dijo su desarrollador. Foto: @emilypellegrini

Contexto: La modelo que impactó en las redes sociales: las estrellas del deporte la invitaron a salir, creyeron que era real, pero todo fue una creación de la IA

Para este equipo de científicos, Masterkey logra borrar el “ciclo interminable del gato y el ratón, esto es, entre hacker y desarrollador” en la implementación de correcciones y parches, debido a que este método “puede producir un gran volumen de indicaciones y aprender continuamente qué funciona y qué no, lo que permite a los ciberdelincuentes vencer a los desarrolladores de los LLM en su propio juego y con sus propias herramientas”.

Asimismo, considera que sus hallazgos “pueden ser fundamentales para ayudar a las empresas a ser conscientes de las debilidades” de sus herramientas de IA generativa y tomar medidas para fortalecerlas contra ataques informáticos de este tipo.

Con información de Europa Press

Encuentra aquí lo último en Semana

1. Ataque de las disidencias de las Farc a estación de Policía en Corinto, Cauca. Esto es lo que se sabe

2. Mujer fue víctima de robo tras tomar un taxi desde la Terminal Salitre de Bogotá: conductor la encañonó y le quitó sus pertenencias

3. Margarita Rosa de Francisco habló con SEMANA sobre su nueva película, su matrimonio y sus proyectos: “Mi estatus favorito es el de estudiante”

4. La historia del abogado paisa que demandó a Dios y a las ánimas del Purgatorio y les ganó el pleito judicial

5. ¿Quién es Luisa Reyes, la novia de Miguel Polo Polo?

LEER MENOS

Noticias relacionadas

ChatGPT Bard hackeo

Encuentra aquí lo último en Semana

1. Ataque de las disidencias de las Farc a estación de Policía en Corinto, Cauca. Esto es lo que se sabe

2. Mujer fue víctima de robo tras tomar un taxi desde la Terminal Salitre de Bogotá: conductor la encañonó y le quitó sus pertenencias

3. Margarita Rosa de Francisco habló con SEMANA sobre su nueva película, su matrimonio y sus proyectos: “Mi estatus favorito es el de estudiante”

4. La historia del abogado paisa que demandó a Dios y a las ánimas del Purgatorio y les ganó el pleito judicial

5. ¿Quién es Luisa Reyes, la novia de Miguel Polo Polo?

LEER MENOS

Crean temible chatbot capaz de hackear a ChatGPT y Bard para que generen contenidos peligrosos

Lo más leído

Encuentra aquí lo último en Semana

1. Ataque de las disidencias de las Farc a estación de Policía en Corinto, Cauca. Esto es lo que se sabe

2. Mujer fue víctima de robo tras tomar un taxi desde la Terminal Salitre de Bogotá: conductor la encañonó y le quitó sus pertenencias

3. Margarita Rosa de Francisco habló con SEMANA sobre su nueva película, su matrimonio y sus proyectos: “Mi estatus favorito es el de estudiante”

4. La historia del abogado paisa que demandó a Dios y a las ánimas del Purgatorio y les ganó el pleito judicial

5. ¿Quién es Luisa Reyes, la novia de Miguel Polo Polo?

Noticias relacionadas

Encuentra aquí lo último en Semana

1. Ataque de las disidencias de las Farc a estación de Policía en Corinto, Cauca. Esto es lo que se sabe

2. Mujer fue víctima de robo tras tomar un taxi desde la Terminal Salitre de Bogotá: conductor la encañonó y le quitó sus pertenencias

3. Margarita Rosa de Francisco habló con SEMANA sobre su nueva película, su matrimonio y sus proyectos: “Mi estatus favorito es el de estudiante”

4. La historia del abogado paisa que demandó a Dios y a las ánimas del Purgatorio y les ganó el pleito judicial

5. ¿Quién es Luisa Reyes, la novia de Miguel Polo Polo?

Noticias Destacadas

El aparato eléctrico de la casa que siempre debe desconectar después de usarlo porque dispara el consumo de energía

Si ve estas dos palabras en un mensaje de su celular, bórrelo de inmediato porque podría ser víctima de una millonaria estafa

Las tres tradiciones de Pascua más curiosas del mundo, según la inteligencia artificial

Paso a paso, así puede convertir sus fotos en una figura coleccionable: es tendencia en redes

Los problemas para la salud que puede causar el uso excesivo del celular; trucos clave para prevenirlos

Adiós a las fundas de los celulares, una forma gratuita será lo que marcará el cambio