Ilustración de un escenario hipotético en donde una super IA controla el planeta Tierra.
Ilustración de un escenario hipotético en donde una super IA controla el planeta Tierra. | Foto: Imagen de un mundo hipotético en donde las máquinas controlan la Tierra.

Tecnología

Investigadores advierten que IA ya es experta en engañar y manipular a los humanos

La IA aprende sistemáticamente a manipular a otros sistemas.

Redacción Tecnología
11 de mayo de 2024

Muchos sistemas de inteligencia artificial (IA) ya han aprendido a engañar a los humanos, incluso sistemas que han sido entrenados para ser útiles y honestos.

En un artículo de revisión publicado en la revista ‘Patterns’ del Departamento de Física del MIT, investigadores describen los riesgos del engaño por parte de los sistemas de inteligencia artificial y piden a los gobiernos que desarrollen regulaciones estrictas para abordar este problema lo antes posible.

“Los desarrolladores de IA no tienen una comprensión segura de las causas de comportamientos indeseables de la IA, como el engaño”, reflexiona el primer autor Peter S. Park, becario postdoctoral sobre seguridad existencial de IA en el MIT.+

“Pero en términos generales, creemos que el engaño de la IA surge porque una estrategia basada en el engaño resultó ser la mejor manera de desempeñarse bien en la tarea de entrenamiento de la IA determinada. El engaño les ayuda a lograr sus objetivos”.

Teorías señalan que dentro de unos siglos las Inteligencias artificiales dominarían la Tierra
Teorías señalan que dentro de unos siglos las Inteligencias artificiales dominarían la Tierra | Foto: Creación de la IA de Bing image creator

Park y su equipo analizaron la literatura, centrándose en las formas en que los sistemas de inteligencia artificial difunden información falsa, a través del engaño aprendido, en el que aprenden sistemáticamente a manipular a otros.

El ejemplo más sorprendente de engaño de IA que los investigadores descubrieron en su análisis fue CICERO de Meta, un sistema de IA diseñado para jugar al juego Diplomacy, que es un juego de conquista mundial que implica la construcción de alianzas.

Aunque Meta afirma que entrenó a CICERO para que fuera “en gran medida honesto y servicial” y para que “nunca apuñalara intencionalmente por la espalda” a sus aliados humanos mientras jugaba, los datos que la compañía publicó junto con su artículo de Science revelaron que CICERO no jugó limpio.

“Descubrimos que la IA de Meta había aprendido a ser un maestro del engaño”, afirma Park. “Si bien Meta logró entrenar su IA para ganar en el juego de Diplomacia (CICERO se ubicó entre el 10% de los mejores jugadores humanos que habían jugado más de un juego), Meta no logró entrenar su IA para ganar honestamente”.

Otros sistemas de IA demostraron la capacidad de farolear en un juego de póquer Texas Hold’em contra jugadores humanos profesionales, fingir ataques durante el juego de estrategia Starcraft II para derrotar a los oponentes y tergiversar sus preferencias para ganar ventaja en negociaciones económicas.

La capacidad de la inteligencia artificial para detectar patrones complejos en grandes conjuntos de datos ha permitido un nuevo nivel de comprensión sobre lo que define la inteligencia humana en su conjunto.
Estos hallazgos no solo tienen implicaciones significativas en el ámbito de la psicología y la ciencia cognitiva, sino que también ofrecen ideas valiosas para el desarrollo personal y profesional. | Foto: Getty Images

Si bien puede parecer inofensivo que los sistemas de IA hagan trampa en los juegos, puede conducir a “avances en capacidades engañosas de la IA” que pueden convertirse en formas más avanzadas de engaño de la IA en el futuro, añade Park.

Los investigadores encontraron que algunos sistemas de inteligencia artificial incluso han aprendido a engañar las pruebas diseñadas para evaluar su seguridad. En un estudio, los organismos de IA en un simulador digital “se hicieron los muertos” para engañar a una prueba diseñada para eliminar los sistemas de IA que se replican rápidamente.

“Al burlar sistemáticamente las pruebas de seguridad que le imponen los desarrolladores y reguladores humanos, una IA engañosa puede llevarnos a los humanos a una falsa sensación de seguridad”, añade Park.

Los principales riesgos a corto plazo de una IA engañosa incluyen facilitar que actores hostiles cometan fraude y alteren las elecciones, advierte Park. Con el tiempo, si estos sistemas pueden perfeccionar este inquietante conjunto de habilidades, los humanos podrían perder el control sobre ellos, afirma.

“Nosotros, como sociedad, necesitamos todo el tiempo posible para prepararnos para el engaño más avanzado de los futuros productos de IA y modelos de código abierto”, señala de nuevo Park. “A medida que las capacidades engañosas de los sistemas de IA se vuelvan más avanzadas, los peligros que representan para la sociedad serán cada vez más graves.

Cada vez se hace más estrecha la interacción entre humanos e inteligencias artificiales.
Cada vez se hace más estrecha la interacción entre humanos e inteligencias artificiales. | Foto: Ilustración generada por IA Bing Image Creator

Si bien Park y sus colegas no creen que la sociedad tenga todavía las medidas adecuadas para abordar el engaño de la IA, les alienta que los responsables políticos hayan comenzado a tomar el tema en serio a través de medidas como la Ley de IA de la UE y la Orden Ejecutiva de IA del presidente Biden.

Pero queda por ver, matiza Park, si las políticas diseñadas para mitigar el engaño de la IA pueden aplicarse estrictamente, dado que los desarrolladores de IA aún no tienen las técnicas para mantener estos sistemas bajo control.

“Si prohibir el engaño de la IA es políticamente inviable en este momento, recomendamos que los sistemas de IA engañosos se clasifiquen como de alto riesgo”, concluye Park.

Con información de Europa Press.