¿De dónde sale la información que da ChatGPT?

Los modelos de inteligencia artificial (IA) y chatbots, como lo es ChatGPT, se entrenan con páginas web que incluyen información sesgada y en ocasiones racista, así como con contenido con derechos de autor, según ha concluido The Washington Post en una investigación reciente.

Esta cabecera ha analizado varios conjuntos de datos que se utilizan para entrenar a la IA y, en concreto, ha estudiado el modelo Colossal Clean Crawled Corpus (C4) de Google, que acoge 15 millones de sitios web utilizados para “instruir a algunas IA de alto perfil”. Entre ellas, T5 de Google o LLaMA de Facebook.

La inteligencia artificial se apoya de páginas web. | Foto: SOPA Images/LightRocket via Gett

En colaboración con investigadores del Allen Institute for AI, The Washington Post categorizó estas páginas web usando Similarweb y descubrió que no se podían clasificar alrededor de un tercio de ellas porque no aparecían en internet.

Twitter account displayed on a laptop screen is seen in this illustration photo taken in Krakow, Poland on January 7, 2022. (Photo by Jakub Porzycki/NurPhoto via Getty Images)

Contexto: Twitter lo hizo: retiró marcas de verificación a las cuentas que no han pagado

Una vez hecha la selección, clasificó los 10 millones de sitios web restantes en función de la cantidad de ‘tokens’, fragmentos de texto que se emplean para procesar información, que aparecieron de cada uno en este conjunto de datos.

2. Los cinco signos del horóscopo chino que tendrían golpe de fortuna en las últimas semanas de mayo, según la inteligencia artificial

3. Bancolombia revela detalles del tesoro que halló en una bóveda de seguridad, donde normalmente se guarda plata

El medio reconoció que la mayoría de estas páginas web pertenecían a sectores como negocios, industrias, tecnología, noticias, arte, entretenimiento, creación de contenido, desarrollo de ‘software’, ciencia y salud.

Según sus investigaciones, algunos de estos sitios web daban acceso a la IA a ciertos datos confidenciales de los usuarios. Es el caso de espacios como Kickstarter y Patreon, que permiten a esta tecnología conocer las ideas de los artistas, “lo que genera preocupaciones de que la tecnología pueda convertir este trabajo en sugerencias para los usuarios”.

La inteligencia artificial ha tomado auge desde inicios de 2023. | Foto: Getty Images/iStockphoto

Con ello, recordó la problemática existente con los derechos de autor de estas inteligencias y la demanda colectiva de un grupo de artistas interpuesta el pasado enero a tres compañías dedicadas al arte digital —Stability AI, DeviantArt y Midjourney— por infringir el ‘copywright’ en el desarrollo de obras artísticas con la herramienta Stable Difussion.

Por otra parte, este periódico ha advertido que estos modelos de IA también se entrenan con ‘chatbots’ que comparten información sesgada que podría “conducir a la difusión de prejuicios, propaganda e información errónea sin que los usuarios puedan rastrearlos hasta al fuente original”.

Sesgo religioso

Los investigadores también se han centrado en el contenido religioso con el que se entrena la IA, determinando que, de los 20 sitios web religiosos principales, 14 de ellos son cristianos, dos judíos, uno musulmán, uno de los Testigos de Jehová y otro mormón.

Para ejemplificar el tipo de información que ofrecen estas páginas web, toma como referencia el perteneciente a la iglesia evangélica californiana Grace To You, que recientemente “aconsejó a las mujeres a que continuaran sometiéndose a sus padres y esposos abusivos, y evitar denunciarlos ante las autoridades”.

Google impone sanciones contra Rusia. (Photo by Nicolas Economou/NurPhoto via Getty Images).

Contexto: Google lanzó su ‘chatbot’ Bard, empleados dicen que este es un “mentiroso patológico”

En torno a la religión musulmana, The Washington Post también denunció el sesgo en algunos modelos lingüísticos, poniendo como ejemplo que una investigación publicada en ‘Nature’ encontró que ChatGPT completaba la frase “Dos musulmanes entraron a un” con acciones de violencia el 66 por ciento de las veces.

Inteligencia Artificial de Google. | Foto: NurPhoto via Getty Images

En cualquier caso, este periódico también recuerda que Google “filtró en gran medida los datos antes de enviarlos a la IA”, esto es, eliminó texto duplicado y palabras malsonantes. Con ello, ha matizado que las empresas utilizan conjuntos de datos de alta calidad para ajustar estos modelos a fin de proteger a los usuarios de contenidos no deseados.

Asimismo, aplica filtros para eliminar contenidos asociados a una lista negra, como pueden ser insultos raciales u obscenidades. Sin embargo, no filtra debidamente contenido LGBTQ no sexual y en algunas ocasiones también permite contenido pornográfico y simbología nazi.

Finalmente, The Washington Post aclara que C4 de Google comenzó a recopilar información en abril de 2019 junto con la organización sin findes de lucro CommonCrawl, que asegura que intenta “priorizar los sitios más importantes y de buena reputación, pero no trata de evitar contenido con licencias o derechos de autor”.

*Con información de Europa Press.

Encuentra aquí lo último en Semana

1. Respuesta inmediata a Clara López tras su osada propuesta: “Comunismo del Chicó. A una avanzada edad le está aprendiendo a Petro”

2. Los cinco signos del horóscopo chino que tendrían golpe de fortuna en las últimas semanas de mayo, según la inteligencia artificial

Noticias relacionadas

ChatGPT Chatbot Chatbots OpenAI Inteligencia Artificial

¿De dónde sale la información que da ChatGPT?

Lo más leído

Sesgo religioso

Encuentra aquí lo último en Semana

1. Respuesta inmediata a Clara López tras su osada propuesta: “Comunismo del Chicó. A una avanzada edad le está aprendiendo a Petro”

2. Los cinco signos del horóscopo chino que tendrían golpe de fortuna en las últimas semanas de mayo, según la inteligencia artificial

3. Por incumplimientos de la ley, SuperVigilancia cancela licencia de funcionamiento a empresa de seguridad privada

4. Las cinco demoledoras frases del padre de Juan Guillermo Monsalve contra Iván Cepeda

5. Avión de la Policía fue usado para transportar a influenciadores afines al Gobierno Petro

Noticias relacionadas

Encuentra aquí lo último en Semana

1. Respuesta inmediata a Clara López tras su osada propuesta: “Comunismo del Chicó. A una avanzada edad le está aprendiendo a Petro”

2. Los cinco signos del horóscopo chino que tendrían golpe de fortuna en las últimas semanas de mayo, según la inteligencia artificial

3. Por incumplimientos de la ley, SuperVigilancia cancela licencia de funcionamiento a empresa de seguridad privada

4. Las cinco demoledoras frases del padre de Juan Guillermo Monsalve contra Iván Cepeda

5. Avión de la Policía fue usado para transportar a influenciadores afines al Gobierno Petro

Noticias Destacadas

Si los botones de su iPhone no responden, así puede reiniciarlo correctamente y sin problemas

No basta solo con lavarlas: por esta razón, expertos recomiendan hervir las fresas antes de congelarlas

El sencillo truco para comprobar si delincuentes están usando su nombre para estafar a otras personas

El botón ‘oculto’ de la lavadora que debería oprimir para evitar que la ropa salga arrugada y húmeda

El error más común al usar la freidora de aire que estaría disparando el consumo de energía en el hogar

Inteligencia artificial predice cuándo podría ocurrir un apagón eléctrico mundial; la fecha está cada vez más cerca