Las medidas que tomará reconocido sitio web contra las ‘trampas’ que algunos hacen para potenciar la inteligencia artificial

El foro Reddit ha anunciado que actualizará su Protocolo de Exclusión de Robots (archivo robots.txt) para bloquear el acceso de bots automatizados a sus datos públicos y evitar así el llamado raspado de datos o web scrapping, usando en el entrenamiento de la inteligencia artificial (IA).

El raspado de datos o web scraping es un proceso de recopilación de contenidos de páginas web mediante un software que extrae el contenido HTML de estos sitios para filtrar la información y almacenarla, lo que se compara con el proceso automático de copiado y pegado.

Criminales tienen varias modalidades para estafar a usuarios de tarjeta de crédito.

Contexto: Este es el principal error que más aprovechan los ciberdelincuentes para robar claves y vaciar las cuentas bancarias

Si bien se trata de una práctica habitual y legal, va en contra de los términos de uso de algunas páginas web, ya que se puede ejecutar con fines malintencionados, tal y como han comprobado el desarrollador Robb Knight y Wired recientemente.

Ambos han descubierto que la desarrolladora de IA Perplexity había ignorado el Protocolo de Exclusión de Robots de ciertos sitios web y ejecutado web scraping con él para entrenar sus modelos de inteligencia artificial.

Inteligencia Artificial (IA) | Foto: Getty Images

Para evitar este tipo de situaciones, Reddit ha anunciado que en las próximas semanas actualizará su protocolo de exclusión de robots, que “brinda instrucciones de alto nivel” sobre cómo permite y no permite que agentes terceros rastreen sus directorios.

2. Escándalo: magistrados de la JEP se fueron a un exclusivo hotel de Palomino (La Guajira) a un taller para tomar “decisiones estratégicas”

3. Vicepresidente de Estados Unidos pone en duda la permanencia de las Green Cards

Una vez haya actualizado el archivo robots.txt, continuará bloqueando el acceso de bots y rastreadores desconocidos en reddit.com y limitará su velocidad en la navegación. No obstante, mantendrá el acceso abierto a su contenido para investigadores y organizaciones como Internet Archive, a quienes considera “actores de buena fe” que acceden a sus contenidos “para uso no comercial”.

Las estrategias compartidas por Chat GPT sobre cómo cultivar hábitos para el éxito en el ámbito profesional han captado la atención de muchos buscadores de éxito. | Foto: Getty Images

Por el contrario, la plataforma solicita que se pida permiso, y se pague una tarifa, cuando el acceso a los datos y herramientas tiene fines comerciales, lo que incluye el entrenamiento de modelos de IA.

Con ello, ha indicado que cualquiera que acceda a su web debe cumplir con sus políticas de uso, “incluidas las vigentes para proteger a los redditors”, y ha puesto a disposición de los interesados una guía para acceder a sus contenidos de forma legítima.

Contexto: WhatsApp: la nueva forma que estarían utilizando los delincuentes para secuestrar su cuenta

Conviene recordar, no obstante, que Reddit ya anunció a principios de mayo una nueva política de contenido público, surgida a raíz de constatar que “cada vez más entidades comerciales utilizan el acceso no autorizado o hacen un mal uso del acceso autorizado para recopilar datos públicos”, incluidos los de la plataforma.

También presentó un nuevo subreddit para investigadores, con el que demostró su intención por preservar el acceso público al contenido de la plataforma para “aquellos que creen en el uso responsable y no comercial de los datos públicos”.

*Con información de Europa Press

Tecnología

Las medidas que tomará reconocido sitio web contra las ‘trampas’ que algunos hacen para potenciar la inteligencia artificial

Obtenga acceso al contenido exclusivo para suscriptores y a toda nuestra información digital por:

Lo más leído

Noticias relacionadas