Las IA más poderosas perderían un elemento clave para ser más inteligentes, advierten expertos

Los sistemas de inteligencia artificial como ChatGPT podrían quedarse pronto sin el elemento que los vuelve cada vez más inteligentes: los miles de millones de palabras que la gente ha escrito y compartido en internet.

Un nuevo estudio publicado el jueves por el grupo de investigación Epoch AI prevé que las empresas tecnológicas agotarán el suministro de datos de entrenamiento disponibles públicamente para los modelos lingüísticos de IA en algún momento entre 2026 y 2032.

Tamay Besiroglu, uno de los autores del estudio, compara el fenómeno con una “fiebre del oro” que agota los recursos naturales finitos, y afirma que el campo de la IA podría tener dificultades para mantener su ritmo actual de progreso una vez agotadas las reservas de escritura generada por humanos.

La regla de las cinco horas, adoptada por figuras como Elon Musk, ha despertado un creciente interés en cómo las personas exitosas gestionan su tiempo.

Contexto: Elon Musk es la persona más rica del mundo y todo gracias a la inteligencia artificial, ¿cómo ocurrió?

A corto plazo, empresas tecnológicas como OpenAI, el desarrollador de ChatGPT, y Google, se esmeran en conseguir, y a veces a pagar, fuentes de datos de alta calidad para entrenar sus modelos de lenguaje de gran tamaño de IA. Para ello, por ejemplo, han suscrito acuerdos para aprovechar el flujo constante de frases procedentes de los foros de Reddit y de los medios de comunicación.

2. Petro reaccionó a la expulsión de Katherine Miranda de la plenaria de Cámara, que ordenó Jaime Raúl Salamanca: “Violencia verbal” - Semana

3. “Ella tiene mucho poder y me armó este complot”, Sandra Ortiz salpica a Laura Sarabia en el escándalo de la UNGRD - Semana

Existen múltiples plataformas para encontrar empleo en empresas extranjeras. | Foto: Getty Images

A largo plazo, no habrá suficientes nuevos blogs, artículos noticiosos y comentarios en las redes sociales para mantener la trayectoria actual de desarrollo de la IA, lo cual obligará a las empresas a recurrir a datos sensibles que ahora se consideran privados, como correos electrónicos o mensajes de texto, o a basarse en “datos sintéticos” generados por los propios chatbots, los cuales son menos fiables.

“Aquí hay un serio cuello de botella”, afirma Besiroglu. “Si empiezas a toparte con esas limitaciones sobre la cantidad de datos de que dispones, ya no puedes ampliar tus modelos de forma eficiente. Y ampliar los modelos ha sido probablemente la forma más importante de incrementar sus capacidades y mejorar la calidad de sus resultados”.

Los investigadores hicieron sus primeras previsiones hace dos años, poco antes del debut de ChatGPT, en un documento de trabajo en el que pronosticaban que en 2026 se agotarían los datos de texto de alta calidad. Muchas cosas han cambiado desde entonces, como las nuevas técnicas que permiten a los investigadores de IA aprovechar mejor los datos que ya tienen y, en ocasiones, “sobreentrenarse” varias veces con las mismas fuentes.

En una charla esclarecedora, Chat GPT proporciona ideas valiosas sobre cómo establecer hábitos que fomenten el éxito en el ámbito profesional.

Contexto: ChatGPT tuvo una caída en su servicio: ¿Qué opciones usar mientras esa IA vuelve a funcionar?

Pero hay límites y, tras nuevas investigaciones, Epoch prevé ahora que los datos de texto públicos se agotarán en algún momento entre los próximos dos a ocho años.

El último estudio del equipo ha sido revisado por expertos y se presentará en la Conferencia Internacional sobre Aprendizaje Automático que se llevará a cabo próximamente en Viena, Austria. Epoch es un instituto sin fines de lucro auspiciado por Rethink Priorities, con sede en San Francisco, y financiado por partidarios del altruismo efectivo, un movimiento filantrópico que ha invertido dinero en la mitigación de los riesgos más graves de la IA.

Besiroglu afirma que los investigadores de IA se dieron cuenta hace más de una década de que la expansión agresiva de dos ingredientes clave —la potencia de cálculo y los grandes bancos de datos de internet— podría mejorar significativamente el rendimiento de los sistemas de IA.

Según el estudio de Epoch, la cantidad de datos de texto que se introducen en los modelos de lenguaje de IA se ha multiplicado por 2,5 al año, mientras que la capacidad de cálculo se ha cuadruplicado al año. La empresa matriz de Facebook, Meta Platforms, afirmó recientemente que la versión más grande de su modelo Llama 3 —que aún no ha salido al mercado— se ha entrenado con hasta 15 billones de tokens, cada uno de los cuales puede representar un fragmento de una palabra.

Pero hasta qué punto merece la pena preocuparse por el cuello de botella de los datos es discutible.

“Creo que es importante tener en cuenta que no necesariamente tenemos que entrenar modelos cada vez más grandes”, afirma Nicolas Papernot, profesor adjunto de ingeniería informática de la Universidad de Toronto e investigador del Instituto Vectorial de Inteligencia Artificial, una organización sin fines de lucro.

La inteligencia artificial explica cómo será el trabajo del futuro

Contexto: Inteligencia artificial lanza su pronóstico de cómo le quitará el trabajo a personas con estas profesiones

Papernot, quien no participó en el estudio de Epoch, afirma que también se pueden crear sistemas de IA más hábiles entrenando modelos más especializados en tareas concretas. Sin embargo, le preocupa que los sistemas generativos de IA se entrenen con los mismos resultados que producen, lo cual provocaría una degradación del rendimiento conocida como “colapso del modelo”.

La IA es particularmente efectiva para realizar tareas repetitivas y rutinarias que no requieren un alto nivel de creatividad o pensamiento crítico. | Foto: Getty Images

El entrenamiento con datos generados por IA es “como lo que ocurre cuando fotocopias una hoja de papel y luego fotocopias la fotocopia. Se pierde parte de la información”, afirma Papernot. No solo eso, sino que la investigación de Papernot también ha descubierto que puede aumentar la integración de los errores, los prejuicios y la injusticia que ya están incorporados en el ecosistema de información.

Si las frases reales redactadas por humanos siguen siendo una fuente de datos fundamental para la IA, los administradores de los tesoros más codiciados —sitios web como Reddit y Wikipedia, así como editores de noticias y libros— se han visto obligados a reflexionar sobre su uso.

“Es un problema interesante que estemos teniendo conversaciones sobre recursos naturales acerca de datos creados por humanos. No debería reírme de ello, pero me parece asombroso”, comentó Selena Deckelmann, directora de productos y tecnología de la Fundación Wikimedia, que gestiona Wikipedia.

Aunque algunas entidades han tratado de que sus datos no se usen para entrenar IA —a menudo después de que ya han sido utilizados sin compensación—, Wikipedia ha puesto pocas restricciones sobre cómo las empresas de IA utilizan los artículos redactados por voluntarios. Aun así, Deckelmann afirma que espera que siga habiendo incentivos para que la gente no cese de contribuir, sobre todo cuando una avalancha de “contenidos basura”, baratos y generados automáticamente, empiece a contaminar internet.

Las empresas de inteligencia artificial deben “interesarse en que los contenidos generados por humanos sigan existiendo y siendo accesibles”, afirma.

Sam Altman, el CEO de OpenAI, está liderando un debate sobre las normas para regular a las inteligencias artificiales.

Contexto: Antes de despedir a Sam Altman, creadores de ChatGPT hallaron nueva IA que sería una “amenaza para la humanidad”

Desde la perspectiva de los desarrolladores de IA, el estudio de Epoch afirma que es “improbable” que pagarles a millones de humanos para que generen el texto que necesitarán los modelos de IA sea una forma económica de impulsar un mejor rendimiento técnico.

Mientras OpenAI empieza a trabajar en el entrenamiento de la próxima generación de sus modelos de lenguaje de gran tamaño GPT, su director general, Sam Altman, explicó a los asistentes a un acto de Naciones Unidas celebrado el mes pasado que la empresa ya ha experimentado con “la generación de muchos datos sintéticos” para entrenamiento.

Sam Altman ha defendido las innovaciones en inteligencia artificial. | Foto: AFP

“Creo que lo que se necesitan son datos de alta calidad. Hay datos sintéticos de baja calidad. Hay datos humanos de baja calidad”, afirmó Altman. Pero también expresó sus reservas a la hora de confiar demasiado en los datos sintéticos frente a otros métodos técnicos para mejorar los modelos de IA.

“Sería muy extraño que la mejor forma de entrenar un modelo fuera generar, por ejemplo, 1.000 billones de tokens de datos sintéticos y retroalimentarlos”, afirma Altman. “De alguna manera, eso parece ineficiente”.

Con información de AP

Encuentra aquí lo último en Semana

1. La exconsejera para las regiones Sandra Ortiz, salpicada en el saqueo a la UNGRD, será detenida en una guarnición militar

2. Pánico financiero de Brasil se agudiza por la pérdida de credibilidad de los inversores en el gobierno nacional

3. Susana Muhamad lanzó llamativo mensaje y habló de movilizaciones de “pueblos indígenas” tras hundimiento de la reforma tributaria

4. Grave accidente en Bogotá: hombre robó una tractomula, la volcó y aplastó carro en el que iba un niño de 3 años

5. Donald Trump en apuros: juez rechaza intento de anular condena por caso de soborno

LEER MENOS

Noticias relacionadas

Inteligencia Artificial ChatGPT OpenAI

Encuentra aquí lo último en Semana

1. La exconsejera para las regiones Sandra Ortiz, salpicada en el saqueo a la UNGRD, será detenida en una guarnición militar

2. Pánico financiero de Brasil se agudiza por la pérdida de credibilidad de los inversores en el gobierno nacional

3. Susana Muhamad lanzó llamativo mensaje y habló de movilizaciones de “pueblos indígenas” tras hundimiento de la reforma tributaria

4. Grave accidente en Bogotá: hombre robó una tractomula, la volcó y aplastó carro en el que iba un niño de 3 años

5. Donald Trump en apuros: juez rechaza intento de anular condena por caso de soborno

LEER MENOS

¿Aparece tabla de salvación para la humanidad?: inteligencia artificial se enfrentaría su primera gran crisis

Lo más leído

Encuentra aquí lo último en Semana

1. La exconsejera para las regiones Sandra Ortiz, salpicada en el saqueo a la UNGRD, será detenida en una guarnición militar

2. Pánico financiero de Brasil se agudiza por la pérdida de credibilidad de los inversores en el gobierno nacional

3. Susana Muhamad lanzó llamativo mensaje y habló de movilizaciones de “pueblos indígenas” tras hundimiento de la reforma tributaria

4. Grave accidente en Bogotá: hombre robó una tractomula, la volcó y aplastó carro en el que iba un niño de 3 años

5. Donald Trump en apuros: juez rechaza intento de anular condena por caso de soborno

Noticias relacionadas

Encuentra aquí lo último en Semana

1. La exconsejera para las regiones Sandra Ortiz, salpicada en el saqueo a la UNGRD, será detenida en una guarnición militar

2. Pánico financiero de Brasil se agudiza por la pérdida de credibilidad de los inversores en el gobierno nacional

3. Susana Muhamad lanzó llamativo mensaje y habló de movilizaciones de “pueblos indígenas” tras hundimiento de la reforma tributaria

4. Grave accidente en Bogotá: hombre robó una tractomula, la volcó y aplastó carro en el que iba un niño de 3 años

5. Donald Trump en apuros: juez rechaza intento de anular condena por caso de soborno

Noticias Destacadas

Starlink de Elon Musk: así puede ser uno de los primeros en disfrutar de internet satelital en el celular

Esta es la ciudad de Colombia donde se encuentran los hombres más ricos, según la inteligencia artificial

China desarrolla un detector subterráneo para estudiar los neutrinos, las enigmáticas partículas fantasma

Cómo crear fácilmente una invitación digital para las novenas y enviarla por WhatsApp

TikTok encuentra luz al final del túnel para evitar ser vendida o prohibida en Estados Unidos; en esto va su lucha por sobrevivir

Adiós a las SIM físicas: así puede tener su número de celular en el extranjero en su próximo viaje y ahorrar en ‘roaming’