Por qué la IA se entrena con su propia basura (y cómo solucionarlo)

en IA por un tiempo, probablemente sea un usuario de LLM/Agente/Chat, pero ¿alguna vez se ha preguntado cómo se entrenarán estas herramientas en el futuro cercano y qué pasa si ya hemos agotado los datos que necesitamos para entrenar modelos? Muchas teorías dicen que nos estamos quedando sin datos generados por humanos de alta calidad para entrenar nuestros modelos.

El contenido nuevo aumenta todos los días, eso es una realidad, pero una proporción cada vez mayor de lo que se agrega diariamente es en sí mismo generado por IA. Entonces, si continúa entrenando con datos web públicos, eventualmente estará entrenando con los resultados de sus propios predecesores. La serpiente comiéndose la cola. Los investigadores llaman a este fenómeno Model Collapse, donde los modelos de IA comienzan a aprender de los errores de sus predecesores hasta que todo el sistema se degrada hasta convertirse en un sinsentido.

Pero, ¿y si te dijera que en realidad no nos estamos quedando sin datos? Simplemente hemos estado buscando en el lugar equivocado.

En este artículo, voy a desglosar las ideas clave de este brillante artículo.

La Web que ya utilizamos y la Web que importa

La mayoría de nosotros consideramos la web como una fuente única de información. En realidad, hay al menos dos.

Existe Surface Web: el mundo público indexado como el que encontramos en Reddit, Wikipedia y los sitios de noticias. Esto es lo que ya hemos eliminado y usado en exceso durante años para entrenar los principales modelos de IA de la actualidad. Luego está lo que llamamos la Deep Web, y aquí no me refiero a la “Dark Web” ni a nada ilegal.

La Deep Web es simplemente todo lo que hay detrás de un inicio de sesión o un firewall. Se refiere a cualquier cosa en línea que no esté indexada públicamente. Podría ser el portal para pacientes de su hospital, el panel interno de su banco, archivos de documentos empresariales, bases de datos privadas y años de correo electrónico detrás de una pantalla de inicio de sesión. Datos normales, aburridos, pero increíblemente valiosos.

Muchos estudios sugieren que la Deep Web es órdenes de magnitud más grande que la web superficial. Más importante aún, se trata de datos de mejor calidad. En comparación con el contenido web superficial, que puede ser ruidoso, estar lleno de información errónea y estar fuertemente optimizado para SEO. Además, contiene cada vez más contenido diseñado deliberadamente para engañar o envenenar los modelos de IA. Los datos de la Deep Web, como registros médicos o documentos financieros verificados u otras bases de datos internas, tienden a estar limpios, autenticados y organizados por personas que se preocupan por su calidad.

¿El problema? Creo que puedes adivinarlo, es privado. No se puede simplemente extraer un millón de registros médicos sin considerar todas las catástrofes legales y éticas que se van a causar.

El marco PROPS

Aquí es donde entra en juego un nuevo marco llamado PROPS (Protected Pipelines). Presentado por Ari Juels (Cornell Tech), Farinaz Koushanfar (UCSD) y Laurence Moroney (ex líder de IA de Google), PROPS actúa como un puente entre estos datos confidenciales y los modelos de IA que los necesitan.

Lo bueno de PROPS es que no le pide que “entregue” sus datos. En cambio, utiliza oráculos que preservan la privacidad. Piense en un oráculo como un “intermediario confiable” que puede analizar sus datos, verificar que sean reales y luego decirle al modelo de IA lo que necesita saber sin siquiera mostrarle la información sin procesar.

Estos conceptos de accesorios pueden parecer mágicos, ya que pueden resolver muchos problemas relacionados con la disponibilidad de datos a los que se enfrentan los modelos de IA en la actualidad. Pero ¿cómo funciona esto exactamente? Tomemos como ejemplo una empresa médica que quiere entrenar una herramienta de diagnóstico con registros médicos reales. En el marco de PROPS:

Permiso: Como usuario inicias sesión en tu propio portal de salud y autorizas un uso específico de tus datos. El Oráculo: Piense en el Oráculo como un notario digital. Accede a tu portal privado (como la base de datos de tu hospital) para verificar que tus datos sean reales. En lugar de copiar sus archivos, simplemente le dice al sistema de inteligencia artificial: “He visto los documentos originales y testifico que son auténticos”. Proporciona pruebas de la verdad sin necesidad de revelar los datos privados. Ya existen herramientas para esto, como DECO. Es un protocolo que permite a los usuarios demostrar que obtuvieron un dato específico de un servidor web a través de un canal TLS seguro. El Enclave Seguro: Se trata de una “caja negra” dentro del hardware de la computadora donde se lleva a cabo la capacitación real. Colocamos el modelo de IA y sus datos privados adentro y “cerramos la puerta”. Ningún humano ni desarrollador puede ver lo que sucede en el interior. La IA “estudia” los datos y se queda solo con los pesos del modelo. Los datos sin procesar permanecen bloqueados en el interior hasta que finaliza la sesión. El resultado: el modelo se entrena con los datos dentro de ese cuadro. Sólo salen los “pesos” actualizados (los aprendizajes). Los datos sin procesar nunca son vistos por ojos humanos.

El contribuyente sabe exactamente lo que está aceptando y puede ser recompensado por participar de una manera calibrada según el valor real de sus datos específicos. Es una relación genuinamente diferente entre los propietarios de datos y los sistemas de inteligencia artificial.

Pero ¿por qué molestarse con esto en lugar de con datos sintéticos?

Algunos podrían preguntar: “¿Por qué molestarse con esta compleja configuración cuando solo podemos generar datos sintéticos?”

La respuesta es que los datos sintéticos matan la diversidad. Por definición, la generación de datos sintéticos refuerza la mitad de la curva de campana. Si usted tiene una condición médica rara que afecta sólo al 0,01% de la población, un generador de datos sintéticos probablemente lo catalogará como “ruido”.

Los modelos entrenados con datos sintéticos se vuelven cada vez peores a la hora de atender valores atípicos. PROPS resuelve esto creando una forma segura para que personas reales con condiciones raras o antecedentes únicos puedan “optar por participar”. Hace que el intercambio de datos deje de ser un riesgo para la privacidad y se convierta en un “mercado de datos”. donde los datos valiosos obtienen la compensación que merecen.

No se trata sólo de entrenar, la inferencia también importa

La mayoría de las discusiones se centran en la capacitación, pero PROPS tiene una aplicación igualmente interesante en el lado de la inferencia.

Por ejemplo, obtener un préstamo hoy implica presentar muchos documentos: extractos bancarios, recibos de sueldo y declaraciones de impuestos. En un sistema basado en PROPS, sugieren el uso de un Modelo de Decisión de Préstamo (LDM):

Autoriza al LDM a hablar directamente con su banco. El banco confirma su saldo a través de un oráculo que preserva la privacidad. El LDM toma una decisión. ¿El resultado? El prestamista obtiene un “Sí” o un “No” verificado sin siquiera tocar sus documentos privados. Esto elimina el riesgo de filtración de datos y hace que sea casi imposible que las personas utilicen documentos fraudulentos retocados con Photoshop.

¿Qué impide realmente que esto suceda en 2026?

Todo se reduce simplemente a la escala y la infraestructura.

La versión más sólida de PROPS requiere que la capacitación se realice dentro de un enclave seguro respaldado por hardware (como Intel SGX o los H100 TEE de NVIDIA). Estos funcionan bien a pequeña escala, pero lograr que funcionen para los enormes clústeres de GPU necesarios para los LLM de vanguardia sigue siendo un problema de ingeniería abierto. Requiere clústeres masivos para funcionar en perfecta sincronización cifrada.

Los investigadores lo tienen claro: PROPS aún no es un producto terminado. Es una prueba de concepto persuasiva. Sin embargo, hoy en día se puede implementar una versión más liviana. Incluso sin garantías totales de hardware, puede crear sistemas que brinden a los usuarios una seguridad significativa, lo que ya es una mejora con respecto a pedirle a alguien que le envíe un PDF por correo electrónico.

Mis propios pensamientos finales

PROPS no es realmente una tecnología “nueva”; Es una nueva aplicación de herramientas existentes. Los oráculos que preservan la privacidad se han utilizado en el espacio blockchain y Web3 (como Chainlink) durante años. La idea aquí es reconocer que las mismas herramientas pueden resolver la crisis de datos de IA.

La “crisis de datos” no es una falta de información; es falta de confianza. Tenemos datos más que suficientes para construir la próxima generación de IA, pero están encerrados detrás de las puertas de la Deep Web. La serpiente no tiene por qué comerse la cola; sólo necesita encontrar un jardín mejor.

👉 LinkedIn: Sabrine Bendimerad

👉 Medio: https://medium.com/@sabrine.bendimerad1

👉 Instagram: https://tinyurl.com/datailearn