El derecho al olvido ante la IA: ¿cómo olvidar lo que ya ha sido aprendido?

En un mundo donde nuestros datos digitales parecen inmortales, el derecho al olvido se ha convertido en una herramienta clave para proteger la intimidad y la autodeterminación informativa. Reconocido en el artículo 17 del Reglamento General de Protección de Datos (RGPD), este derecho permite a los ciudadanos solicitar la supresión de sus datos personales cuando ya no sean necesarios para los fines con los que fueron recogidos, cuando se haya retirado el consentimiento o cuando su tratamiento resulte ilícito.

Sin embargo, con la irrupción de la inteligencia artificial (IA), especialmente los modelos de lenguaje entrenados con grandes volúmenes de datos, este derecho se enfrenta a una amenaza inédita. Las técnicas de scraping masivo y minería de datos que alimentan estos modelos convierten los mecanismos tradicionales de desindexación o anonimización en herramientas insuficientes. Entonces, ¿qué eficacia tiene actualmente el derecho al olvido frente a un modelo de IA generativa que ya ha aprendido lo que debía desaparecer?

Scraping, minería de datos e inteligencia artificial

Uno de los principales métodos que utilizan los sistemas de IA para entrenarse es el web scraping, una técnica de extracción automatizada de información de sitios web. Esta práctica, aunque útil para la IA, presenta riesgos significativos desde el punto de vista de la protección de datos. El scraping permite recopilar datos personales (a menudo sin consentimiento y de forma masiva) antes incluso de que los titulares sean conscientes de su difusión.

Desde el punto de vista jurídico, esta técnica puede encuadrarse dentro de la minería de datos o text and data mining(TDM), concepto mencionado en la Directiva (UE)  2019/790 DEL PARLAMENTO EUROPEO Y DEL CONSEJO de 17 de abril de 2019 sobre los derechos de autor y derechos afines en el mercado único digital y por la que se modifican las Directivas 96/9/CE y 2001/29/CE. Si bien puede ser legal bajo ciertos supuestos, el TDM sobre datos personales sin base legitimadora contraviene los principios del RGPD.

Uno de los problemas clave es que los modelos de IA no solo recopilan datos de las páginas originales, sino también de enlaces secundarios. Esto significa que, aunque una persona consiga que se desindexe una página de Google o que su nombre aparezca solo con iniciales, la IA ya puede haber capturado y procesado esa información durante su entrenamiento.

Una vez absorbidos los datos, éstos se integran en la estructura misma del modelo, dificultando su eliminación. A diferencia de una base de datos tradicional, en la que puede suprimirse un registro concreto, los modelos de lenguaje almacenan patrones lingüísticos y asociaciones probabilísticas que no permiten identificar fácilmente qué dato provino de dónde.

El Comité Europeo de Protección de Datos emitió un Dictamen 28/2024 sobre aspectos de la protección de datos personales relacionados con los tratamientos de los modelos de inteligencia artificial (IA) donde advirtió que el uso de técnicas de minería de datos para entrenar modelos de IA puede incorporar datos ilícitos si no se hace un análisis de riesgos previo. En cambio, si ese riesgo se contempla en una evaluación de impacto (EIPD) y se implementan salvaguardas efectivas, el tratamiento puede considerarse conforme con el RGPD.

Esto implica una transformación delicada: “la ilicitud inicial se mitiga mediante prevención y responsabilidad proactiva” lo que refuerza el papel del análisis de riesgos como eje clave en la conformidad de los tratamientos de IA.

El reto técnico: el desaprendizaje automático

Ante esta problemática, ha surgido la idea del machine unlearning o desaprendizaje automático: una técnica destinada a permitir que los modelos de IA «olviden» información específica sin necesidad de ser entrenados desde cero.

Sin embargo, en la práctica, esta tarea es técnicamente compleja e ineficiente. Según investigaciones recientes, eliminar con precisión datos privados de los modelos actuales es “inviable”, lo que ha motivado la creación de algoritmos de desaprendizaje aproximado cuya efectividad aún se encuentra en evaluación.

Una solución a futuro: el papel de los datos sintéticos

En este contexto, una de las tecnologías que ha ganado relevancia como estrategia preventiva es la generación de datos sintéticos. Estos datos, producidos a partir de modelos estadísticos o algorítmicos, replican la estructura y las relaciones estadísticas de un conjunto real sin contener, en principio, información identificable.

Según la guía de la AEPD basada en el trabajo de la autoridad de protección de datos de Singapur (PDPC), los datos sintéticos son una Privacy Enhancing Technology (PET) que permite entrenar modelos de IA sin exponer datos reales, minimizando así el riesgo de que estos sean «aprendidos» y posteriormente imposibles de olvidar.

La guía advierte, no obstante, que los datos sintéticos pueden entrañar riesgos de reidentificación si se parecen demasiado a los datos reales o si no se han aplicado medidas técnicas como la adición de ruido, la eliminación de valores atípicos o la reducción de granularidad. Por ello, recomienda evaluaciones de impacto, controles contractuales y medidas específicas de gobernanza.

Esta aproximación encaja perfectamente con el espíritu del derecho al olvido, ya que en vez de permitir que la IA aprenda datos personales que luego serán difíciles de borrar, se evita que los conozca desde el principio.

Para adaptar el derecho al olvido a la era de la IA, es necesario un enfoque estructural que combine:

  • Evaluaciones de impacto específicas: para modelos entrenados con TDM o scraping.
  • Trazabilidad de datos: para identificar qué información ha alimentado un modelo y en qué medida.
  • Técnicas de «olvido selectivo»: integradas desde el “Privacy by design
  • Supervisión reforzada por autoridades de protección de datos con unidades especializadas en IA.
  • Impulso del uso de datos sintéticos con estándares claros para su evaluación y gobernanza.

Conclusión

El derecho al olvido fue concebido para permitirnos borrar nuestra huella en la web. Hoy, frente a modelos que no olvidan, necesitamos rediseñarlo.

No basta con eliminar enlaces o anonimizar textos. Es necesario impedir que los sistemas de IA aprendan aquello que una persona quiere que desaparezca. Esto requiere transparencia en los modelos, trazabilidad en los datos y un marco regulatorio firme que garantice que el olvido digital siga siendo un derecho exigible.

Porque olvidar, cuando se trata de proteger la dignidad humana, no puede ser una opción técnica: debe seguir siendo un derecho fundamental.