Regulación tecnológica
Europa abre la puerta a nuevas demandas contra los gigantes de la IA al obligarlos a divulgar con qué datos entrenan sus modelos
El brazo ejecutivo de la Unión Europea presenta la plantilla que los proveedores de IA deberán rellenar para hacer públicos los datos extraídos de Internet que utilizan para entrenar modelos como ChatGPT, Gemini o Grok

Los iconos de las aplicaciones de DeepSeek y ChatGPT en la pantalla de un smartphone / Andy Wong | AP Photo

Europa quiere que inteligencia artificial y transparencia vayan de la mano. La Comisión Europea ha publicado este jueves la esperada plantilla que exige a todos los proveedores de esta tecnología divulgar los datos con los que han entrenado sus modelos, una obligación que puede tener repercusiones en todo el mundo.
En mayo del año pasado, la Unión Europea culminó la aprobación de la pionera ley que regula la IA según sus riesgos. El próximo 2 de agosto entran en vigor las normas que afectan a la la IA de propósito general, grandes modelos de lenguaje multimodales que, como ChatGPT (OpenAI), Gemini (Google), Grok (xAI), Llama (Meta) o Claude (Anthropic), pueden realizar una amplia gama de tareas.
A diferencia del código de buenas prácticas establecido por Bruselas, que es voluntario, la norma de transparencia será de cumplimiento obligado para todos los proveedores de modelos de IA que operan en la UE, aunque sean extranjeros. "Deberán elaborar y poner a disposición del público un resumen suficientemente detallado sobre el contenido utilizado para el entrenamiento del modelo de IA de uso general, de acuerdo con una plantilla proporcionada por la Oficina de IA", reza el artículo 53 de la conocida como AI Act.
Así, las compañías de IA deberán presentar un resumen de los datos utilzados en todas las etapas de entrenamiento de sus modelos, un proceso crucial pues permite que esos sistemas 'aprendan' a responder a las peticiones de los usuarios mediante la generación de texto, audio o imagen. El contenido con el que se entrena la IA generativa puede ser tanto datos extraídos de Internet como información recopilada por las empresas a través de las interacciones de los usuarios con sus productos.
Derechos de autor y propiedad intelectual
La plantilla presentada hoy clarifica que los gigantes tecnológicos estarán obligados a hacer públicos los datos que alimentan sus sistemas, algo que hasta ahora han rechazado alegando, en la mayoría de casos, que se trata de un secreto comercial. La opacidad de estas compañías ha dificultado saber con precisión qué chatbots o modelos conversacionales de IA se han entrenado ilícitamente con contenido protegido por los derechos de autor, desde obras literarias a canciones o artículos periodísticos. En enero de 2024, OpenAI reconoció en un encuentro con legisladores británicos que "sería imposible entrenar los modelos actuales de IA sin material con copyright".
La obligación establecida por Bruselas permitiría a los reguladores saber qué datos se explotan y abriría la puerta a la presentación de reclamaciones por todo tipo de infracciones. Por ejemplo, si se desvela que Google ha utilizado sin consentimiento los libros de un autor para que Gemini sepa imitar su estilo este podría utilizar ese conocimiento para querellarse contra la compañía. De esta manera, la amenaza de multas contra los proveedores de IA se dispara.
"El objetivo es aumentar la transparencia sobre el contenido utilizado para la formación de modelos de IA de uso general, incluido el texto y los datos protegidos por la ley, y facilitar a las partes con intereses legítimos, incluidos los titulares de derechos, el ejercicio y la aplicación de sus derechos en virtud del Derecho de la Unión", establece el documento presentado hoy.
Respeto a los derechos fundamentales
La Comisión espera que la plantilla tenga "un importante valor jurídico para la correcta aplicación de la Ley de IA" y permita "aplicar, cuando proceda, medidas de mitigación para garantizar el respeto de los derechos fundamentales a la no discriminación y a la diversidad lingüística y cultural".
Esa transparencia obligada también permitiría que "instituciones y organizaciones académicas puedan evaluar de forma crítica las implicaciones y limitaciones de un modelo de IA de uso general concreto, así como los posibles riesgos y daños asociados a los datos utilizados". Un mayor acceso a esa información, espera Bruselas, "también puede contribuir a que los mercados sean más transparentes y competitivos".
La plantilla ha sido elaborada tras consultar a una "amplia gama de partes interesadas", un total de 111 actores entre los que se incluyen "proveedores de modelos de IA de uso general, asociaciones empresariales, organizaciones de titulares de derechos, el mundo académico, la sociedad civil y las autoridades públicas".
Suscríbete para seguir leyendo
- La importancia de la educación: una profesora jubilada cacereña destaca el refugio que encontró una alumna en el instituto
- Extremadura abre el plazo para solicitar las ayudas de 40 euros al mes para estudiar inglés por las tardes
- El complejo Tuareg, un espacio familiar en Cáceres que espera un 'pequeño empujón' para atraer más congresos
- Extremadura concederá ayudas de hasta 14.000 euros para la rehabilitación de viviendas
- Cáceres se prepara para rugir de solidaridad con la gran Papanoelada Motera 2025
- Una tesis reveló que 'Mayéutica' de Robe escondía una sinfonía secreta sobre el autoconocimiento
- Plasencia podría acoger en los próximos días un acto de despedida a Robe
- El Langui, la estrella que ofrecerá un concierto gratuito en Cáceres la próxima semana