El pecado original de los modelos de lenguaje

A principios de septiembre de 2025, Anthropic, la empresa responsable de la familia de modelos de lenguaje Claude, alcanzó un acuerdo extrajudicial por 1 500 millones de dólares con un grupo de autores que habían demandado a la compañía (acá un artículo sobre el tema). El litigio surgió porque los autores acusaban a Anthropic de haber utilizado sus obras sin autorización ni compensación adecuada. Como esta, hay muchas demandas similares en curso:

The New York Times vs. OpenAI, por el uso de artículos periodísticos en el entrenamiento de sus modelos.
Autores de ficción vs. OpenAI, por la inclusión de libros protegidos por derechos de autor.
Disney y Universal vs. Midjourney, por el uso de bases de datos con imágenes registradas.
Sony Music, Warner y otros sellos discográficos vs. Suno y Udio, por el uso de grabaciones musicales para generar audio sintético.

Estas acciones legales, que abarcan desde el periodismo y la literatura hasta la música y el arte, no son incidentes aislados: son la punta de lanza de un debate más profundo sobre la propiedad intelectual en la era de los modelos generativos. En este artículo quiero explorar los puntos en común entre estas demandas y las claves de las primeras decisiones judiciales.

Infinita hambre de datos

Los modelos de lenguaje requieren una enorme cantidad de datos para ser entrenados. Como expliqué en este artículo, los modelos necesitan ver durante su entrenamiento millones de ejemplos de cómo se combinan las palabras en distintos contextos. A partir de ese proceso, el modelo identifica patrones estadísticos que le permiten predecir cuál palabra tiene más probabilidad de aparecer después de otra. Esa capacidad de anticipar y producir secuencias coherentes es lo que los convierte en modelos generativos: máquinas diseñadas para generar palabras nuevas.

El ejemplo más conocido es GPT-4, que se entrenó con un corpus estimado de 13 billones de palabras. Esa escala no puede alcanzarse solo con los foros, blogs y páginas abiertas de internet. Para lograrla, los desarrolladores recurren a materiales de alta calidad: novelas, artículos científicos, periodismo profesional, manuales técnicos, etc. La mayoría de este material, sin embargo, está protegido por derechos de autor.

Ahí está la tensión: son precisamente esas obras —editadas, curadas, revisadas— las que aportan al modelo la riqueza lingüística necesaria para generar texto fluido y convincente. Fuentes abiertas como Common Crawl, ofrecen un enorme volumen de texto web, pero carecen de la calidad que caracteriza al material profesional. Los modelos necesitan datos amplios y diversos para mejorar, pero el contenido más valioso para entrenarlos suele ser el más protegido por la ley.

La doctrina del uso legítimo

Cuando iniciaron los primeros procesos jurídicos en contra de estas empresas, la mayoría de ellas decidieron negar que habían utilizado material protegido por el derecho de autor en el entrenamiento de sus modelos. Sin embargo, la evidencia de que estas empresas en efecto utilizaron este tipo de material se empezó a acumular por montones:

Documentos internos de empresas como Meta revelaron que sus equipos de entrenamiento discutieron activamente la necesidad de usar colecciones de datos “no convencionales”, incluyendo bibliotecas pirata como LibGen, para entrenar sus modelos.
Medios como The Atlantic obtuvieron acceso (aquí el artículo) a bases de datos con miles de libros empleados por distintas compañías para entrenar sus modelos.
Investigaciones recientes han desarrollado metodologías que muestran que los modelos de lenguaje pueden repetir pasajes enteros de libros o artículos palabra por palabra si se les da la instrucción adecuada.

Frente a este panorama, las empresas cambiaron de estrategia y empezaron a invocar la doctrina de uso legítimo (fair use, en inglés). En esencia, el argumento es el siguiente: entrenar un modelo con millones de textos sería comparable a un estudiante que lee cientos de libros para aprender a escribir. El modelo no copia, aprende patrones; su objetivo no es reproducir una obra, sino construir una representación estadística del lenguaje. El uso, dicen, es transformador.

Este razonamiento tiene cierta fuerza en la tradición legal estadounidense, que reconoce el uso legítimo en casos como la crítica, la parodia o la investigación académica. Y, en principio, los jueces que se han pronunciado al respecto han estado de acuerdo con este argumento. En Junio, un juez ya había fallado a favor de Anthropic y Meta en este sentido (acá un artículo sobre el tema).

La decisión del juez en el caso de Anthropic

Volvamos al inicio del artículo. Anthropic acaba de pagar $1.5 billones de dólares al grupo de autores que la estaba demando. ¿Por qué? Paradójicamente, no por la violación de la doctrina del uso legítimo. La empresa no fue condenada por violar derechos de autor en el entrenamiento de sus modelos, sino por la forma en que obtuvo los textos.

En su decisión, el juez sostuvo que entrenar un modelo de lenguaje con obras protegidas puede considerarse uso legítimo, en la medida en que el propósito no sea reproducir los textos, sino extraer de ellos patrones lingüísticos que permitan generar nuevo contenido. Hasta ahí, la sentencia respalda el argumento central de las tecnológicas.

Pero el juez introdujo una distinción clave: el fin puede ser legítimo, pero los medios no lo fueron. La investigación judicial demostró que Anthropic obtuvo una parte sustancial de su material de entrenamiento a través de fuentes no autorizadas, incluyendo bases de datos pirata conocidas, entre ellas LibGen y Z-Library.

El fallo cita documentos internos que muestran que la empresa destinó millones de dólares a comprar y escanear libros físicos para crear su propio repositorio digital, pero que también descargó colecciones completas sin pagar licencias. Es en este segundo punto donde el juez encontró la infracción. En otras palabras: el uso fue legítimo, pero la obtención fue ilegal.

Esa distinción parece sutil, pero marca un precedente profundo. El tribunal no prohibió entrenar modelos con material protegido, lo que hubiera significado un golpe devastador para toda la industria, sino que reconoció la práctica como parte del uso legítimo, siempre y cuando las obras se obtengan de manera legal.

El futuro de las disputas legales

Algunos celebraron este primer caso como una victoria para las empresas que desarrollan modelos de lenguaje (y en general modelos generativos). Entiendo el punto. El juez validó el uso de textos protegidos por el derecho de propiedad intelectual para entrenar modelos. Sin embargo, quedan muchas cuestiones legales por resolver.

La decisión deja abiertas preguntas esenciales sobre el impacto económico y cultural de estos modelos. Si las obras de escritores, periodistas, músicos o ilustradores alimentan sistemas que luego compiten directamente con ellos, ¿no debería existir algún tipo de compensación? ¿Puede considerarse uso legítimo un proceso que termina empeorando las condiciones de vida de quienes producen el conocimiento y la creatividad que lo hacen posible?

La escala es un factor importante acá. En el derecho de autor, uno de los criterios clave para evaluar el uso legítimo es si este afecta el valor de mercado de la obra original. Si un modelo entrenado con miles de novelas puede generar, en segundos, textos de calidad comparable a los de un autor vivo, está compitiendo directamente con su sustento. Lo mismo ocurre con el periodismo: si una herramienta puede ofrecer resúmenes instantáneos de artículos detrás de muros de pago, el incentivo para suscribirse a los medios desaparece.

Este es, a mí parecer, es el punto débil del argumento del uso legítimo. Los modelos de lenguaje no son estudiantes tomando notas para aprender, sino infraestructuras globales capaces de absorber, reproducir y monetizar el trabajo humano a una gran escala. Su funcionamiento altera no solo las reglas del derecho de autor, sino también las bases económicas del sector creativo. Yo, por ejemplo, cada vez veo más imágenes publicitarias que fueron claramente hechas con modelos generativos.

Conclusión

Las decisiones judiciales como la del caso Anthropic están empezando a dibujar el mapa legal de una tecnología que se mueve más rápido que las normas que intentan regularla. Cada fallo irá definiendo hasta dónde pueden llegar las empresas detrás de estos modelos y qué protección les queda a los creadores humanos.

Nada está escrito todavía. Lo que hoy los jueces consideran uso legítimo podría ser reinterpretado mañana, y las próximas demandas probablemente tendrán desenlaces distintos. Estamos en el comienzo de una conversación jurídica y cultural que apenas empieza a tomar forma.

Para terminar, quería mencionar algunos proyectos que están intentando demostrar que es posible entrenar modelos de lenguaje sin recurrir a material protegido:

OLMo: del instituto Allen AI, utiliza exclusivamente datos públicos y fuentes verificadas
Apertus: una iniciativa suiza, sigue un camino similar apostando por la transparencia y el acceso abierto.

Quizás en el futuro haya más espacio para modelos así. O para formatos de compensación transparentes para los autores de las obras que alimentan a los modelos. Veremos con el tiempo.