Modelos de inteligencia artificial, obras derivadas, y propiedad intelectual

Termina 2022 y las guerras del copyright suenan a cosa de viejóvenes, de personas que querían copiar música en CDs, unas finas láminas de metal envueltas en policarbonato que la actual chavalada de instituto ni tiene ni va a tener jamás. Quizá sea cierto, pero los problemas que las originaron siguen vigentes. La tecnología digital hace que el coste de producción y reproducción de obras digitales sea marginal y tienda a cero (hablamos de esto al hilo de la poca confianza en todo lo relacionado con NFTs). En este contexto, las obras quieren ser libres, copiadas, remezcladas, y las personas quieren copiar, remezclar, crear nuevas cosas. Pero la ley no está adaptada a este escenario. Hoy vamos a hablar de modelos de inteligencia artificial y de los datos con los que se entrenan para producir lo que en esencia son obras derivadas.

Comentamos de pasada hace unos días el caso de Copilot y prometimos una nota más extensa al respecto:

Por supuesto, está el debate de la autoría. En este laberinto sin salidas en que se ha convertido la gestión de propiedad intelectual, ¿quién es el autor de la imagen, quien teclea el texto y la pide o el software que realmente la produce sin que sepamos bien qué pasa dentro? Aún más complejo es el caso de Copilot, entrenado con una infinidad de repositorios de software libre, muchos de ellos copyleft, que te devuelve código sin hacer mención a este hecho ni respetar el carácter extensivo de estas licencias sobre los trabajos derivados.

Estos días se ha comentado mucho una entrevista con David Holz, fundador de Midjourney (vía PetaPixel), en la que comenta que su modelo está entrenado con cientos de millones de imágenes sobre las cuales no han obtenido permiso expreso de los tenedores de los derechos. En esencia, la misma situación que con Copilot: modelo que produce trabajos derivados sin tener permiso para producir esos trabajos derivados.

Holz da su argumento para esto. No los han conseguido porque no se puede. Algo de razón tiene: el problema de atribución de derechos es real, ya hablamos hace muchos años de las óbras huérfanas. Mirando su respuesta con algo de cinismo, no obstante, quizá tampoco hayan investigado mucho para encontrar a esos autores.

El origen del problema: el exceso de copyright

La protección por copyright es demasiado severa en algunos aspectos. Para hacerlo todo más complejo, en las guerras del p2p en torno a la propiedad intelectual la única solución creativa al problema fue adoptar Creative Commons como modelos de licencia, en sus diferentes sabores.

La derivada de esto fue una atomización de las resistencia a unas leyes que a estas alturas suponen más trabas que ayudas a la creación. Escribíamos en este blog en el año 2009:

Creative Commons anima a cada persona a ser el dueño del destino de su obra. Parece buena idea, pero ¿lo es?. Desintermedia, pero no libera. No pretende «revocar todos los derechos», sino eliminar a la entidad de gestión y sustituirla por autores-abogado. Ah, ¿mencioné que Lessig es abogado? Es fantástico que en lugar de simplificar el panorama de licencias, haya uno cada vez más complejo

Otra deliciosa y conveniente casualidad es que siendo Lessig abogado no concibiese un sistema que simplificase el panorama de gestión de derechos, sino todo lo contrario, un verdadero laberinto legal de share alikes, non-derivatives, non-commercial, etc..

De aquellos polvos, los problemas a los que se enfrentan estas IA

El caso es que la excusa de Holz no sirve para Copilot. El modelo de Microsoft bebe directamente de miles de repositorios alojados en Github, cuya autoría es trazable commit a commit con una granularidad exquisita y, en muchos casos, licenciado de forma inequívoca como copyleft. Y sin embargo, han actuado exactamente igual que Midjourney.

Va a ser curioso ver cómo se escudan unos y otros frente a posibles demandas por plagio en obras artísticas o por incumplimiento de licencias en el caso de producción de código derivado de software libre sin avisar a los clientes de Copilot de esta circunstancia legal.

Ni siquiera creo que haya una solución. La maraña legal es tal que, perdida la oportunidad en el anterior choque entre tecnología y ley, no creo que exista solución sin replantearlo desde cero. Y eso tampoco es posible porque cualquier reforma legal en ese sentido dañaría a los actuales tenedores de derechos de explotación, que reclamarían indemnizaciones. Un berenjenal en toda regla. Así, tampoco hay motivos para pensar que el desenlace pueda variar en esta ocasión.

En todo caso, un tema al que seguir prestando atención pues Lessig tenía razón en un aspecto clave: el código es la ley, lo que está programado de una forma impone forma de uso, y también ciertas costumbres. Si estas aplicaciones se extienden como parece que lo harán, ¿cómo se va a lograr la ley frenar esa producción infinita de nuevas obras derivadas sin dañar la libertad de todos?

[Imagen: Monstruo de pesadilla con mezcla de estilos de Moebius, Akira, y James Jean, porque parecía buena idea pedir a Midjourney un pastiche de estilos para ilustrar esta nota.]