Las nubes en el horizonte del software libre

Para analizar el impacto de la inteligencia artificial y, en general, la situación del software libre tras la popularización de los grandes modelos de IA hay que manejar al menos tres ejes:

Modelos de IA libres. ¿Cuál es la situación de los modelos libres?
Impacto en el software libre «tradicional» y en su modelo de desarrollo
Sociedad de control, donde confluyen las derivadas de todo lo anterior

Vamos a hablar de modelos libres y del impacto sobre el modelo de creación de software libre. Pero vamos a dejar la sociedad de control para otro día porque se me alargó demasiado el artículo.

Modelos frontera libres vs cerrados, ¿cuál es la situación?

El rendimiento de los modelos abiertos más avanzados va entre uno y dos años por detrás de los así llamados modelos frontera.

Lo que llamamos modelos abiertos son modelos cerrados a todos los efectos pero para los cuales los pesos (esto es, los coeficientes de ajuste para cada variable que te permite ajustar la inferencia) son públicos y configurables.

En el mundo del software libre nos hemos acostumbrado a que abierto y libre signifiquen lo mismo en la práctica. No es así con estos modelos. No son libres. No puedes crearlos en casa, entrenarlos de nuevo a partir de un puñado de código porque no tienes los datasets para entrenarlos.

Más aún, no hay a la vista nada ni remotamente parecido a un dataset libre que pueda producir un modelo ni remotamente cercano a uno de los grandes modelos frontera actuales. Y si alguien lo intenta, le caerá un cease and desist de magnitudes bíblicas. Esto de entrenar con todo lo que pilles, ganar dinero, y luego pagar la multa puede servir a OpenAI o a Anthropic, pero desde luego no es algo que cualquier proyecto pequeño pueda asumir, ni financiera ni éticamente. No hablo de costes de entrenamiento, pese a ser elevados, no creo que sea tan limitante como lo anterior.

Para más inri, algunos de estos modelos abiertos te los están dando los grandes actores detrás de los modelos frontera más relevantes, como Google (Gemma y Gemini). Gemma ha avanzado mucho, me gusta la oportunidad de poder ejecutar estos modelos en local y Gemma 4 en local y en mi móvil son estupendos. Pero Google no va a morder la mano que le da de comer, y Gemini y todos los modelos disponibles en su nube con opción de pago van por delante.

Recuerdo charlar con Joaquín Cuenca (fundador y CEO de Magnific) sobre modelos libres hará ya unos años, en los inicios del pivot de Freepik hacia la IA. Y recuerdo su respuesta porque me sorprendió: él decía que era manejable para poder competir, que ese retraso de 1-2 años no era para tanto. Visto el crecimiento imparable de Magnific, el tiempo le ha dado la razón. Cero sorpresas: malamente iría todo si mi intuición hubiese ido más fina que su conocimiento experto.

Más aún, si el caso de Magnific sirve para algo, quizá sea para reforzar esa idea de Gonzalo Martín y Juan Lupión de que el lock-in estará en el envoltorio, en el valor añadido que se pueda dar sobre el modelo en sí, sobre todo si el avance en modelos desacelera en algún momento.

¿Veredicto? No hay modelos verdaderamente libres. A día de hoy no estamos en posición de pensar que vaya a haberlos. Los modelos abiertos permiten un mercado efervescente de empresitas pequeñas que pueden ganar por la mano a los reyes del legacy y producir soluciones especializadas que por ahora no están al alcance de quienes hacen modelos frontera de propósito general. La única defensa ahí es tener una cadena de valor que vaya más allá de lo que el propio vendor del modelo pueda replicar de forma demasiado fácil.

Impacto sobre el modelo tradicional

El mayor impacto está en repensar la gobernanza y la incorporación de nuevo código a estos proyectos.

La brecha de supervisión que se genera cuando la ejecución de tareas escala con automatización pero la validación humana no escala está haciendo muy costosa la labor de mantenimiento de los proyectos libres. Mucha contribución con código generado por IA pero que a los maintainers del repositorio les lleva mucho tiempo revisar. Como consecuencia, cada vez más proyectos libres anuncian que de alguna forma limitan la contribución, la pone bajo moderación.

Esto destruye la principal ventaja de estos proyectos libres: que ahí afuera hay mucha más masa gris disponible y capaz de contribuir a proyectos libres, lo que les permite ir por delante de alternativas comerciales diseñadas a puerta cerrada, sin importar lo talentoso de ese equipo que trabaja a puerta cerrada.

La decisión pragmática por ahora es la de permitir IA en el código de las pull requests pero siempre que haya validación humana. Es lo que desde hace unas semanas se ha aprobado para el kernel de Linux.

A corto plazo, les permite seguir navegando. Pero a medio plazo la brecha de supervisión se va a seguir ampliando. No parece sostenible a medio plazo (5 años), y mucho menos a largo.

Pero Linux es la cabeza corta del software libre. Parte de ese selecto grupo de proyectos reconocidos y apoyados sin ambigüedad por todos los actores. ¿Qué pasará con la larga cola? Los pequeños proyectos seguramente estén en situación mucho más dura.

¿Veredicto? Pintan bastos para la larga cola de proyectos, desde pequeñas librerías hasta aplicaciones con no demasiada atención mediática. Todo lo que no sea parte del listado top de proyectos bien financiados y bien mantenidos va a sufrir mucho bajo la presión de una creciente brecha de supervisión.

¿Pero es que no vas a añadir nada positivo? Sí, la comunidad

Acaso el único aspecto que arroja algo de esperanza al contexto del software libre sea su comunidad. Al final, son los que hacen posible que miles de programas y librerías sigan al día, resolviendo problemas reales de todos nosotros, aunque por el camino el coste de supervisar el desarrollo de los mismos esté creciendo por el impacto de una IA que permite que cada vez más personas contribuyan código e ideas.