Abundando en las diferencias entre roles en un proyecto donde hay ingeniería de datos

Hace unos años dediqué una nota a aclarar un poco lo que se escondía tras los entonces nuevos nombres de algunos roles habituales en ingeniería de software.

He pensado en eso mientras miraba este sencillo póster sobre el mismo tema, que me llega vía Zach Wilson, cuya idea es sencilla: mirar a los roles en función de cuánto tiempo se dedican a implementar software o a analizar datos. Los porcentajes exactos son irrelevantes y puramente orientativos.

Me ha parecido que mirar a esto desde este ángulo permite entenderlo de forma sencilla. De un lado el ingeniero de software y de otro el analista de datos. Entre uno y otro, el abanico de posibilidades.

Modelos de inteligencia artificial, obras derivadas, y propiedad intelectual

Monstruo de pesadilla con mezcla de estilos de Moebius, Turner, Akira, y James Jean

Termina 2022 y las guerras del copyright suenan a cosa de viejóvenes, de personas que querían copiar música en CDs, unas finas láminas de metal envueltas en policarbonato que la actual chavalada de instituto ni tiene ni va a tener jamás. Quizá sea cierto, pero los problemas que las originaron siguen vigentes. La tecnología digital hace que el coste de producción y reproducción de obras digitales sea marginal y tienda a cero (hablamos de esto al hilo de la poca confianza en todo lo relacionado con NFTs). En este contexto, las obras quieren ser libres, copiadas, remezcladas, y las personas quieren copiar, remezclar, crear nuevas cosas. Pero la ley no está adaptada a este escenario. Hoy vamos a hablar de modelos de inteligencia artificial y de los datos con los que se entrenan para producir lo que en esencia son obras derivadas.

Comentamos de pasada hace unos días el caso de Copilot y prometimos una nota más extensa al respecto:

Por supuesto, está el debate de la autoría. En este laberinto sin salidas en que se ha convertido la gestión de propiedad intelectual¿quién es el autor de la imagen, quien teclea el texto y la pide o el software que realmente la produce sin que sepamos bien qué pasa dentro? Aún más complejo es el caso de Copilot, entrenado con una infinidad de repositorios de software libre, muchos de ellos copyleft, que te devuelve código sin hacer mención a este hecho ni respetar el carácter extensivo de estas licencias sobre los trabajos derivados.

Estos días se ha comentado mucho una entrevista con David Holz, fundador de Midjourney (vía PetaPixel), en la que comenta que su modelo está entrenado con cientos de millones de imágenes sobre las cuales no han obtenido permiso expreso de los tenedores de los derechos. En esencia, la misma situación que con Copilot: modelo que produce trabajos derivados sin tener permiso para producir esos trabajos derivados.

Holz da su argumento para esto. No los han conseguido porque no se puede. Algo de razón tiene: el problema de atribución de derechos es real, ya hablamos hace muchos años de las óbras huérfanas. Mirando su respuesta con algo de cinismo, no obstante, quizá tampoco hayan investigado mucho para encontrar a esos autores.

El origen del problema: el exceso de copyright

La protección por copyright es demasiado severa en algunos aspectos. Para hacerlo todo más complejo, en las guerras del p2p en torno a la propiedad intelectual la única solución creativa al problema fue adoptar Creative Commons como modelos de licencia, en sus diferentes sabores.

La derivada de esto fue una atomización de las resistencia a unas leyes que a estas alturas suponen más trabas que ayudas a la creación. Escribíamos en este blog en el año 2009:

Creative Commons anima a cada persona a ser el dueño del destino de su obra. Parece buena idea, pero ¿lo es?. Desintermedia, pero no libera. No pretende «revocar todos los derechos», sino eliminar a la entidad de gestión y sustituirla por autores-abogado. Ah, ¿mencioné que Lessig es abogado? Es fantástico que en lugar de simplificar el panorama de licencias, haya uno cada vez más complejo

Otra deliciosa y conveniente casualidad es que siendo Lessig abogado no concibiese un sistema que simplificase el panorama de gestión de derechos, sino todo lo contrario, un verdadero laberinto legal de share alikes, non-derivatives, non-commercial, etc..

De aquellos polvos, los problemas a los que se enfrentan estas IA

El caso es que la excusa de Holz no sirve para Copilot. El modelo de Microsoft bebe directamente de miles de repositorios alojados en Github, cuya autoría es trazable commit a commit con una granularidad exquisita y, en muchos casos, licenciado de forma inequívoca como copyleft. Y sin embargo, han actuado exactamente igual que Midjourney.

Va a ser curioso ver cómo se escudan unos y otros frente a posibles demandas por plagio en obras artísticas o por incumplimiento de licencias en el caso de producción de código derivado de software libre sin avisar a los clientes de Copilot de esta circunstancia legal.

Ni siquiera creo que haya una solución. La maraña legal es tal que, perdida la oportunidad en el anterior choque entre tecnología y ley, no creo que exista solución sin replantearlo desde cero. Y eso tampoco es posible porque cualquier reforma legal en ese sentido dañaría a los actuales tenedores de derechos de explotación, que reclamarían indemnizaciones. Un berenjenal en toda regla. Así, tampoco hay motivos para pensar que el desenlace pueda variar en esta ocasión.

En todo caso, un tema al que seguir prestando atención pues Lessig tenía razón en un aspecto clave: el código es la ley, lo que está programado de una forma impone forma de uso, y también ciertas costumbres. Si estas aplicaciones se extienden como parece que lo harán, ¿cómo se va a lograr la ley frenar esa producción infinita de nuevas obras derivadas sin dañar la libertad de todos?

[Imagen: Monstruo de pesadilla con mezcla de estilos de Moebius, Akira, y James Jean, porque parecía buena idea pedir a Midjourney un pastiche de estilos para ilustrar esta nota.]

Diviértete con tus cosas; puede que llegue dinero, pero no las hagas pensando en ello

Mind Image

Para empezar, una mentira: dedícate a lo que te guste y no tendrás que trabajar ni un día más en tu vida. Seguro que esa mentira la has leído antes. Si te has sentido insultado, tengo una buena noticia: no estás solo, yo te acompaño. Quien dice eso solo pretende bajarte la guardia para, a continuación, sacarte las perras con algún crecepelo laboral.

Pero. Siempre hay un pero. Cada vez más los salarios mejor remunerados están relacionados con el conocimiento (hay excepciones, pero pocas) y para ser realmente bueno en un ámbito del conocimiento, el mismo tiene que gustarte. Hacen falta muchas horas para dominar el conocimiento sobre un tema, y muchísimas más para seguir estando al día. Si no te gusta, si te arrimas solo por la pasta, la pasta te va a esquivar como Neo danzaba entre las balas. Estoy apuntando a la cinta transportadora de las bootcamps por la que muchos viajan al mundo tech como los buscadores de oro remontaban el Mississippi corriente arriba.

No me opongo a la búsqueda de una vida mejor. Todos tenemos derecho a descubrir una vocación tardía. Pero si te quieres hacer programador porque tu grado en periodismo, o en historia, o en psicología no te permiten alcanzar el salario que ves en personas de tu entorno, entonces ese salario te va a esquivar. No es obvio entender cómo funcionan algunas cosas que ni lo hacen de forma directa ni funcionan tampoco en su primera derivada. Te lo digo yo porque estas cosas no te las va a decir quien te vende el curso o la certificación.

En el mundo del conocimiento, dedicarte a lo que te gusta es lograr que las horas que echarás por gusto leyendo o estudiando fuera de tu horario laboral te renten no sólo en la satisfacción intelectual de esos ratos sino también de lunes a viernes y de nueve a cinco. Es una ventaja competitiva salvaje. Pero no vas a lograrla durmiendo ni te la puedes bajar en dos semanas como el que baja un DLC para un videojuego.

Que sí, que dedicarte a cosas que te gustan está bien, pero no porque vayas a ir a trabajar canturreando como los enanitos de Blancanieves bajaban a picar piedra. El más divertido de los trabajos sigue siendo algo que te pagan por hacer, y eso es así porque si no lo hiciesen tú harías otra cosa. Trabajar vas a trabajar hasta el fin de tus días, muchos días preferirás estar un rato más en la cama. Las milongas no caben en estos temas. Asúmelo.

En A brief history of everyone who ever lived, libro que ya comentamos en estas páginas, cuenta Adam Rutherford una historia de que cuando se apuntaba a la secuenciación del genoma humano, en una conferencia que había reunido a las mentes más brillantes que trabajaban en el tema, una noche entre copazos y risas ese grupo de personas hizo una apuesta para ver quién se acercaba más al número de genes totales que se encontraría en el ADN humano. El concurso corrió entre 2000 y 2003, y se le conoce como el Gene Sweepstake. Científicos, gente seria, amante de sus temas, y con capacidad para divertirse y retarse con ello. Un cierto momento de ética hacker ahí.

Lo cual nos lleva a la aparentemente ecléctica recomendación vital de Nassim Nicholas Taleb sobre ir a fiestas: ve a fiestas, en ellas se esconde la serendipia. Se puede trabajar duro y apostar 1€ entre coñas a ver quién acierta el número de genes como el que acierta El precio justo. Es compatible. Work hard, party hard.

Como tema aparte, además de por lo que diga Taleb, que es un tipo mucho más listo que yo, también les digo que un día, dentro de muchos años, se arrepentirán de no haber salido (casi) a gatas de ese bar al que sus amigos le ofrecieron ir. Personas y momentos, la vida no es otra cosa. Recuerdo con añoranza las noches de aquel período que pasé en Ciudad Real durante mi doctorado. ¿Ciudad Real, Jose, really? Sí. Estarás pensando que vaya peñazo de sitio feo. Y creerás tener razón. Pero ya te aviso que no: recuerdo aquel tiempo siempre con alegría como una suerte de cónclave continuo donde podíamos estar estudiando física, agotando las cervezas, o preparando cócteles, y hablando sobre láseres, difracción, o ionización multifotónica. Fue apasionante precisamente por eso: porque era un pack indivisible como los zumos del Mercadona. No aprovechabas igual las sesiones con los mejores expertos en láser de España enseñándote durante el día si no eras capaz de estar también dándolo todo hablando de láseres por pura diversión durante las noches. Puro plot twist nerd. Cobrábamos todos una porquería, no éramos ni mileuristas. Lo volvería a hacer.

Así que sí. Diviértete con tus cosas. Pero no las hagas pensando en el dinero. No en primer término, al menos. Hazlas porque te compense hacerlas per se. Puede que así, además, alguien te pague y te pague bien por hacerlas. Con tiempo y una caña, que dice mi padre; tiempo, una caña y no parar de estudiar nunca, que me gusta decir a mí. La suerte sonríe a las mentes preparadas. Disfruta del camino.

[Imagen: Imagen mental perturbadora, hecha con Midjourney.]

Para recordar cuando los políticos pidan sacrificios

Es lógico que donde hay sacrificio, haya alguien que recoja las ofrendas de ese sacrificio. Donde hay servicio, hay alguien a quien se sirve. El hombre que te habla de sacrificio está hablando de esclavos y amos, y pretende ser el amo.

Ayn Rand

Esta cita me ha recordado a Ya está bien de Triana, una queja en toda regla a los políticos que dicen saber mejor que nosotros lo que pensamos y lo que nos conviene. Suelen ser los mismos que luego piden sacrificios pero rara vez los hacen ellos mismos, o no en la misma medida en que los piden.

Quién hablará
Quién nos dirá
La verdad
Todos pretenden saber y decir
Lo que piensa usted
Con elegantes palabras
Y el gesto duro a la vez
Queremos elegir
Sin que nadie diga más
El rumbo que lleva a la orilla
De la libertad.

Los servicios de Cloud no son una bala de plata para todo

Una idea realmente útil relativa a los equilibrios necesarios antes de decidir el tipo de infraestructura a utilizar para un proyecto, así como si internalizar la misma o usarla como servicio, por David Heinemeier Hansson:

The cloud excels at two ends of the spectrum, where only one end was ever relevant for us. The first end is when your application is so simple and low traffic that you really do save on complexity by starting with fully managed services. (…) It remains a fabulous way to get started when you have no customers, and it’ll carry you quite far even once you start having some. (Then you’ll later be faced with a Good Problem once the bills grow into the stratosphere as usage picks up, but that’s a reasonable trade-off.)

The second is when your load is highly irregular. When you have wild swings or towering peaks in usage. When the baseline is a sliver of your largest needs. Or when you have no idea whether you need ten servers or a hundred. There’s nothing like the cloud when that happens.

Está claro que los servicios de cloud computing tienen un coste explícito (facturas a final de mes) e implícito (autonomía y dificultad de migración), pues tampoco son tan interoperables los diferentes proveedores como parece de entrada y existe cierto lock-in.

Con todo este contexto, a menos que estés en uno de los escenarios descritos arriba optar por uno u otro tipo de infraestructura no es una decisión trivial.

Update (2022-12-13 @ 21:04): Parece que hay mucha más gente desplegando sus propias nubes en infrastructura propia, OpenStack ha más que duplicado el número de instalaciones en un par de años. En mi anterior empresa, por cierto, lo usábamos y a mí me pareció siempre una opción excelente.

Relato periodístico en torno a las crisis económicas

Periódico con "Crisis" en el titular

Hoy repasaba borradores inconclusos de este blog con el objetivo de darles forma y publicarlos como he estado haciendo toda esta semana que estuve de vacaciones, ya que tengo más de ciento veinte notas a medias, y he pasado un buen rato escribiendo sobre una anécdota que, al ir a enlazar un post de este propio blog, he descubierto que ya la había publicado hace algún tiempo.

Se trata de una anécdota acontecida con una periodista que me contactó hace casi tres años, en pleno confinamiento, para que le contase mi experiencia como recién incorporado al mercado laboral cuando nos alcanzó la gran crisis económica de 2008.

En fin, que he estado un rato reflexionando sobre el rol de los medios como distorsionadores de la realidad mediante la elección arbitraria del tipo de relatos que se publican en sus páginas. Nada nuevo, pero, en lugar de enrollarme más, si tienen interés en el tema les animo a leer mi anterior nota al respecto.

[Imagen: Periódico doblado con «Crisis» en el titular, hecha con Midjourney.]

NFT, coleccionismo, y estafas piramidales

Cyberpunk cyborg geisha in Tokyo

Pronto hará dos años desde que se empezó a hablar masivamente de NFTs, non-fungible tokens o tokens no fungibles, el último invento ligado a Blockchain que causó furor entre las hordas de seguidores de ese tema.

¿Qué es un NFT? Para entenderlo bien hay que entender la diferencia entre bienes fungibles y no fungibles. Un bien fungible es reemplazable o intercambiable por otro, ya que hay otros iguales. El dinero es un ejemplo básico de bien fungible. Un bien no fungible no es reemplazable por otro porque no hay dos iguales. Puedo vender una obra de arte y con ese dinero comprar otra. Tengo una obra de arte pero es otra diferente.

Ahora que sabemos qué es un bien no fungible. ¿Qué es un token no fungible? Un identificador digital único que no puede ser copiado, fraccionado, cuya unicidad generalmente se gestiona ligándolo a un blockchain y que se usa para certificar propiedad o autenticidad de obras digitales tales como fotos, vídeos o audio.

Desde que se comenzó a hablar de ellos, mucha gente de mi entorno me ha preguntado por ellos, en mi calidad de prescriptor tecnológico. Ya saben, hay todo un público masivo estudiando la opción de invertir en criptodivisas. Los NFT iban a ser, según ese relato, la última variante de esa inversión que hace nuevos millonarios. Por eso me he decidido a terminar este borrador que comencé hace casi dos años.

El tema es que en 2022 está de moda hablar de los NFT como algo a lo que hay que acercarse con cautela, o mucho mejor no acercarse siquiera. Pero en aquellos primeros días, la más clarividente de las explicaciones sobre estos NFT se la leí a Seth Godin. Sí, puede hacer 20 años que no lees a Godin una idea novedosa, pero el día que escribió NFTs are a dangerous trap estuvo muy fino:

The more time and passion that creators devote to chasing the NFT, the more time they’ll spend trying to create the appearance of scarcity and hustling people to believe that the tokens will go up in value. They’ll become promoters of digital tokens more than they are creators. Because that’s the only reason that someone is likely to buy one–like a stock, they hope it will go up in value. Unlike some stocks, it doesn’t pay dividends or come with any other rights. And unlike actual works of art, NFTs aren’t usually aesthetically beautiful on their own, they simply represent something that is.

BUYERS of NFTs may be blind to the fact that there’s no limit on the supply. In the case of baseball cards, there are only so many rookies a year. In the case of art, there’s a limited number of famous paintings and a limited amount of shelf space at Sotheby’s. NFTs are going to be more like Kindle books and YouTube videos. The vast majority are going to have ten views, not a billion. It’s an unregulated, non-transparent hustle with ‘bubble’ written all over it.

Es muy interesante que Seth Godin añada a todo lo comentado la falta de regulación, pues apenas unas semanas después de su artículo comenzaron a aparecer los primeros casos de fraude con NFTs, con personas acuñando colecciones de ellos y afirmando ser los creadores de las obras de arte vinculadas sin serlo. El caso de David Revoy es significativo, una colección de NFT vinculados a su colección de tiras fue subida a OpenSea (popular Marketplace para este tipo de bienes no fungibles) sin su permiso.

No me queda claro que pueda forzarse ese permiso. Al fin y al cabo, comprar el NFT no es comprar los derechos de explotación de la obra. Es un producto adicional que no afecta ni se vincula a la obra más allá de lo declarativo: el NFT dice ser algo y tener una relación con una obra.

Meses después de que Seth Godin publicase su artículo, Wall Street Journal llegaba a la misma conclusión que Seth Godin alcanzó en cuestión de horas: los nuevos activos digitales son ridículamente fáciles de crear, y eso es un problema. NFTs, criptodivisas y todo lo relacionado con lo que ahora llaman web3 tienen el aspecto de ser una gigantesca estafa multinivel.

Pese a su marketing como herramienta descentralizada, la realidad es que a día de hoy la concentración de riqueza en torno a Bitcoin es mucho mayor que la que ves en la economía en general, con apenas un puñado de carteras acumulando la mayoría de estas monedas y participando en la mayoría de las transacciones.

En 2022, además, se ha comenzado a percibir el mercado de NFT como una burbuja en colapso, con algunas escasas excepciones como los avatars de Reddit, a los que curiosamente no llamaron NFT en ningún sitio (quizá para no generar rechazo), como nos contaron en Xataka. El asunto es que con el advenimiento de motores de IA capaces de generar ilustraciones sensacionales en cuestión de segundos, la generación de archivos digitales es potencialmente inagotable y cada vez más acelerada, lo que vendría a dar la razón a Seth Godin.

[Imagen: Cyberpunk cyborg geisha in Tokyo, por éste que les escribe y hecha con Midjourney.]

[No, esa imagen no tiene NFT. Y tampoco tiene sentido acuñarlo.]

Este blog usa cookies para su funcionamiento.    Más información
Privacidad