Opinión Eugenio Mallol

Gazapos para entrenar a los agentes de IA

¿Realmente te fías de la información con la que estás entrenando a tu modelo de inteligencia artificial? Es la primera pregunta que deben responderse las organizaciones hoy; la segunda es esta: ¿vas a dejar en manos de un agente de IA el código de tu software?

En 1631, alguien olvidó incluir una palabra (“not”) en la redacción del séptimo mandamiento de una Biblia impresa en inglés y quedó así: “Thou salt commit adultery”. El error costó a los editores una multa que hoy equivaldría a unos 70.000 euros, pero sobre todo les ha permitido pasar a la historia de los gazapos, recopilada por la experta de Penguin Random House Rebecca Lee en el libro Rogues, Widows and Orphans (Pícaros, viudas y huérfanos) que saldrá a la venta en septiembre.

Promete ser una lectura deliciosa. En uno de sus discursos durante la Segunda Guerra Mundial, Winston Churchill definió a la Armada de Francia como el pilar (“prop”) de esa nación, pero lo que apareció escrito resultó ser muy diferente: “poop” (caca). Alguien cambió una letra al transcribir. “La libertad de leer sigue siendo un derecho constantemente amenazado”, afirma la conmiserativa Rebecca Lee.

Una de las cuestiones que formulo últimamente a los responsables de adoptar las aplicaciones de inteligencia artificial (IA) en su actividad profesional y en sus organizaciones es si se fían de la información proporcionada para su entrenamiento. El Consejo General del Poder Judicial (CGPJ) dispone, por ejemplo, del Centro de Documentación Judicial (CENDOJ) en el que se pueden consultar digitalmente las sentencias publicadas. Su contenido ha sido utilizado para entrenar modelos de IA.

En una conversación con jueces y abogados, organizada por el Consejo General de la Abogacía, planteé precisamente eso: ¿es fiable el contenido de las sentencias judiciales del CENDOJ con el que se está modelando la IA? ¿Se habrán colado muchas ‘poops’? ¿Se habrá eludido muchos “not”? Estalla la tormenta. Definitivamente, no son fiables al 100%. Junto a una mayoría de sentencias válidas, hay también un buen número mal fundamentadas, inconsistentes o simplemente injustas.

Repito la experiencia con directivos de EY, PwC, Deloitte, Accenture… ¿Y? Las grandes corporaciones están invirtiendo en enormes equipos de desarrolladores a los que les encargan construir modelos de IA propios. Para entrenarlos, ponen a su disposición monumentales repositorios de información que recogen todo el histórico de su actividad. Documentos y documentos, tokens y tokens, insuflados del famoso ‘know how’.

Bancos, energéticas, grandes compañías de distribución, telcos, todas están siguiendo pautas similares, pero ¿de verdad es fiable la información con la que entrenan a la IA? ¡Si ni siquiera un modelo sencillo y determinista de mantenimiento predictivo, en el que se proporcionan al algoritmo datos procedentes de mediciones de sensores, perfectamente parametrizadas, sirve para obtener pronósticos absolutamente fiables en una línea de producción o en una cadena logística!

Obviamente, no es un argumento para desechar la herramienta, faltaría más, pero sí para recordar que el criterio humano especialista sigue siendo fundamental. El debate del momento gira, en realidad, en torno al papel que debemos otorgar a los agentes de IA en la redacción de código en las empresas.

Hay experiencias favorables, desfavorables y mediopensionistas. Mientras tanto, se anuncian miles de despidos y hasta un “Apocalipsis del Empleo”, como si fuera tan fácil. Hay quien aprovecha cualquier circunstancia para hacer limpieza, esa es la verdad.

Ningún responsable de la adopción de la IA generativa en una organización descarta hoy la presencia de una persona en el bucle (human in the loop). El criterio humano basado en la experiencia es hoy el valor más en alza en las organizaciones. De hecho, la gran pregunta es: si dejamos de incorporar a personal joven que se forme, ¿cómo garantizaremos un relevo seguro de los profesionales que disponen hoy de criterio para evaluar los resultados de la IA? Cuidado con este asunto que puede estallar en unos años.

Una experiencia desfavorable de uso de agentes de IA para codificar: Jer (Jeremy) Crane, fundador de la plataforma SaaS para el automóvil PocketOS, cuenta cómo pasó un fin de semana recuperándose de un incidente de pérdida total de datos provocado por el agente de codificación de IA de la compañía en menos de 10 segundos. 

Según Crane, el agente Cursor detectó una discrepancia en las credenciales en el entorno de prueba de PocketOS y decidió solucionar el problema eliminando un volumen de Railway, el espacio de almacenamiento donde residían los datos de la aplicación. Para ello, buscó un token de API y lo encontró en un archivo no relacionado. Desastre total.

A favor de usar agentes de AI para codificar: Intercom decidió hace menos de un año apostar por Claude Code. El departamento de ingeniería adoptó una serie de principios ambiciosos incluso para los estándares habituales en su área y ahora los agentes de IA escriben, prueban y revisan el código.

Los programadores de Intercom les plantean problemas, no tareas. En cuestión de semanas, cientos de ingenieros han pasado a producir código a un ritmo que habría parecido imposible un año antes. No se trataba de una estrategia de marketing, aseguran. La tecnología de Anthropic se ha convertido en la base del desarrollo de software de Intercom.

La clave puede estar en el diseño de ‘arneses’ fiables. Prithvi Rajasekaran, miembro del equipo de laboratorios de Anthropic, está convencido de que el abanico de combinaciones interesantes de arneses no se reduce a medida que mejoran los modelos de IA. Cuando se implementa un nuevo modelo, dice, “generalmente es buena idea revisar su estructura”, para eliminar las partes que ya no contribuyen al rendimiento y añadir otras nuevas que logren una mayor capacidad que antes no era posible.

Todo conduce al criterio humano. Una investigación reciente de la Universidad de Stanford destaca que las diferencias de rendimiento entre un modelo básico y un sistema bien diseñado empiezan ser más importantes que el modelo de IA subyacente que se utilice para construirlo. Las decisiones de compra se tomaban, hasta hace poco, averiguando cuál era el modelo de IA con la puntuación más alta. Pero ha sido reemplazado por una pregunta más compleja: ¿qué sistema se ajusta mejor a la tarea? 

Artículos relacionados