Tecnología

Qué pasará cuando nos quedemos sin datos para entrenar a la IA

Una nueva oleada de startups se anticipa a la crisis existencial a la que se enfrenta la industria de la inteligencia artificial

Ilustración: Alex Castro para Forbes

En 2011, Marc Andreessen, cuya empresa de capital riesgo Andreessen Horowitz ha invertido desde entonces en algunas de las mayores startups de inteligencia artificial (IA), escribió que «el software se está comiendo al mundo». Más de una década después, está haciendo literalmente precisamente eso.

La IA, en concreto los grandes modelos lingüísticos que la impulsan, es una voraz consumidora de datos. Pero esos datos son finitos y se están agotando. Las empresas lo han explotado todo para entrenar inteligencias artificiales cada vez más potentes: transcripciones y subtítulos de vídeos de YouTube, publicaciones públicas de Facebook e Instagram, libros y artículos de noticias protegidos por derechos de autor, a veces sin permiso y otras con acuerdos de licencia. ChatGPT de OpenAI, el chatbot que ayudó a generalizar la IA, ya ha sido entrenado con todo el internet público, unos 300.000 millones de palabras, incluidas todas las de Wikipedia y Reddit. En algún momento, no quedará nada.

Los investigadores lo llaman «chocar contra el muro de datos». Y dicen que es probable que ocurra tan pronto como en 2026.

Esto convierte la creación de más datos de entrenamiento de IA en una cuestión que mueve miles de millones de dólares y a la que una cohorte emergente de nuevas empresas está buscando nuevas formas de dar respuesta.

Una posibilidad: crear datos artificiales.

Este es el planteamiento de la empresa Gretel, de cinco años de antigüedad, ante el problema de los datos de IA. Crea lo que se conoce como «datos sintéticos», es decir, datos generados por IA que imitan fielmente la información real, pero que no son reales. Durante años, la empresa, valorada ahora en 350 millones de dólares, ha proporcionado datos sintéticos a empresas que trabajan con información personal identificable que debe protegerse por motivos de privacidad, por ejemplo, datos de pacientes. Pero ahora su director ejecutivo, Ali Golshan, ve la oportunidad de suministrar a las empresas de inteligencia artificial, que carecen de datos, datos falsos creados desde cero, que pueden utilizar para entrenar sus modelos de IA.

«Los datos sintéticos encajaban perfectamente», afirma Golshan, antiguo analista de inteligencia, sobre el problema del muro de datos. «Resolvía dos caras de la misma moneda. Se podía hacer que los datos fueran de alta calidad y seguros».

Este enfoque de «la IA alimenta a la IA» ya ha sido adoptado por Anthropic, Meta, Microsoft y Google, que han utilizado datos sintéticos en alguna medida para entrenar sus modelos. El mes pasado, Gretel anunció que pondría sus datos sintéticos a disposición de los clientes que utilicen Databricks, una plataforma de análisis de datos, para construir modelos de IA.

Pero los datos sintéticos tienen sus límites. Pueden exagerar los sesgos de un conjunto de datos original y no incluir valores atípicos, raras excepciones que sólo se verían en los datos reales. Eso podría empeorar aún más la tendencia de la IA a alucinar. O los modelos entrenados con datos falsos podrían simplemente no producir nada nuevo. Golshan llama a esto «espiral de la muerte», pero es más conocido como «colapso del modelo». Para evitarlo, exige a los nuevos clientes que proporcionen a Gretel una parte de datos reales de alta calidad. «Los datos basura siguen siendo datos basura», explica Golshan a Forbes.

Otra forma de sortear el muro de los datos: las personas. Algunas startups están contratando ejércitos de ellas para limpiar y etiquetar los datos existentes con el fin de hacerlos más útiles para la IA o crear más datos nuevos.

El peso pesado en el llamado espacio de «etiquetado de datos» es el gigante Scale AI, valorado en 14.000 millones de dólares, que proporciona datos anotados por humanos a las principales startups de IA, como OpenAI, Cohere y Character AI. Se trata de una empresa gigantesca que emplea a unos 200.000 trabajadores humanos en todo el mundo a través de una filial llamada Remotasks. Estos trabajadores hacen cosas como dibujar recuadros alrededor de objetos en una imagen o comparar diferentes respuestas a una pregunta y valorar cuál es la más acertada.

A una escala aún mayor, Toloka, con sede en Ámsterdam, ha conseguido nueve millones de etiquetadores humanos o «tutores de IA» para fines similares. Apodados «Tolokers», estos trabajadores autónomos de todo el mundo también anotan datos, como el etiquetado de información de identificación personal en un conjunto de datos para su uso en un proyecto comunitario de IA dirigido por Hugging Face y ServiceNow. Pero también crean datos desde cero: traducen información a nuevos idiomas, la resumen en fragmentos y la transcriben de audio a texto.

Toloka también trabaja con expertos, como doctores en física, científicos, abogados e ingenieros de software, para crear datos originales específicos para modelos que se centran en tareas específicas. Por ejemplo, contrata a abogados germanoparlantes para crear contenidos que puedan introducirse en los modelos de IA jurídica. Pero es mucho trabajo reunir a personas de 200 países, comprobar que su trabajo es preciso, auténtico e imparcial y traducir la jerga académica a un lenguaje accesible y digerible para los modelos de IA.

«A nadie le gusta tratar con operaciones humanas», explica a Forbes Olga Megorskaya, directora general de Toloka. «A todo el mundo le gusta construir modelos y negocios de IA. Pero tratar con humanos reales no es una habilidad muy común en la industria de la IA».

Hay problemas laborales en toda la industria en torno a este tipo de trabajo. Los trabajadores de Scale hablaron el año pasado a Forbes de sus bajos salarios. Los trabajadores de Toloka contactados para esta historia tenían quejas similares. Megorskaya, CEO de Toloka, dijo a Forbes que cree que la compensación es justa, y Scale AI ha dicho de manera similar que se compromete a pagar a los trabajadores «un salario digno».

La solución más obvia al problema de la escasez de datos es quizá la más obvia: utilizar menos datos para empezar.

Aunque existe una necesidad urgente de datos de entrenamiento de IA para alimentar modelos masivos, algunos investigadores plantean que algún día la IA avanzada podría no necesitar tantos. Nestor Maslej, investigador de Inteligencia Artificial Centrada en el Ser Humano de la Universidad de Stanford, cree que uno de los verdaderos problemas no es la cantidad, sino la eficiencia.

«Si se piensa en ello, estos grandes modelos lingüísticos, por muy impresionantes que sean, ven millones de veces más datos de los que vería cualquier ser humano en toda su vida. Sin embargo, los humanos pueden hacer algunas cosas que estos modelos no pueden», afirma Maslej. «Desde cierto punto de vista, está claro que el cerebro humano funciona con un nivel de eficiencia que estos modelos no captan necesariamente».

Ese avance técnico aún no se ha producido, pero la industria de la IA ya está empezando a alejarse de los modelos masivos. En lugar de intentar construir grandes modelos lingüísticos que puedan competir con OpenAI o Anthropic, muchas empresas de IA están construyendo modelos más pequeños y específicos que requieren menos datos. El popular fabricante de modelos de IA de código abierto Mistral AI, por ejemplo, lanzó recientemente Mathstral, una IA diseñada para sobresalir en problemas matemáticos; es una fracción del tamaño del GPT-4 de OpenAI. Incluso OpenAI está entrando en el juego de los minimodelos con el lanzamiento de GPT-4o mini.

«Estamos viendo esta carrera por el volumen y a los grandes proveedores de modelos generalistas acaparando más datos y probando esquemas para generar nuevos datos», afirma Alex Ratner, CEO de la empresa de etiquetado de datos Snorkel AI. «La clave para conseguir que un modelo funcione realmente bien en una determinada tarea es la calidad y la especificidad de los datos, no el volumen».

Como resultado, el enfoque de Snorkel es ayudar a las empresas a aprovechar los datos que ya tienen y convertirlos en oro para el entrenamiento de la IA. La empresa, nacida en el laboratorio de IA de Stanford y valorada ahora en mil millones de dólares, ofrece software que facilita al personal de una empresa el etiquetado rápido de los datos.

De este modo, los modelos de una empresa están diseñados para lo que realmente necesitan. «No hace falta tomar un cohete para ir al supermercado», afirma.

Artículos relacionados