Tecnología

Cómo la falta de datos amenaza el futuro del entrenamiento en IA

La privacidad y seguridad de los datos serán primordiales

Tierra (centrada en Europa) representada por pequeños puntos, código binario y líneas: big data, negocios globales, criptomonedas, render 3D

Quizás en los primeros días de la IA/ML, tenías un poco de curiosidad acerca de cuáles serían los factores limitantes en estas nuevas tecnologías.

Una posible razón era el coste, pero hemos visto que el valor de la informática disminuye constantemente con la aparición de nuevas y potentes LLM. Otra sería la capacidad de los centros de datos, pero en EE. UU. y en otros lugares, estamos construyendo centros de datos como si no hubiera un mañana.

¿Qué pasa con el activo principal de estos sistemas? ¿Y los datos?

El concepto de escasez de datos no es nuevo para muchos ingenieros. Se trata de la idea de que simplemente no se dispone de suficientes datos de alta calidad para que los sistemas funcionen con conocimiento. En otras palabras, la IA actúa a ciegas, porque no dispone de suficientes puntos de datos para operar de forma granular.

Así es como algunos expertos caracterizan la escasez de datos, según Midhat Tilawat en All About AI:

“La escasez de datos en IA se refiere a la disponibilidad insuficiente de datos de entrenamiento de alta calidad, lo que dificulta el desarrollo de modelos de aprendizaje automático efectivos y conduce a una reducción del rendimiento de la IA”.

En el aprendizaje automático, se suele hacer referencia a la “maldición de la dimensionalidad” y a los problemas de “subajuste/sobreajuste” de manera que se aborde esta preocupación.

Escasez de datos en la comunidad de IA

Ahora bien: ¿nos estamos quedando sin datos? Se puede ver a gente discutiendo sobre esto en internet. Puede que haya falta de datos de calidad en algunos ámbitos, pero ¿significa eso que los datos no existen o que simplemente no son accesibles? Para algunos, la falta de datos significa que hemos vaciado el pozo.

«Internet es un vasto océano de conocimiento humano, pero no es infinito»escribió Nicola Jones para Nature a finales del año pasado. «Y los investigadores en inteligencia artificial (IA) casi lo han agotado».

Se pueden ver figuras destacadas que reflejan esta opinión. Copilot cita este artículo de Opentools , que sugiere que Dario Amodei ha expresado su preocupación por esta eventualidad, mientras que las noticias sobre Sam Altman indican que podría estar más preocupado por la computación .

En cualquier caso, otros creen que no estamos cerca de quedarnos sin datos, sino que simplemente tenemos que utilizar mejor los datos que tenemos.

Sistemas abiertos y cerrados, y datos propietarios

Un segmento reciente de Imagination in Action en nuestra conferencia de Stanford en septiembre abordó estas preguntas y más, donde Marcie Vu de Greycoft y Ari Morcos de Datology hablan con Julie Choi de Cerebras sobre toda esa logística que involucra a la IA empresarial.

En la introducción, Vu habló sobre cómo elevar el nivel para los fundadores, aprovechar modelos simplificados para la colaboración y decidir si construir su propio modelo o usar uno de un proveedor.

La conversación luego se dirigió hacia el costo marginal de la computación y, finalmente, a la idea de modelos cerrados versus abiertos.

“Hace dos años, creo que existía la creencia generalizada de que los modelos de código cerrado serían mucho mejores que cualquiera de los modelos de código abierto, y que no habría posibilidad de competir”, dijo Morcos. “Y creo que, relacionado con eso, existía la creencia generalizada de que el costo de entrenar modelos de vanguardia sería cada vez mayor con cada modelo sucesivo”.

¿Es el código abierto competitivo hoy en día?

Morcos sugirió que ahora hemos visto que el código abierto es competitivo y que los modelos cerrados de miles de millones de dólares que la gente había predicho en la última década no han resultado ser dominantes.

Sin embargo, habló de un “problema de investigación de frontera” que involucra el almacenamiento de objetos como algo que no se quiere que unas pocas empresas estén a cargo.

Cuando piensas en entrenar un modelo, normalmente la gente lo hace con un presupuesto determinado”, dijo. “Por ejemplo, tengo 10 millones de dólares en computación que puedo invertir en este modelo. Voy a mostrarle todos los datos que pueda. Voy a obtener rendimiento de eso. Bueno, mientras tanto, también tienes un montón de datos almacenados en S3. Voy a alimentar un modelo con ellos mediante un cargador de datos”.

Aquí, dijo, es importante pensar en cómo los ingenieros y las personas a cargo impulsarían estos procesos, en aguas relativamente desconocidas.

“Hay cientos de opciones”, dijo. “Estas opciones se centran en qué datos quieres mostrar al modelo: ¿quieres mostrarlos todos? ¿Quieres mostrar un subconjunto de ellos? ¿Cómo quieres secuenciar esos datos? El orden puede ser importante”. Eso, añadió, determinará algunas cosas fundamentales sobre cómo funciona su modelo.

Todas estas decisiones que tomarías… tienen un impacto dramático de órdenes de magnitud en qué tan rápido aprende tu modelo, hasta qué rendimiento aprenderá y qué tamaño de modelo puedes entrenar para alcanzar ese rendimiento”, dijo.

En cuanto a los datos, ambos panelistas hablaron sobre datos más allá de Internet, datos propietarios y cómo evitar chocar contra un muro de datos.

Morcos dijo que se puede sacar mucho provecho de los datos existentes, simplemente trabajando con ellos de diferentes maneras, y también existen datos sintéticos.

“Realmente creo que llegaremos a un mundo donde cada empresa podrá entrenar sus propios modelos por un millón de dólares, lo cual no es mucho, y acceder a sus datos confidenciales de esta manera tan crucial e importante”, dijo. “Se escucha mucho la historia: ‘Nos hemos quedado sin datos. Hemos explotado internet. Internet está acabado’. Bueno, en primer lugar, internet representa una minoría muy pequeña del total de datos que existen en el mundo”.

Su empresa, señaló, está encontrando formas de ayudar a los clientes en este tipo de proceso. “La gran mayoría de los datos del mundo son propietarios y se almacenan en servidores empresariales. Queremos ayudar a las empresas a acceder a ellos y sacarles el máximo provecho”, añadió. “Además, el muro de datos solo importa si aprovechamos al máximo nuestros conjuntos de datos existentes, y estamos muy, muy lejos de eso”.

Vu estuvo de acuerdo y habló de un modelo que su propia empresa está siguiendo.

“Estamos en las primeras etapas de poder liberar los datos que tenemos, especialmente dentro de la empresa”, dijo, compartiendo una estrategia que implica ampliar la red. “De hecho, invertimos tiempo en empresas que quizás no priorizan la IA ni son nativas de la IA, pero las llamamos ‘aceleradas por la IA’”, añadió.

Jerga de IA

También aprendí algunos términos aquí, escuchando a estos dos hablar sobre el uso de datos. El «Benchmaxing», por ejemplo, se da cuando los sistemas funcionan bien en las pruebas de referencia, pero no en el mundo real. Morcos sugirió que esto puede deberse a un exceso de datos sintéticos.

“Le pides a un modelo que produzca datos sobre biología o lo que sea, y le pides que los produzca”, dijo. “En este caso, toda la información proviene del propio modelo. Esto significa que solo se puede enseñar a un modelo algo que el modelo que genera los datos sintéticos ya entienda. De esta manera, se considera esta forma de datos sintéticos como una destilación del modelo disfrazada, a través de esos datos sintéticos. Esto es lo que vemos con mayor frecuencia”.

Luego existe algo llamado «reformulación», donde las empresas toman datos existentes y los transforman en nuevos formatos para optimizar la IA. Al analizar esto en detalle, Morcos explicó cómo las empresas trabajan con la reformulación y qué es importante a medida que avanzan en este proceso.

Primero, dijo, hay que identificar los datos. Luego, los modelos pequeños pueden comenzar a trabajar manipulando estos puntos de datos para lograr un enfoque nuevo.

“Creamos un sistema que ahora puede aplicarse a los datos propios de las empresas”, explicó. “Así que, en lugar de que se trate simplemente de un conjunto de datos sintéticos, ahora las empresas pueden incorporar sus propios datos y ampliarlos y reformularlos a gran escala, de forma muy eficaz. Y podemos hacerlo a un coste muy bajo”.

Las predicciones del uso de datos

Considero que este panel fue muy útil para ayudarnos a analizar las limitaciones de los datos. Si este análisis es correcto, no nos encontraremos con un muro de datos en el futuro cercano. Descubriremos cómo trabajar con los datos existentes, así como con los datos sintéticos, y ampliaremos el campo de juego para que la IA pueda superar ese factor potencialmente limitante.

Y una vez más parecerá que el cielo es el límite en las aplicaciones y casos de uso de la IA.

En cuanto a los modelos de código abierto y código cerrado, tendremos que observar si las empresas adoptan el bloqueo del proveedor que viene con un sistema cerrado, o el acceso de la comunidad que una empresa tiene con diseños de código abierto.

La privacidad y seguridad de los datos serán primordiales. Así que pensemos en esto a la hora de implementar nuevos y apasionantes sistemas de IA.

Artículos relacionados