Google anunció el jueves que «pausará» algunas funciones de su generador de imágenes de IA, Gemini, después de una reacción violenta por su descripción de la diversidad étnica y de género, en un momento en el que la compañía tiene varios competidores en su sector que crecen rapidísimamente, como OpenAI, Microsoft y Adobe.
Google presentó Gemini, el nuevo nombre de su asistente de chatbot Bard, a finales de 2023, un modelo que la compañía ha entrenado en múltiples modalidades, incluidas imagen, voz y texto (la mayoría de los rivales entrenan modelos para generar o comprender contenido en diferentes formatos, como audio o imagen, por separado). Además lanzó una suscripción paga para mejores capacidades en febrero.
Meta lanzó en diciembre un generador de imágenes de IA independiente llamado Imagine with Meta (se basa en el modelo Emu de la compañía y es de uso gratuito), ampliando el acceso a la herramienta generativa que anteriormente estaba limitada a chatbots dentro de aplicaciones para Facebook, Instagram y WhatsApp.
OpenAI, la empresa respaldada por Microsoft de Sam Altman responsable de los generadores de texto y vídeo ChatGPT y Sora, lanzó el año pasado la tercera generación de su plataforma visual DALL-E, integrando finalmente la herramienta de imágenes con su chatbot de IA para simplificar el proceso de creación del texto necesario. indicaciones que convierten las ideas de los usuarios en realidad visual.
Midjourney ha sido una herramienta de imágenes de IA popular desde su primer lanzamiento a finales de 2022 (lanzó la versión 6 del modelo Midjourney en diciembre, que ofrece detalles mejorados y mejores respuestas a las indicaciones) y, aunque es relativamente pequeña en tamaño, la empresa sigue siendo uno de los actores más conocidos en el campo.
Adobe cuenta con un generador de imágenes de IA “comercialmente seguro«, Firefly, que las empresas pueden utilizar sin temer reclamos de derechos de autor, ya que el modelo ha sido entrenado en imágenes que la compañía tiene licencia o tiene licencia abierta, un punto de venta único en el panorama legal de la IA, que de otro modo sería turbio. contenido generado.
Microsoft ofrece generación de imágenes a través del asistente de IA Copilot que ha integrado en sus aplicaciones de Office como Word, PowerPoint y Excel, que utiliza el modelo DALL-E 3 de OpenAI para generar contenido.
Stability AI, líder desde hace mucho tiempo en generación de imágenes de IA y una alternativa más abierta a las herramientas patentadas, lanzó una serie de modelos de generación de imágenes de IA desde 2022 y presentó una vista previa de su último, Stable Diffusion 3, el jueves, aunque los detalles son escasos y la compañía no indicó cuándo se lanzará (aunque hay una lista de espera en la que la gente puede inscribirse).
¿CUÁL ES LA PREOCUPACIÓN POR LOS GENERADORES DE IMÁGENES AI?
Diversidad, autenticidad y propiedad. Las herramientas de IA generativa se entrenan en vastos conjuntos de datos para producir contenido a partir de indicaciones basadas en lo que se ha «aprendido». Como el resultado de un modelo refleja los datos con los que fue entrenado, también refleja los sesgos dentro de esos datos, mostrando una y otra vez sesgos étnicos y de género en sus productos, como borrar identidades indígenas y no binarias, una tendencia a mostrar a hombres de piel clara con trajes típicamente de alta gama, trabajos pagados y prisioneros como negros. En un esfuerzo por contrarrestar esto, muchos modelos intentan activamente dar cuenta y corregir este sesgo para representar mejor el mundo real, aunque esto puede resultar contraproducente, como demuestra el reciente furor sobre Géminis, y crear un sesgo en la otra dirección. Dado que el contenido se vuelve cada vez más detallado y realista, cada vez es más difícil saber qué es real y qué no, lo que genera temores de que las herramientas puedan ayudar a crear deepfakes, difundir información errónea peligrosa o material dañino. Esta es una preocupación clave de las empresas que fabrican IA generativa, especialmente de cara a unas elecciones acaloradas, y muchas están trabajando en herramientas como marcas de agua que permitirían a las personas distinguir lo falso de lo real. Los datos que pueden crear sesgos también son polémicos en términos de propiedad (Meta, por ejemplo, utiliza imágenes en publicaciones en redes sociales) y muchos de los principales generadores de imágenes y texto están defendiéndose de importantes demandas de artistas y organizaciones de medios que impugnan los términos y la compensación. en torno al uso de su contenido. Estas demandas aún no se han resuelto (y es probable que se presenten más en el futuro) y los resultados podrían desempeñar un papel importante en la configuración del panorama futuro de las herramientas de IA generativa.
CLAVIJA DE NOTICIAS
Gemini de Google fue ampliamente criticado por sus imágenes inexactas y sesgadas cuando se le pidió que mostrara algunos escenarios históricos y la compañía no ha dado un cronograma sobre cómo “ajustará” su servicio para tener en cuenta el contexto histórico o cuándo restaurará la capacidad de generar imágenes. de la gente. Críticos como Elon Musk, que está desarrollando productos de inteligencia artificial rivales, incluido el chatbot Grok a través de su startup xAI, utilizaron la admisión de culpa de Google como munición para afirmar que toda la empresa está siguiendo una agenda impulsada por la diversidad, en gran medida en detrimento de los hombres blancos.