Cuando hablamos de inteligencia artificial (IA), seguro que una de las palabras que primero le viene a la mente es ChatGPT, de OpenAI, un servicio de especializado en el diálogo y entrenado con la IA para responder a (casi) todo lo que le preguntamos.
Google, cómo no, quiso llevarse su parte del pastel y lanzó Bard, su propio chat, en el primer trimestre de este año. Un servicio que arrancó con más dudas que certezas y sin la fiabilidad de otros chats con esa misma tecnología, como el propio ChatGPT o el creado por Bing, que tantas alegrías está dando a Microsoft. Ahora, la gran G busca potenciar el suyo y lo hace vitaminándolo con Gemini, el nuevo modelo de IA de la compañía de California.
Qué es Gemini
Gemini es un modelo de IA multimodal, lo que significa que puede generalizar y comprender, operar y combinar a la perfección distintos tipos de información, como texto, imágenes, audio, vídeo y lenguajes de código.
También es el modelo de Google más flexible hasta el momento, capaz de ejecutarse de manera eficiente en todo, desde dispositivos móviles hasta centros de datos, mejorando significativamente la forma en que los desarrolladores y clientes empresariales construyen y escalan con IA.
Hasta ahora, el enfoque para crear modelos multimodales implicaba entrenar componentes separados para diferentes modalidades y luego unirlos para imitar parte de dichas funcionalidades. A veces, estos modelos pueden ser buenos para realizar determinadas tareas, como describir imágenes, pero tienen dificultades con un razonamiento más conceptual y complejo.
Por eso, Gemini está diseñado para que fuera multimodal de forma nativa: entrenado desde el principio en diferentes modalidades. Luego, Google lo perfecciona con datos multimodales adicionales para perfeccionar aún más su eficacia. Esto ayuda a Gemini a comprender y razonar perfectamente sobre todo tipo de entradas desde cero, mucho mejor que los modelos multimodales existentes, y sus capacidades son de última generación en casi todos los dominios.
La primera versión llega en tres ‘tamaños’:
- Gemini Ultra – nuestro modelo más potente y de mayor tamaño, para tareas de gran complejidad.
- Gemini Pro – nuestro mejor modelo para escalar en una amplia gama de tareas.
- Gemini Nano – nuestro modelo más eficiente para ejecutar tareas directamente en un dispositivo.
Pruebas comparativas
Google ha probado y evaluado rigurosamente los modelos Gemini en una amplia variedad de tareas. Desde la comprensión de imágenes naturales, audio y video hasta el razonamiento matemático; el desempeño de Gemini Ultra supera los resultados actuales de última generación en 30 de los 32 puntos de referencia académicos, ampliamente utilizados en la investigación y en el desarrollo de grandes modelos de lenguaje.
¿Cuándo y dónde está disponible?
Gemini 1.0 ya está disponible en una amplia gama de productos y plataformas:
Para consumidores:
- Bard con una versión afinada de Gemini Pro está disponible desde hoy en inglés en más de 170 países y territorios, lo que supone la mayor mejora de calidad de Bard desde su lanzamiento, con mejoras en el resumen, brainstorming, escritura y planificación.
- También se está incorporando Gemini en Pixel 8 Pro, impulsando nuevas funciones como Resumir en la Grabadora y Respuesta Inteligente en Gboard.
- En los próximos meses, Gemini estará disponible en más productos y servicios como Search, Ads, Chrome y Duet AI.
Para desarrolladores
- A partir del 13 de diciembre, los desarrolladores y empresas podrán acceder a Gemini Pro mediante la API de Gemini a través de Google AI Studio y Vertex AI.
- Google AI Studio es una herramienta gratuita para desarrolladores basada en la web que ayuda a los desarrolladores y clientes empresariales a crear prototipos y lanzar aplicaciones rápidamente con una clave API;
- Cuando es el momento de tener una plataforma de IA totalmente administrada, Vertex AI permite la personalización de Gemini con control total de datos y se beneficia de funciones adicionales de Google Cloud para seguridad empresarial, privacidad y gobernanza y cumplimiento de datos.
- Los desarrolladores de Android también podrán crear con Gemini Nano, el modelo más eficiente para tareas en el dispositivo, a través de AICore. AICore es una nueva capacidad del sistema, disponible en Android 14, a partir de dispositivos Pixel 8 Pro.
- Gemini Ultra estará disponible a través de un programa de acceso anticipado para desarrolladores, socios y empresas seleccionadas, con el objetivo de recibir comentarios y mejores, antes de abrirlo a desarrolladores y empresas de manera más extendida a principios del año que viene.
- A principios del próximo año, también se lanzará Bard Advanced, una nueva experiencia de IA de vanguardia que da acceso a nuestros mejores modelos y capacidades, comenzando con Gemini Ultra.
Sin duda, y tal y como detalla Google, Gemini supone «un hito importante en el desarrollo de la IA y el comienzo de una nueva era en Google a medida que continuamos innovando de forma rápida y responsable las capacidades de nuestros modelos». ¿Superará la inteligencia de ChatGPT? Veremos.