En 2016, cuando Sundar Pichai, recién nombrado CEO de Google, presentó el Asistente de Google como parte de su nueva agenda «AI-first», promocionó el incipiente asistente de voz como una herramienta para ayudar a las personas a completar tareas.
«El Asistente de Google te permite hacer las cosas, trayéndote la información que necesitas, cuando la necesitas, estés donde estés», escribió en una entrada de blog en ese momento.
Era un objetivo ambicioso que, en su mayor parte, se ha quedado corto. Con demasiada frecuencia, el software se queda perplejo ante una petición, recurre por defecto a una búsqueda en Internet y se disculpa diciendo que no puede ayudar. Esto ha llevado a la gente a relegar los asistentes de voz a tareas sencillas como programar la hora de cocinar, reproducir música o controlar las luces. A Alexa, de Amazon, lanzada hace una década, no le ha ido mucho mejor. Siri, el primero de todos, lanzado por Apple en 2011, ha sido el más criticado.
Pero la generalización de la IA generativa en los dos últimos años ha allanado el camino a los «agentes» de IA: software programado específicamente para realizar acciones o tareas en nombre de un usuario, como reservar una habitación o comprar algo por Internet. Y a medida que la «era de los agentes», como la llama Pichai, llega en 2025, la tecnología tiene la oportunidad de hacer algo que hasta la fecha ha eludido a las grandes plataformas tecnológicas: hacer que sus asistentes de voz sean realmente útiles.
Eso significa que Google Assistant, Alexa y Siri podrían cumplir por fin su promesa de actuar como asistentes personales. En lugar de limitarse a recitarte la agenda de reuniones del día, como hace ahora Google Assistant, podría ser capaz de reservarlas, ponerse en contacto con tus contactos y encontrar una hora que convenga a ambas partes. Podrían ser capaces de reservar vuelos y hoteles para unas grandes vacaciones como un agente de viajes digital, con poca más información que las fechas y el destino del viaje.
Los agentes son el último grito en el sector tecnológico, con más de 470 plataformas dedicadas a esta tecnología, según un estudio de Forrester. Entre ellas hay desde grandes gigantes tecnológicos hasta pequeñas empresas emergentes como LangChain, CrewAI y Play.ai. Más allá de las funciones para el consumidor, también pueden transformar potencialmente las empresas, con agentes para el servicio de atención al cliente o el desarrollo de software. El número de acuerdos para startups de agentes de IA ha aumentado más del 81% en el último año, según PitchBook, con más de 8.000 millones de dólares invertidos en el espacio.
«La carrera ha comenzado», afirma Steve Jang, inversor de la lista Midas de Forbes y fundador de la empresa Kindred Ventures. «Las startups competirán con las plataformas establecidas por quién puede orquestar esto con mucha más fidelidad. Y quién puede crear voces y conversaciones mucho más humanistas y realistas, y acceder a los datos y acciones que todos queremos».
Los asistentes de voz de las grandes tecnológicas son los mejor preparados para dar ese salto a la IA. Google cuenta con su modelo estrella Gemini para reforzar sus búsquedas por voz. Apple anunció a principios de año una asociación con OpenAI para utilizar ChatGPT en algunas consultas de Siri. Y en el último año, Amazon ha invertido 8.000 millones de dólares en Anthropic, que fabrica el potente chatbot Claude. Google se negó a conceder entrevistas a ninguno de sus ejecutivos. Apple y Amazon no respondieron a las solicitudes de entrevista.
Jang cree que las verdaderas innovaciones se producirán en los modelos de IA de voz. A diferencia de los grandes modelos lingüísticos, en los que se basan servicios como ChatGPT, los modelos de voz no se entrenan con texto y luego el software los lee en voz alta. En lugar de eso, los modelos de voz se entrenan con el audio de la voz real, para que puedan captar las sutilezas del habla, como la cadencia o las señales emocionales. Jang ha invertido en Play.ai, especializada en agentes de voz, que compite con empresas como ElevenLabs, OpenAI y Google, todas ellas trabajando en modelos de voz.
Algunos, sin embargo, no están tan convencidos de que los agentes vayan a mejorar exponencialmente los grandes asistentes de voz. Kanjun Qiu, fundador de Imbue, que está creando agentes para software de codificación, cree que añadir más IA a esos productos sólo los mejorará «incrementalmente». Dice que las nuevas funciones de IA aún no supondrán un salto lo suficientemente grande como para que la gente confíe en ellos. «La delegación como paradigma es realmente difícil para la gente», afirma Qiu. «Yo solo uso Siri para cosas triviales que sé que no va a fastidiar».
Pero cree que las recientes mejoras en la IA por voz ayudarán a los consumidores de otras maneras. Por ejemplo, predice que cada vez más aplicaciones integrarán funciones de voz. Gracias a la mejora de la latencia y la comprensión del lenguaje natural, se podrán dar instrucciones a una aplicación y ésta ejecutará la acción, explica Qiu. Por ejemplo, si le dices a una aplicación de comercio electrónico que quieres devolver unos zapatos que no te quedan bien. (Ingeniera de formación, ha creado una aplicación para sí misma que convierte las divagaciones en una lista de tareas).
Las mejoras en la inteligencia artificial y la tecnología de voz también podrían desbloquear ambiciones de hardware que Silicon Valley lleva años intentando. Hace más de una década, Google dio la campanada al presentar Google Glass, unas gafas inteligentes que suscitaron temores sobre la privacidad y no resultaron muy útiles. A principios de este mes, la empresa presentó un nuevo prototipo de gafas que se utilizarán con Project Astra, la nueva plataforma de Google para agentes de inteligencia artificial. En una demostración, las gafas, controladas por voz, obtenían automáticamente un código de puerta del correo electrónico del usuario en el momento en que éste miraba el teclado de la entrada. La tecnología también podía obtener información sobre la ruta del autobús que tenía delante o la escultura de arte por la que pasaba.
Por su parte, las gafas Orion de Facebook, anunciadas a principios de este año, utilizan una combinación de voz y gestos de la mano para controlar herramientas de inteligencia artificial, como ver los ingredientes de la despensa y pedir a la tecnología que encuentre una receta con ellos.
Las innovaciones basadas en la voz también hacen que la tecnología sea más accesible. No todo el mundo sabe leer, escribir o teclear, pero cada vez hay más gente capaz de hablar, afirma Jang. Y es una preferencia cada vez mayor entre los jóvenes: el 42% de los estadounidenses de 18 a 29 años envían mensajes de voz en sus aplicaciones de chat al menos una vez a la semana, según un estudio de YouGov y Vox.
Los nuevos avances en IA podrían generalizar aún más el uso de las herramientas de voz y cambiar la forma en que las personas interactúan con su tecnología. «Esto convierte a los agentes de voz -y a la propia voz- en una nueva interfaz de usuario que hasta ahora no se había explotado en informática», afirma Jang.