Opinión Enrique Tellado

‘Voice banking’

Over the shoulder view of young Asian businesswoman using AI assistant on smartphone on the go in financial district in the city

Por motivos muy personales, que podrán comprender al final de esta columna, sigo con mucho interés y cierta ilusión egoísta el devenir de la iniciativa recientemente presentada por Caixabank sobre Voice Banking. Para aquellos que no lo hayan visto, pueden encontrar un video explicativo en el siguiente enlace. Si bien el principio del video se centra más bien en las funcionalidades de Neo, el chatbot que han desarrollado para atención al cliente particular, la segunda parte del video permite intuir el potencial que subyace tras esta nueva concepción de la relación con el cliente.

Soy un enorme defensor de la voz como medio de interlocución entre las máquinas y el ser humano. De hecho, creo que una interfaz como la voz permitirá un avance mucho más acelerado de muchos servicios basados en la tecnología cuyo despliegue sin sistemas de procesamiento del lenguaje natural sería mucho más complicado. 

Comparto los argumentos que me conducen a pensar de esta manera.

La voz es la interfaz de interrelación natural entre humanos. No nos comunicamos entre nosotros con un teclado, un ratón o golpeando una pantalla de teléfono móvil. Nosotros hablamos. Es lo que nos resulta natural. De hecho, si nos fijamos en el peso creciente de los mensajes de voz a través de WhatsApp, podemos concluir que hablar nos resulta más cómodo y sencillo que escribir. Esos métodos de comunicación con los ordenadores se inventaron cuando no estaba disponible la tecnología para comunicarnos con ellos a través del habla. 

La tecnología actual permite a los ordenadores interpretar con un nivel de precisión muy elevado lo que las personas decimos. El procesamiento del lenguaje natural es una tecnología ya madura y lista para ir incorporando casos de uso y convertirse en algo normal en nuestras interacciones con las máquinas. 

Aún hay gente a la que le resulta incómoda la forma de hablar de las máquinas. Quizás el nivel de madurez de los modelos de generación artificial de voz no sea el mismo que el del reconocimiento de voz, pero ya existen voces creadas por ordenadores que son difíciles de distinguir de la voz humana. Google realiza estudios para comparar las voces humanas y las sintéticas, mediante personas que escuchan y califican una voz en función de lo “humana” que les parezca. La voz humana obtiene una calificación de 4,55 y 4,21 respectivamente en inglés y chino mandarín sobre una escala de cinco. Esos mismos evaluadores calificaban las voces creadas por los modelos paramétricos con un 3,7 y un 3,8. Los actuales modelos basados en redes neuronales y que Google denomina Wavenet, obtienen una calificación de 4,2 y 4,1 respectivamente. Es decir, están ya muy cercanos a la voz humana. Personalmente, yo no soy capaz de distinguir una voz humana de una voz Wavenet. Y para el que aún las distinga, falta poco para que deje de ser así.

Asumiendo que evolucionamos hacia voces y diálogos en los que no seremos capaces de distinguir si quien nos habla es un humano o un ordenador, en favor del ordenador estaría la capacidad de procesamiento de nuestros datos y de generar, por tanto, en base a ese conocimiento, conversaciones enriquecidas con el análisis de la abundante información disponible. Es decir, por este camino de relación podemos avanzar hacia la hiperpersonalización de la oferta y del trato. Es curioso, pero de alguna manera volveremos a la banca de hace 50 años donde el empleado conocía personalmente a sus clientes, y con base en ese conocimiento le asesoraba y le permitía una “vida financiera” más confortable. Ahora será el ordenador con esa conversación humana el que basándose en análisis big data podrá predecir necesidades y sugerir la mejor forma de cubrirlas. Evolucionaremos hacia un servicio más avanzado y personalizado donde la oferta sea realmente un traje a medida de las necesidades financieras del cliente. Frente a la banca de producto, la banca hiperpersonalizada.

En cuanto a la seguridad, la biometría sobre la voz está igualmente madura como para ser un mecanismo de seguridad mucho más sofisticado y preciso que la comprobación del DNI «a ojo» que se realiza en una oficina. Las tecnologías de biometría de voz permiten no solo comprobar que la voz pertenece a un sujeto en cuestión, sino que también nos permiten detectar su estado de ánimo, su edad, etc. Y no es trivial, especialmente en el caso de no clientes, el identificar desde el momento cero su rango de edad para poder adaptar el discurso a sus necesidades específicas. 

Por último, teniendo en cuenta que avanzamos hacia un mundo hiperconectado en el cuál el acceso a los servicios online será casi omnipresente, la independencia que ofrece la voz frente a los dispositivos actuales (léase móvil, tablet u ordenador) será otro factor determinante para su popularización. Lo explico con un ejemplo: entrar en el coche y poder preguntar a tu banco si está abonado el seguro del coche es ya una realidad. Decirle que te lo envíe por WhatsApp o a la impresora de casa, también. Y lo mismo entrar en la habitación del hotel y hablando con el banco en la nube indicarle que quieres financiar el pago de tu estancia o que te envíe dinero a la tarjeta porque se ha agotado el límite. 

La primera vez que me di cuenta de que la voz había llegado para quedarse fue en 2017 en una visita a casa de unos familiares que viven en San Francisco. Cuando hablábamos sobre el verano y la temperatura del agua del mar Alexa irrumpió en la conversación para hacer la conversión de grados Farenheit a Centígrados (que me perdone mi profesor de Física). A partir de ese momento su presencia, reactiva aún, en la conversación fue a más. En esos momentos ni Google Home ni Alexa se comercializaban en España y mucho menos operaban en español.

A la vuelta de ese viaje decidimos apostar por el Voice Banking en EVO Banco, y se convirtió en una realidad a principios de 2018, momento en que nos autoproclamamos el primer Voice Bank del mundo (concepto que no habíamos escuchado a terceros aún). Pueden ver el evento de lanzamiento en este enlace en una convención que titulamos #elfuturoeslavoz. 

Casi cuatro años después no todos comparten que ese camino sea el futuro. Y es por eso que me ha interesado tanto conocer que Caixabank apuesta decididamente por un camino que, personalmente, considero que será el que marcará la próxima década en los servicios bancarios a particulares. ¿Lo veremos?