El audio, la silenciosa ‘next big thing’

El audio es la próxima revolución tecnológica de la inteligencia artificial (IA). ¿Por encima incluso del vídeo? Algunos creen que sí. Si estás de acuerdo, puedes donar una muestra de tu voz gratis al proyecto Common Voice de Mozilla, cuyo objetivo es recopilar pedazos de habla, en idiomas distintos al inglés angloamericano, para ayudar a los desarrolladores a crear aplicaciones de voz.

Interesante cuestión esta, la de encontrar cortes de voz en idiomas diferentes al mayoritario en internet. La investigación científica ha demostrado que la lengua raíz de un modelo de IA, que en la mayoría de los casos es la inglesa, sí incide en su comportamiento.

Aleph Alpha, una startup de Heidelberg (Alemania), creó uno de los modelos de lenguaje de IA más potentes del mundo, capaz de hablar con fluidez inglés, alemán, francés, español e italiano. Pronto se descubrió que sus respuestas diferían, sorprendentemente, de las producidas por programas similares desarrollados en Estados Unidos.

Cada lengua parte de estándares culturales diversos, hacer preguntas directas puede ser un gesto de mala o buena educación según el idioma que se use. NewsGuard proporcionó en 2023 a ChatGPT-3.5 siete mensajes escritos en inglés, en chino simplificado y en chino tradicional. Le pidió que produjera con ellos noticias relacionadas con China que promovieran la desinformación.

ChatGPT se negó a elaborar afirmaciones falsas a partir de las frases que había recibido en inglés en seis de los siete casos. Sin embargo, produjo los artículos falsos en chino simplificado y en chino tradicional las siete veces, sin el menor inconveniente.

Las comunidades con acceso limitado a internet están subrepresentadas online, lo que distorsiona los datos textuales disponibles para entrenar herramientas de IA generativa y alimenta un fenómeno conocido como la transferencia de prestigio, según el cual el inglés estadounidense es el “estándar” y el modo dominante de discurso.

Además del problema de la escasez de datos hay que afrontar el incremento de costes: usar GPT-4 en idiomas distintos del inglés puede costar hasta 15 veces más, a causa de la tokenización.

Las palabras en hindi y bengalí, habladas por más de 800 millones de personas, tienen una longitud simbólica media que supera en aproximadamente cinco veces la del inglés. El idioma armenio lo rebasa en nueve veces y el birmano en más de 10. Todo eso se traduce en tokens, cuyo modelo de asignación favorece a la escritura latina.

La cuestión de los idiomas y la IA generativa tiene su importancia porque el salto del texto al audio es la clave. Estamos enseñando a las máquinas a hablar como las personas reales, con la diferencia de que podrán hacerlo con un volumen de información estratosférico. En eso consiste una buena parte del secreto de esta tecnología.

En los últimos años, Google DeepMind ha estado ampliando las fronteras de la generación de audio. Ha desarrollado modelos que pueden crear un habla natural de alta calidad a partir de una variedad de entradas, como texto, controles de tempo y voces. Su última tecnología de generación de voz puede producir dos minutos de diálogo, con naturalidad y consistencia.

El modelo realiza esta tarea en menos de tres segundos, en un solo chip v5e de unidad de procesamiento tensorial (TPU) y en apenas un paso de inferencia. Esto significa que genera audio más de 40 veces más rápido que en tiempo real.

Los ingenieros de Google Deepmind lo entrenan con cientos de miles de horas de datos de voz y luego afinan el resultado con un conjunto de datos mucho más pequeño de diálogo. Son conversaciones sin guión entre varios actores que incluyen lo que se denomina disfluencias realistas: los «mmm» y «aah» de una conversación real.

La utilización de avatares de IA conversacional puede considerarse ya una tendencia más que emergente en las primeras fases de procesos de contratación de personal. Tengai, JobMojito y Fairgo ofrecen ya propuestas en este sentido, aunque no despiertan la admiración general. Habrá que hacer un curso de SEO (del ingles, Search Engine Optimization) para preparar una entrevista de trabajo. ¡Olvídate de conseguir el puesto si no usas las palabras clave!

El siguiente paso será dejar que una BCI (brain computer interface) del habla lea nuestros pensamientos privados. A partir de un taller de 2023 organizado por la BCI Society, un numeroso grupo de científicos de diversos centros de investigación, liderados por Erin M. Kunz de la Universidad de Stanford, descubrieron que el pensamiento verbal está bien representado en la corteza motora cerebral y aseguraron que la decodificación accidental se podrá gestionar con un entrenamiento adecuado.

Cuantos más idiomas se utilizan para entrenar un modelo de IA multilingüe, menos puede capturar los rasgos únicos de cualquier idioma específico. Es lo que se conoce como la maldición del multilingüismo. El audio es una de las próximas fronteras tecnológicas, sin duda. Quizás Mozilla haya abierto la vía para no repetir los errores del entrenamiento de IA con textos predominantemente en inglés. O la voz más fiable del futuro no hablará español.