Opinión Eugenio Mallol

Wolfe, IA y la maldición del multilingüismo

Los europeos, y los españoles en particular, hemos descubierto que tenemos ante nosotros un problema o una gran ventaja en el desarrollo de tecnologías lingüísticas vinculadas a la inteligencia artificial, dependerá de la estrategia que apliquemos

En el reciente Language Intelligence Summit 2025, los directivos de Headline Hunter no pudieron evitar la referencia a Ludwig Wittgenstein y sus “Juegos del lenguaje” al explorar las posibilidades de la inteligencia artificial (IA) generativa. El filósofo vienés sostenía que el significado cambia según el contexto, se ve afectado por elementos como el propósito, los participantes o las diversas situaciones en las que se produce la comunicación.

La tecnología Headline Hunter utiliza una técnica denominada retropropagación, inspirada en los trabajos del Nobel de Física 2024 Geoffrey E. Hinton, para modelar el significado mediante la IA generativa como un ajuste relacional, reflejando así la idea del contexto de Wittgenstein. “Los hechos fundamentan el significado, la generación interpreta el contexto”, aseguraron en su intervención.

El lenguaje natural humano está demostrando ser una dura piedra de toque para la IA, pero acertar con la estrategia tendrá premio en el mercado. En otro evento reciente, la Language Technology Landscape Conference, impulsada por la Comisión Europea, se ha estimado que el impacto potencial de las tecnologías lingüísticas en el comercio intracomunitario puede alcanzar los 360.000 millones de euros.

En el Conversational AI & Customer Experience Summit (CACES) de Múnich, por su parte, Booking.com ha demostrado que la IA conversacional opera silenciosamente tras los viajes de millones de personas cada día; IKEA ha descrito cómo fusiona la IA con su idea de “mejorar la vida cotidiana” para que sus clientes naveguen por un ecosistema masivo de productos; y Panasonic ha subido al escenario a su robot acompañante Nicobo, programado para reconocer rostros, reaccionar al tacto y expresar emociones básicas.

La IA de voz y la conversacional van a redefinir incluso la relación futura de las empresas con sus trabajadores. Prodyna ha explorado la construcción de fuerzas laborales híbridas, donde los humanos y la IA colaboran fluidamente. Su mensaje es que se alcanzará el máximo potencial solo allí donde las empresas construyan culturas y sistemas preparados para ello.

Dominar el lenguaje se ha convertido en un habilitador para llevar la inteligencia de los sistemas al siguiente nivel. Según Nimdzi, siete de cada 10 usuarios de la UE siempre eligen su lengua materna en lugar del inglés en el comercio electrónico. Quizás por ello la demanda empresarial estadounidense representa aproximadamente el 46% del mercado de tecnologías del lenguaje, mientras que la de las empresas europeas es el 39%.

Los europeos, y los españoles en particular, hemos descubierto que tenemos ante nosotros un problema o una gran ventaja, según la estrategia que apliquemos. La Language Technology Industry Association advierte de “un hecho crucial: la mitad de los datos generados son de naturaleza textual y, tanto en Europa como a nivel mundial, los datos textuales siempre son multilingües”.

El error actual, según la asociación, consiste en dividir el vasto conjunto de datos textuales generados en la UE en silos lingüísticos. Frente a esta estrategia, China y Estados Unidos se benefician de su condición de mercados enormes, homogéneos y ¡monolingües!

El gran desafío es conseguir que la IA en Europa funcione con todos los datos, independientemente de su origen lingüístico. “Convertir la desventaja percibida de un mercado cultural y lingüísticamente fragmentado en una ventaja competitiva única”. Todo un desafío, considerando las sensibilidades localistas y el protagonismo de la política. Los datos multilingües serán, en última instancia, “la próxima frontera de la IA”.

En España, el proyecto Alia, que se desarrolla en el MareNostrum V del Barcelona Supercomputing Center (BSC), trabaja directamente en 35 lenguas, con especial interés por el español y las lenguas cooficiales del Estado, sin traducción. Se trata de una infraestructura abierta, pública y transparente, entrenada con una base de datos de 17.000 millones de palabras recopiladas en 34 millones de documentos de alta calidad.

Para trabajar con las lenguas con menos recursos, como el euskera y el gallego, IBM Research planea utilizar “datos sintéticos”, textos generados por otras IA destinados a enriquecer la base de datos de entrenamiento. Los modelos de IA de idiomas multilingües, como mBERT de Google (entrenado en 104 idiomas simultáneamente) y XLM-R de Meta (100), se supone que tienen la ventaja de inferir conexiones entre idiomas y actuar así como una especie de puente entre los de altos y bajos recursos.

Sin embargo, la realidad es que funcionan mediante la transferencia entre contextos lingüísticos, y a menudo eso supone que los idiomas con mayores recursos sobrescriben a los que tienen menos. Cuantos más idiomas se emplean para entrenar un modelo multilingüe, menos puede capturar los rasgos únicos de cualquier idioma específico. Es lo que se conoce como la maldición del multilingüismo.

La IA está llevando a los lingüistas a plantearse preguntas existenciales y a cuestionarse su propio futuro, “y con razón”, apostilla Francesca Sorrentino, de Phrase. La empresa se dedica a adaptar productos, programas informáticos y marketing a las necesidades culturales, lingüísticas y de mercado de un país o de una región específica.

El mensaje de Sorrentino para las tecnologías del lenguaje es claro: la traducción literal del contenido no es suficiente. Un estudio de WARC muestra que el 64% de los usuarios de TikTok valoran los contenidos culturalmente relevantes y prefieren que reflejen la vida cotidiana. La fluidez cultural formará parte de la expansión de las marcas sin fricción. Nina Markl, de la Universidad de Essex, lo llama la ‘gestión algorítmica del lenguaje’.

Pocos como Tom Wolfe han contado de forma tan entretenida el auge de la industria de los semiconductores en su artículo/ensayo “Dos jóvenes que fueron al Oeste”. Dirigió su mirada crítica a la IA en “Lo lamento, su alma ha muerto” y, sobre todo en su último libro, The Kingdom of Speech, publicado en 2016. Pero nos quedaremos sin saber qué hubiera dicho de la IA generativa si hubiera convivido con ella en nuestros días.

Seguramente habría seguido zumbándole a Noam Chomsky, cuya visión también desfavorable pude escuchar en Lisboa. Wolfe atacó la idea de que el lenguaje humano es solo un instinto biológico que puede ser replicado fácilmente por la tecnología y se mofaba del concepto de singularidad. Para él, la vida humana se basa en la lucha por el estatus social y el reconocimiento. Una máquina puede calcular, decía, pero no puede «sentir la envidia, el orgullo o la ambición de clase» que mueve cada acción de las personas.

Artículos relacionados