Opinión Eugenio Mallol

Evitar que la Web se engulla a sí misma

Un WikiChat basado en información de Wikipedia pone en evidencia problema de la verificabilidad de la información que proporciona la IA generativa.
Foto: ZMcCune (WMF) - Own work, CC BY-SA 4.0

Desde 2008, siendo entonces estudiante de postgrado, Benjamin Mako ha venido presentando cada año en Wikimania, la reunión anual del movimiento Wikimedia, un resumen de todos los trabajos de investigación académica sobre Wikipedia y demás iniciativas del ecosistema que crearon en 2001 Jimmy Wales y Larry Sanger. Hoy es profesor asociado en la Universidad de Washington, pero sigue fiel a lo que describe como una “tradición”.

La reciente celebración de Wikimania en Singapur ha supuesto su regreso al formato presencial después de cuatro años, con 670 participantes de cuerpo presente y 1.500 online. Y fiel a la costumbre, Benjamin Mako ha repasado lo más relevante del año en el informe “The State of Wikimedia Research: 2022–2023”, junto a Tilman Bayer y Miriam Redi.

El primero de los ocho ejes temáticos de su trabajo está dedicado, cómo no, al “auge de la IA (inteligencia artificial) generativa y los LLM (modelos de lenguaje extenso) provocado por el lanzamiento de ChatGPT”. Un boom que, según aseguran, “ha afectado profundamente la investigación de Wikimedia”.

Lo interesante de este primer apartado es que incluye un paper de cuatro miembros del Departamento de Computer Science de la Universidad de Stanford titulado gráficamente “WikiChat: un chatbot de pocas posibilidades basado en LLM basado en Wikipedia”.

No deja de ser sorprendente el estatus que sigue otorgándose a Wikipedia en los grandes centros del conocimiento. Durante su etapa al frente del Collective Learning group del MIT, el chileno César Hidalgo promovió la iniciativa Pantheon, que pretende ser una forma objetiva de medir la fama. Utiliza un Índice de Popularidad Histórica basado en las visitas a los perfiles de Wikipedia de personajes populares. ¿Es más famoso Jesús o Taylor Swift? Es la clase de preguntas que se hace.

En el caso de los investigadores de Stanford, han creado un chatbot con tecnología LLM que toma información en tiempo real de Wikipedia, es decir, de un número de fuentes significativamente inferior al de ChatGPT. Pero, gracias a ello, WikiChat es capaz de sugerir hechos interesantes y relevantes verificables, puede acceder a información adicional actualizada y, como toda IA generativa, compone respuestas coherentes y atractivas.

Es una propuesta interesante de evaluación híbrida entre humanos y LLM para analizar la factibilidad de la palabra de los chatbots. Cuando probaron el funcionamiento de WikiChat en un conjunto diverso de temas de conversación, descubrieron que supera en precisión fáctica a GPT-3.5 hasta en un 12,1%, 28,3% y 32,7% en temas principales, recientes y finales, sin dejar de proporcionar información natural, relevante y respuestas no repetitivas.

Si se preguntara por la clave de todo ese proceso impulsado por los profesores de Stanford a la directora del grupo sobre Ética de Datos y IA de la Universidad Tecnológica de Sydney, Heather Ford, autora del libro Writing the Revolution: Wikipedia and the Survival of Facts in a Digital Age, probablemente señalaría con vehemencia el concepto de “verificabilidad”.

Ethan Zuckerman repasa en su blog el contenido de la reciente conferencia de Heather Ford en la Universidad de Massachusetts Amherst titulado “¿La Web se está comiendo a sí misma?”. Alude en él al fin de la era del “auge del extractivismo”, en la que particulares y corporaciones públicas y privadas se han afanado por subir todo el conocimiento a la Web.

El nuevo periodo está caracterizado por la aparición de “oráculos” informados que se ocupan de proveernos de respuestas en un tono conversacional. Su primera manifestación fue Google Knowledge Graph, surgida en 2012, y ha alcanzado un orden superior con la IA generativa, cuya virtud principal es, en realidad, “predecir el siguiente fragmento de texto”, terminar la frase, vaya.

Curiosamente, en un momento de desconfianza en las instituciones e insoportable polarización, interpretamos que los procesos automáticos basados en LLM no participan en las batallas por la verdad, porque son apolíticos, y eso nos resulta confortable. Pero no olvidemos plantean un problema enorme en términos de verificabilidad.

Comento con el nuevo profesor de Robótica de la IE University e investigador del MIT Media Lab, Eduardo Castelló, lo importante que será en términos de normalidad democrática facilitar a los ciudadanos, y a las máquinas, apostilla, el acceso al origen de la información. Nos gustarán más o menos los posts de Wikipedia, pero conocemos su nivel de credibilidad porque incluye una referencia a las fuentes. Podemos saber si son publicadas y confiables.

ChatGPT 4.0 mejora en este aspecto a su predecesor el 3.5 e inserta en su discurso notas al pie de página en las que va indicando las webs de las que extrae la información. Un striptease algorítmico que verdaderamente nos ayuda poner en valor la calidad de su información como nuevo oráculo virtual. Rastrear las fuentes es un deporte intelectual muy antiguo.

Hasta los científicos pugnan por la calidad de sus citas. Existe un Instituto para la Determinación del Consenso Científico (IASC) que trata de encontrar la forma de poner a disposición de la sociedad respuestas fiables. Un apunte: ningún español aparece ni en el piloto que lidera la Universidad de Durham ni entre los 65 miembros de sus dos advisory boards.

Heather Ford no tiene claro que el ecosistema Wikimedia sea capaz de ganar la guerra de interfaces en la que nos estamos inmersos. Quizás se repita el hito que supuso que Google pagara una tarifa de licencia por Wikidata o quizás acabe devorándose a sí mismo aquejado por el virus de los discursos artificiales. Todo conduce a la misma conclusión: si crees que la máquina te iba a evitar la penosa tarea de pensar, te equivocas.

Artículos relacionados