Cómo OpenAI y Perplexity dominarán el tráfico de búsquedas en internet

Empresas como OpenAI y Perplexity han hecho grandes afirmaciones de que sus motores de búsqueda impulsados por IA, que extraen información de la web para generar respuestas resumidas, proporcionarán nuevas fuentes de ingresos para los editores al dirigir más lectores a sus sitios. Pero la realidad es completamente diferente: los motores de búsqueda con IA envían un 96% menos de tráfico de referencia a sitios de noticias y blogs que la búsqueda tradicional de Google, según un nuevo informe de la plataforma de licencias de contenido TollBit, compartido en exclusiva con Forbes . Mientras tanto, el rastreo de sitios web por parte de los desarrolladores de IA se ha más que duplicado en los últimos meses, según el informe.

OpenAI, Perplexity, Meta y otras empresas de inteligencia artificial rastrearon sitios web 2 millones de veces en promedio en el cuarto trimestre del año pasado, según el informe, que analizó 160 sitios web, incluidos blogs de noticias nacionales y locales, tecnología de consumo y compras durante los últimos tres meses de 2024. Cada página fue rastreada aproximadamente siete veces en promedio.

“Estamos viendo una afluencia de bots que atacan estos sitios cada vez que un usuario hace una pregunta”, dijo el director ejecutivo Toshit Panigrahi a Forbes. “La cantidad de demanda de contenido de los editores no es trivial”. TollBit, que se integra con los editores para rastrear el scraping y cobrar a las empresas de inteligencia artificial cada vez que lo hacen, recopiló los datos de los editores que se han registrado en su plataforma para análisis, lo que le brinda información sobre el tráfico y la actividad de scraping en sus sitios.

OpenAI no hizo comentarios y Meta no respondió a una solicitud de comentarios. Un portavoz de Perplexity no se refirió a las afirmaciones específicas del informe, pero dijo que la empresa respeta las directivas «robots.txt» , que indican a los rastreadores web a qué partes de un sitio se les permite acceder.

“Es hora de decir no”.

Nathan Schultz, director ejecutivo de Chegg

En febrero pasado, la firma de investigación Gartner predijo que el tráfico de los motores de búsqueda tradicionales caería un 25% para 2026, en gran parte debido a los chatbots de IA y otros agentes virtuales. Las empresas que dependen del tráfico de búsqueda ya han comenzado a verse afectadas. La empresa de tecnología educativa Chegg demandó recientemente a Google, alegando que los resúmenes generados por IA del gigante de las búsquedas incluían contenido de su sitio web sin atribución, lo que arrebataba visitas a su sitio y perjudicaba sus ingresos, que ya estaban menguando. El tráfico de Chegg se desplomó un 49% en enero interanual, una fuerte caída respecto de la caída del 8% en el segundo trimestre del año pasado, cuando Google publicó los resúmenes de IA. La disminución del tráfico ha afectado a Chegg hasta el punto de que está considerando privatizar o ser adquirida, dijo el director ejecutivo Nathan Schultz en una conferencia sobre ganancias.

“Es hora de decir no”, dijo Schultz a Forbes. Dijo que Google y los editores tienen desde hace mucho tiempo un contrato social para enviar a los usuarios a contenido de alta calidad, y no solo retener ese tráfico en Google. “Cuando se rompe ese contrato, eso no está bien”. Ian Crosby, socio del bufete de abogados Susman Godfrey que representa a Chegg, dijo que la práctica perjudicará a las empresas de búsqueda como Google a largo plazo, lo que resultará en una “pesadilla de IA” si empresas como Chegg cierran. “Es una amenaza para Internet”, dijo.

Google calificó la demanda de Chegg de “sin fundamento”, alegando que su servicio de búsqueda de inteligencia artificial envía tráfico a una mayor diversidad de sitios.

Los sitios de reserva de viajes como Kayak y TripAdvisor también están preocupados por la pérdida de tráfico que suponen las vistas de búsqueda con inteligencia artificial de Google, según informó Forbes . Mientras tanto, los editores de noticias han emprendido acciones legales contra OpenAI y Perplexity por presunta infracción de su propiedad intelectual (ambas empresas están combatiendo las demandas).

Los desarrolladores de IA utilizan lo que se denomina agentes de usuario para rastrear la web y recopilar datos, pero muchos no identifican ni revelan adecuadamente sus robots de extracción de datos, lo que dificulta que los propietarios de sitios web descubran y comprendan cómo las empresas de IA acceden a su contenido. Algunos, como Google, parecen utilizar los mismos robots para múltiples propósitos, incluida la indexación de la web y la extracción de datos para sus herramientas de IA, dijo Panigrahi.

Es muy difícil que los editores quieran bloquear a Google. Podría afectar a su SEO

Olivia Joslin, cofundadora de TollBit

«Es muy difícil que los editores quieran bloquear a Google. Podría afectar a su SEO y nos resulta imposible deducir exactamente para qué sirven sus bots», afirmó la cofundadora de TollBit, Olivia Joslin.

Google no respondió a una solicitud de comentarios. Y luego está la startup de búsquedas con inteligencia artificial Perplexity, valorada en 9.000 millones de dólares. Incluso cuando los editores impiden a Perplexity acceder a sus sitios, la startup de inteligencia artificial sigue enviándoles tráfico de referencia, lo que implica que sigue rastreando sitios en secreto sin que nadie se dé cuenta, según el informe. En un ejemplo, raspó el sitio web de un editor 500 veces, pero envió más de 10.000 referencias. Una explicación para esto, dijo Panigrahi, es que Perplexity utilizó un rastreador web no identificado para acceder al sitio. Perplexity solo dijo que respeta «robots.txt «.

El año pasado, la startup, que está de moda, recibió críticas por copiar y republicar artículos de medios de comunicación como Forbes, CNBC y Bloomberg que estaban sujetos a un muro de pago y que en algunos casos incluían textos casi idénticos, sin la atribución adecuada. También citó blogs y publicaciones en redes sociales de baja calidad generados por inteligencia artificial que contenían información inexacta, según descubrió Forbes en junio. En respuesta a los informes de Forbes, el director ejecutivo Aravind Srinivas dijo que la función de republicación, llamada Perplexity Pages, tiene » bordes ásperos «. Forbes envió una carta de cese y desistimiento a Perplexity en junio, acusándola de infringir los derechos de autor.

En octubre, el New York Post y Dow Jones demandaron a Perplexity por supuesta violación de derechos de autor y por atribuir hechos inventados a empresas de medios de comunicación. En ese momento, Perplexity dijo que la demanda refleja una postura que es “fundamentalmente miope, innecesaria y contraproducente”.

A principios de este mes, otra startup de inteligencia artificial se encontró en la mira de las empresas de medios. Un grupo de editoriales, entre las que se encuentran Condé Nast, Vox y The Atlantic, presentaron una demanda contra la empresa de inteligencia artificial empresarial Cohere por supuestamente haber extraído de Internet 4.000 obras protegidas por derechos de autor y haberlas utilizado para entrenar su conjunto de grandes modelos lingüísticos ( Forbes fue parte de la demanda) .

El rastreo desenfrenado de datos por parte de la IA no solo está afectando el tráfico de búsqueda y los ingresos de los editores. A medida que más y más robots visitan los sitios web para leer y rastrear su contenido, también están generando millones en costos de servidores, dijo Panigrahi. Con empresas como OpenAI y Perplexity lanzando agentes de IA de investigación que visitan de forma autónoma cientos de sitios para producir informes detallados, el problema está destinado a empeorar.

Una forma clara de abordar este problema es otorgar licencias directas a los artículos. Por ejemplo, Associated Press, Axel Springer y Financial Times han cerrado acuerdos de contenido con OpenAI. Pero también ha surgido un nuevo grupo de empresas que buscan nuevos modelos económicos para los editores en la era de la inteligencia artificial. TollBit, por ejemplo, cobra a las empresas de inteligencia artificial cada vez que extraen contenido del sitio de un editor. TollBit trabaja con 500 editores, entre ellos TIME, Hearst y Adweek.

“La IA no lee como lo hacen los humanos. Los humanos hacen clic en un enlace, hacen clic en el segundo enlace y luego pasan al siguiente”, dijo Panigrahi. “La IA lee entre 10 y 20 enlaces para obtener la respuesta”.

Etiquetado:

Cómo OpenAI y Perplexity dominarán el tráfico de búsquedas en internet

Dentro del turbio mercado de venta de acciones de SpaceX y OpenAI antes de su salida a bolsa

Entrevista a Elon Musk: El veredicto de OpenAI sienta un «precedente peligroso»

¿Qué está pasando con OpenAI? Aumenta la tensión con Apple y afronta múltiples frentes legales

La ronda de financiación de 900 mil millones de dólares de Anthropic está a punto de superar a OpenAI