IA et Disparition du Web Traditionnel

4
IA et Disparition du Web Traditionnel
IA et Disparition du Web Traditionnel

Africa-Press – Côte d’Ivoire. Et si les intelligences artificielles (IA) faisaient disparaître le web? Tout au moins le web tel qu’on le connaît et expérimente en ce moment, avec des pages et des sites accessibles via des moteurs de recherche pointant vers des URL. Dans un article coécrit avec d’autres spécialistes du web et de l’intelligence artificielle (Gaël Varoquaux, Winston Maxwell, Zacchary Sadeddine), Fabian Suchanek, professeur à Telecom Paris, envisage ce scénario et ses conséquences.

Sciences et Avenir: Vous êtes spécialiste de traitement automatique du langage, ce qui inclut de fait les grands modèles de langue (LLM), mais votre article sur le web à l’heure des LLM relève plus d’une question sociétale que technologique. D’où vient cette initiative?
Fabian Suchanek: C’est un article d’analyse (« opinion paper ») paru dans la newsletter de SIGIR Forum, la publication du groupe d’intérêt sur la recherche d’informations au sein de l’Association for Computing Machinery (association internationale de soutien à la recherche scientifique en informatique, ndlr). Il ne s’agit pas, en effet, de proposer un nouvel algorithme. L’idée est venue d’un cours à Telecom Paris, dans lequel j’enseigne, qui traite non pas seulement de l’utilisation de l’intelligence artificielle, ses techniques, ses méthodes, ses algorithmes, mais aussi des enjeux éthiques qui vont avec.

« Des moteurs de recherche offrent déjà des réponses générées par l’IA »
Quel est votre constat sur la manière dont l’IA générative va changer, ou change déjà, l’expérience d’Internet par un usager lambda?

Des moteurs de recherche comme Google, Bing (de Microsoft, ndlr), DuckDuckGo, Brave (de Brave Software, ndlr) offrent déjà des réponses générées par l’IA, au lieu de proposer de cliquer sur des liens. En juillet 2025, un article de The Economist expliquait que le trafic provenant des moteurs de recherches avait baissé de 5% depuis 2024 sur les 100 pages web les plus populaires, notamment sur Wikipédia ou les pages web de médias.

Après, est-ce dû aux moteurs de recherche et à leurs IA ou aux internautes qui ont moins tendance à utiliser les moteurs de recherche en passant plus de temps sur les réseaux sociaux, par exemple? Une statistique en particulier montre que la cause de ce changement serait bien les LLM: la part des requêtes relatives à des sujets d’actualité qui restent sur la page d’accueil d’un moteur de recherche ont augmenté de 56 à 69%.

Cette situation convient très bien aux moteurs de recherche, car plus de gens restent dans leur écosystème, mais c’est au détriment de ceux qui produisent les contenus car moins de gens vont sur leurs sites.

Cette évolution vers du « tout IA » semble surtout poussée par les moteurs de recherche et les grands acteurs des technologies, mais y a-t-il une demande des internautes?

Internet est un écosystème dynamique, dans lequel l’utilisateur veut accéder à des informations le plus facilement possible. Au début, les moteurs de recherche n’existaient pas, on avait juste les pages web. Ensuite sont apparus des catalogues comme DMOZ (un service collaboratif d’AOL fermé en 2017, ndlr), puis Google, qui a rendu populaire l’usage des moteurs de recherche. Personne n’a rien demandé, simplement, c’est extrêmement pratique, cela répondait à un besoin. En même temps, Google y trouvait son compte parce qu’il pouvait vendre des publicités aux gens qui passaient par sa page. C’était même bénéfique pour les producteurs de contenus vers qui le trafic était dirigé, même s’ils ne figuraient pas dans un catalogue.

Il y a ensuite eu un premier grand débat, au niveau européen, concernant les bouts d’articles (« snippets ») d’actualité affichés par Google. Les internautes restaient un peu plus sur la page de Google. C’était pratique pour les utilisateurs, et pour Google, mais pas du tout pour les producteurs de contenus. Aujourd’hui, un autre déséquilibre s’installe avec les LLM: les internautes restent sur la page du moteur de recherche alors que les contenus sont non seulement utilisés mais aussi transférés à l’utilisateur sans que ce dernier passe par les sites des producteurs de ces contenus. Cela affecte les revenus de la publicité, les dons pour des sites comme Wikipédia (voire le volume des contributions sur les pages de l’encyclopédie), et la visibilité de simples pages web personnelles, donc leur trafic et au final la motivation pour alimenter, mettre à jour ces pages.

« Il est tout à fait imaginable techniquement d’empêcher la collecte de données »
Jusque-là, les LLM ont beaucoup été critiqués pour la collecte de données, les possibles violations de droit d’auteur et le plagiat, que vous évoquez dans votre article, et qui ont suscité des actions en justice. Cette autre « cannibalisation », celle de l’audience, suscite-t-elle aussi des réactions?

Oui, on voit beaucoup d’articles (The Economist, Le Monde) sur le thème « le web va mourir », « les producteurs de contenus vont moins produire et disparaître ». Mais dans cette logique, les LLM eux-mêmes sont en danger car ils ne pourront plus se nourrir de contenus du web. Plusieurs pistes sont envisagées pour résoudre ce problème.

Par exemple?

Il y a déjà la piste juridique. L’IA Act européen stipule qu’on a le droit d’empêcher les modèles de s’entrainer sur notre contenu. On peut aussi faire payer les concepteurs de LLM: soit en passant des accords, comme ceux du Monde ou de News Corp. avec OpenAI. Mais c’est une solution qui concerne essentiellement de grands acteurs, pas quelqu’un comme moi avec ma page web personnelle ! Et encore, si Le Monde s’accorde avec OpenAI, est-ce qu’il va le faire avec Deepseek, Anthropic (concepteur du LLM Claude, ndlr), Mistral, d’autres encore?

Une troisième voie serait de faire payer les bots de l’IA soit quand ils visitent une page pour en collecter le contenu ou soit quand les LLM montrent ce contenu aux internautes. Dans le premier cas, c’est comme un ticket d’entrée. Plusieurs acteurs s’y essaient, comme le prestataire technique Cloudflare, qui représente beaucoup d’utilisateurs et de fournisseurs de contenus et qui, donc, peut négocier des frais d’entrée pour les bots. Le second scénario implique qu’un moteur de recherche paie quand un contenu est vu. C’est difficile à mettre en place parce qu’un modèle de langue répond en se basant sur ce qu’il sait mais il ne sait pas d’où il sait ! Ou alors on utilise le mécanisme du RAG (« retrieval-augmented generation », en français « génération à enrichissement contextuel », ndlr): un utilisateur pose une question et derrière, un moteur de recherche classique trouve les pages pertinentes, les met dans un LLM et celui-ci répond alors en se basant sur ces contenus-là. On peut donc indiquer les sources. Ce n’est pas toujours fiable, parce que le moteur peut trouver des pages qui ne seront finalement pas utilisées par le modèle, ou parce que le modèle peut toujours halluciner des choses. Mais cela reste un moyen d’apporter du crédit à une réponse.

Quatrième possibilité: attirer de l’audience sans passer par le web, via des applications, des contenus audio, des vidéos… Là, cela signifie l’abandon du concept de page web au profit d’autres canaux de communications.

Toutes ces pistes sont expérimentées en ce moment, sans que l’on sache laquelle est la plus prometteuse.

Depuis peu, Cloudflare, justement, propose à ses clients l’option AI Labyrinth permettant d’empêcher la collecte de contenus web par les bots des acteurs de l’IA, en détournant ces derniers vers du contenu non exploitable. Est-ce viable sur le long terme ou est-ce l’équivalent d’une solution d’urgence en attendant que les choses évoluent?

Il est tout à fait imaginable techniquement d’empêcher la collecte de données. Plusieurs approches explorent aussi la possibilité de tatouer ces données, de sorte que quand elles réapparaissent dans une réponse de modèle de langage, on peut prouver que ce dernier a été entraîné avec des contenus sur lesquels on lui avait interdit de le faire. Il reste que même si tous les fournisseurs de contenus interdisent l’accès aux bots, il n’est pas évident que cela aille dans le sens de l’intérêt commun, dans l’intérêt des utilisateurs. Et si certains concluent des accords avec OpenAI ou d’autres, leurs contenus restent accessibles, des résultats s’affichent dans les moteurs de recherche, et les autres fournisseurs ne feront que pâtir du manque de trafic.

Vous évoquiez le risque que les LLM eux-mêmes déclinent, ce que l’on appelle « l’effondrement des IA », même si le concept fait débat. Quel serait le processus?

Cela se produit quand le modèle a besoin de plus de données qu’il n’y en a de disponibles, et on y arrive. Surtout qu’une partie du contenu en ligne est désormais lui-même généré par les IA. Notamment les contenus traduits. Or, si on entraine des LLM sur des contenus déjà issus de LLM, c’est un peu comme s’ils se nourrissaient de leurs propres déchets. Cela diminue la diversité des contenus, des opinions, des styles, cela va amplifier les erreurs, renforcer certaines visions du monde… Le problème est là aussi connu, même si on n’a pas encore la solution.

Pour plus d’informations et d’analyses sur la Côte d’Ivoire, suivez Africa-Press

LAISSER UN COMMENTAIRE

Please enter your comment!
Please enter your name here