Les sites web bloquent les scrapeurs anthropiques obsolètes et ne prennent pas en compte les nouveaux.

Des centaines de sites web tentent d’empêcher Anthropic de récupérer leur contenu.
Ils bloquent des scrapers obsolètes, en particulier « ANTHROPIC-AI » et « CLAUDE-WEB ».
La cause principale réside dans la copie d’instructions obsolètes dans les fichiers robots.txt.

Étant donné que les sociétés d’intelligence artificielle lancent en permanence de nouveaux robots d’exploration sous des noms différents, il est indispensable de mettre fréquemment à jour les fichiers robots.txt.

Des sites web populaires, dont Reuters.com et ceux de la famille Condé Nast, bloquent ces bots obsolètes, mais ne parviennent pas à bloquer le « CLAUDEBOT » actuellement actif.

Dark Visitors suit et aide à la mise à jour des fichiers robots.txt pour bloquer les scrapeurs d’intelligence artificielle.

L’opérateur anonyme de Dark Visitors décrit la situation actuelle des robots.txt comme chaotique.
Dark Visitors suit des centaines de robots d’indexation et de racleurs, et fournit aux propriétaires de sites web des outils leur permettant de mettre régulièrement à jour leurs fichiers robots.txt.

Ce service a connu un regain de popularité, car de plus en plus de propriétaires de sites cherchent à empêcher les sociétés d’IA de récupérer leur contenu.
Récemment, de nouveaux scrapers d’Apple (Applebot-Extended) et de Meta (Meta-ExternalAgent) ont été introduits, ajoutant à la complexité.

Certains sites, comme Reddit, ont eu recours au blocage de tous les robots d’indexation à l’exception de quelques-uns, ce qui affecte les moteurs de recherche, les outils d’archivage Internet et la recherche universitaire, souvent de manière involontaire.

Des exemples concrets montrent le coût réel du scraping non contrôlé de l’IA

iFixit, un site web de guides de réparation, a enregistré près d’un million de visites des robots d’Anthropic en une journée, ce qui illustre l’ampleur du problème.

De même, Read the Docs, un service de déploiement de documentation de codage, a été confronté à des crawlers accédant à des fichiers d’une valeur de 10 To en une seule journée, ce qui a entraîné des coûts de bande passante de 5 000 $, incitant Read the Docs à bloquer le crawler incriminé.

Les deux sociétés préconisent que les entreprises d’IA respectent les sites qu’elles explorent afin d’éviter les blocages indiscriminés dus à des abus perçus.

L’initiative « Provenance des données » met en évidence la confusion qui règne dans le blocage des « scrapers » d’IA

Le blocage des « scrapers » d’IA fait peser la responsabilité sur les propriétaires de sites web, ce qui est d’autant plus compliqué que le nombre de « scrapers » augmente rapidement.

Les conclusions de la Data Provenance Initiative montrent que certains robots répertoriés dans les fichiers robots.txt n’ont pas d’origine ou de liens clairs avec leurs entreprises supposées, ce qui brouille les pistes.

Par exemple, l’origine de « ANTHROPIC-AI » n’est pas claire, car il n’existe aucune preuve publique de son existence en dehors de son apparition sur de nombreuses listes de blocage.
Anthropic reconnaît que « ANTHROPIC-AI » et « CLAUDE-WEB » ne sont plus utilisés, mais n’a pas précisé si le « CLAUDEBOT » actif respecte les directives robots.txt destinées aux anciens robots.

Commentaires d’experts sur les « scrapers » d’IA

Les meilleurs experts de la communauté ont partagé leurs opinions sur les problèmes actuels auxquels sont confrontés de nombreux sites web populaires qui tentent d’empêcher les robots d’indexation de l’IA d’accéder à leur contenu :

  • Shayne Longpre : attire l’attention sur le problème courant des sites web qui bloquent les agents anthropiques périmés et omettent le CLAUDEBOT actif.
  • Robb Knight : souligne la difficulté de vérifier les agents utilisateurs, en prenant l’exemple de « Perplexity-ai », que de nombreux sites bloquent alors que le véritable scraper s’appelle « PerplexityBot ».
  • Walter Haydock : Recommande une stratégie de blocage agressive pour les crawlers suspectés d’être des IA, en citant le manque inhérent de transparence et l’incertitude dans les processus de formation à l’IA.
  • Cory Dransfeldt : Il a fait écho au sentiment de Haydock, en soutenant des pratiques de blocage agressives et en maintenant une liste de blocage des robots d’intelligence artificielle sur GitHub.

L’effet d’entraînement des « scrapers » d’IA : Ce que cela signifie pour les créateurs de contenu

La confusion croissante et la difficulté de gérer les racleurs d’IA ont des conséquences plus larges pour les créateurs de contenu.
Nombre d’entre eux pourraient choisir de placer leur contenu derrière des murs payants afin d’empêcher le scraping sauvage.

Anthropic’s s’est engagé à respecter les préférences robots.txt obsolètes afin de réduire les frictions et de s’aligner sur les intentions des propriétaires de sites web, bien qu’il s’agisse d’une question complexe et évolutive.

Réponse d’Anthropic à la confusion du blocage

Le porte-parole d’Anthropic a confirmé que « ANTHROPIC-AI » et « CLAUDE-WEB » sont obsolètes.
Malgré cela, CLAUDE-WEB était opérationnel jusqu’à récemment, et a été vu encore le 12 juillet sur le site test de Dark Visitors.

Anthropic a reconfiguré « CLAUDEBOT » pour qu’il respecte les directives robots.txt définies pour les anciens agents, en essayant de s’aligner sur les préférences des propriétaires de sites web, même si leurs fichiers robots.txt sont obsolètes.

Dernières réflexions

Les défenses obsolètes rendent les sites web vulnérables, ce qui entraîne des coûts potentiellement élevés et des perturbations majeures.
Pour rester protégés, les propriétaires de sites web doivent régulièrement mettre à jour les protocoles de blocage, adopter des stratégies agressives et même envisager de déplacer le contenu derrière des murs payants ou un accès basé sur le compte.

Les entreprises doivent adopter des mesures proactives et se tenir informées des nouvelles technologies de scraper si elles veulent protéger leurs actifs numériques.

Tim Boesen

août 5, 2024

5 Min