"Attaque" de crawlers IA sur un petit wiki perso (MediaWiki)

Bonjour,

Il y a quelques temps, j'ai remplacé mon blog Wordpress (Hébergement "Pro") par un petit wiki perso sous MediaWiki, ici:

https://www.ventsetjardins.fr/wiki/

Depuis, à deux reprises, j'ai reçu des messages d'alerte d'OVH au sujet de dépassements du nombre de requêtes sur ma base de données.

Renseignement pris, c'est hélas de plus en plus courant et c'est dû aux crawlers des IA (celle de Meta lors de l'incident précédent, je ne sais pas encore avec certitude laquelle pour l'incident en cours).

J'ai mis en place une solution qui semble avoir bien fonctionné dans un premier temps:
https://www.mediawiki.org/wiki/Extension:CrawlerProtection

Cette solution interdit aux robots de prendre connaissance de l'énorme quantité de liens possibles sur un wiki en leur retournant un HTTP 403 Forbidden quand ils essayent d'accéder à l'immense liste de tous les liens techniques possibles (typiquement les liens vers les diffs entre toutes les anciennes versions de toutes les pages, ce qui augmente de manière exponentielle à chaque modification d'une page).

Mais que chaque demande du crawler sur sa liste de pages précédemment enregistrées génère quand même un appel à la base de données, même si c'est pour lui renvoyer un 403.

Mes questions sont les suivantes:

  • Est-ce que je peux laisser les choses comme ça, car après tout ça ne gêne pas mes utilisateurs plus que ça et que quand ça déborde, OVH refuse de traiter les requêtes "a la c*n" des crawlers?
  • Ou est-ce que je risque au contraire de me faire voler dans les plumes par OVH?
  • Est-ce que les crawlers voyous vont finir par se lasser à force de récupérer des erreurs 403? Je n'y crois pas trop mais???
  • Est-ce que vous me conseillez de bloquer les robots via un htaccess? Sauf que les crawlers IA ne les respectent pas toujours, que certains de mes "attaquants" changent d'IP en permanence et que je perdrais mes référencements.

Je ne me vois pas monter en gamme ni mettre en place plus de cache uniquement pour satisfaire des requêtes de robots voyous.

Bref tout conseil ou idée serait bienvenu. Merci d'avance.

Complément:
La véritable attaque (il n'y a pas d'autre mot!) que je subis en ce moment vient bien de nouveau d'un crawler de Meta:
https://developers.facebook.com/docs/sharing/webmasters/web-crawlers

Et c'est bien le robot meta-externalagent/1.1 qui essaye d'explorer les moindres recoins de mon wiki pour nourrir son IA (ils le disent dans leur doc) et pas du tout pour le référencement.

Je vais essayer d'interdire meta-externalagent/1.1 via un htaccess. On verra bien s'il respecte la directive.

A suivre...

Bon, apparemment, c'était bien ça qu'il fallait faire. Une fois qu'on a trouvé, ça semble tellement évident! 😇

J'ai énormément plus de "403 Forbidden" dans mes logs maintenant et plus de requêtes idiotes sur la BDD.

En espérant que ma mésaventure puisse servir à quelq'un(e)s.

Bon, deux mois après, l'extension Crawler Protection a bien amélioré les choses, mais ça ne suffisait toujours pas.

Et le blocage des crawlers IA avec .htaccess non plus puisque que pas mal de ces bots utilisent de faux identifiants et changent d'IP à chaque requête! :face_with_symbols_on_mouth:
Depuis une semaine, je suis passé par Cloudflare, en version gratuite. Le réglage de base a déjà bien amélioré les choses, mais c'était pas encore ça.
Depuis deux jours, j'ai rajouté la règle suivante dans mes "security rules":
(http.request.uri.query contains "Sp%C3%A9cial") -> Non-Interactive Challenge
Vu que la très grande majorité des requêtes abusives étaient en direction des "pages spéciales" du wiki.
Depuis, tout semble être rentré dans l'ordre: Cloudflare, avec cette règle particulière plus sa règle générique anti-bots, bloque un bon 90% des requêtes indésirables, sans bloquer pour autant les bots de référencement.

Oui Cloudflare est très utile dans ce genre de situation. Dommage que cela deviennent presque incontournable pour certains projets :frowning:

Ce serait bien de pouvoir indiquer dans un header le tarif aux bot IA pour crawler : le bot IA envoie la somme sur un portefeuille crypto et en échange, il a le droit de crawler.

La plupart des sites web veulent être crawlés par les IA vu que maintenant elles recommandes des sites...

Bien tenté :slight_smile:

c'est prévu ! Par Cloudflare toujours : https://www.cloudflare.com/fr-fr/paypercrawl-signup/

Par Cloudflare toujours

Fan boy va :slight_smile:

Très sincèrement, j'aimerais qu'OVH propose des solutions aussi complètes (au moins en partie) pour me passer d'eux. Mais ils sont juste indispensables dans de nombreuses situations, surtout quand tu ne veux pas monter une usine à gaz car le budget client est de "pas grand chose".