Hébergements Starter, Perso, Pro ou performance - "Attaque" de crawlers IA sur un petit wiki perso (MediaWiki)
... / "Attaque" de crawlers IA ...
BMPCreated with Sketch.BMPZIPCreated with Sketch.ZIPXLSCreated with Sketch.XLSTXTCreated with Sketch.TXTPPTCreated with Sketch.PPTPNGCreated with Sketch.PNGPDFCreated with Sketch.PDFJPGCreated with Sketch.JPGGIFCreated with Sketch.GIFDOCCreated with Sketch.DOC Error Created with Sketch.
Frage

"Attaque" de crawlers IA sur un petit wiki perso (MediaWiki)

Von
ChristopheD53
Erstellungsdatum 2026-03-13 17:28:17 in Hébergements Starter, Perso, Pro ou performance

Bonjour,

Il y a quelques temps, j'ai remplacé mon blog Wordpress (Hébergement "Pro") par un petit wiki perso sous MediaWiki, ici:

https://www.ventsetjardins.fr/wiki/

Depuis, à deux reprises, j'ai reçu des messages d'alerte d'OVH au sujet de dépassements du nombre de requêtes sur ma base de données.

Renseignement pris, c'est hélas de plus en plus courant et c'est dû aux crawlers des IA (celle de Meta lors de l'incident précédent, je ne sais pas encore avec certitude laquelle pour l'incident en cours).

J'ai mis en place une solution qui semble avoir bien fonctionné dans un premier temps:
https://www.mediawiki.org/wiki/Extension:CrawlerProtection

Cette solution interdit aux robots de prendre connaissance de l'énorme quantité de liens possibles sur un wiki en leur retournant un HTTP 403 Forbidden quand ils essayent d'accéder à l'immense liste de tous les liens techniques possibles (typiquement les liens vers les diffs entre toutes les anciennes versions de toutes les pages, ce qui augmente de manière exponentielle à chaque modification d'une page).

Mais que chaque demande du crawler sur sa liste de pages précédemment enregistrées génère quand même un appel à la base de données, même si c'est pour lui renvoyer un 403.

Mes questions sont les suivantes:

  • Est-ce que je peux laisser les choses comme ça, car après tout ça ne gêne pas mes utilisateurs plus que ça et que quand ça déborde, OVH refuse de traiter les requêtes "a la c*n" des crawlers?
  • Ou est-ce que je risque au contraire de me faire voler dans les plumes par OVH?
  • Est-ce que les crawlers voyous vont finir par se lasser à force de récupérer des erreurs 403? Je n'y crois pas trop mais???
  •  Est-ce que vous me conseillez de bloquer les robots via un htaccess? Sauf que les crawlers IA ne les respectent pas toujours, que certains de mes "attaquants" changent d'IP en permanence et que je perdrais mes référencements.

Je ne me vois pas monter en gamme ni mettre en place plus de cache uniquement pour satisfaire des requêtes de robots voyous.

Bref tout conseil ou idée serait bienvenu. Merci d'avance.


2 Antworten ( Latest reply on 2026-03-13 21:21:23 Von
ChristopheD53
)

Complément:
La véritable attaque (il n'y a pas d'autre mot!) que je subis en ce moment vient bien de nouveau d'un crawler de Meta:
https://developers.facebook.com/docs/sharing/webmasters/web-crawlers

Et c'est bien le robot meta-externalagent/1.1 qui essaye d'explorer les moindres recoins de mon wiki pour nourrir son IA (ils le disent dans leur doc) et pas du tout pour le référencement.

Je vais essayer d'interdire meta-externalagent/1.1 via un htaccess. On verra bien s'il respecte la directive.

A suivre...