Bonjour,
Il y a quelques temps, j'ai remplacé mon blog Wordpress (Hébergement "Pro") par un petit wiki perso sous MediaWiki, ici:
https://www.ventsetjardins.fr/wiki/
Depuis, à deux reprises, j'ai reçu des messages d'alerte d'OVH au sujet de dépassements du nombre de requêtes sur ma base de données.
Renseignement pris, c'est hélas de plus en plus courant et c'est dû aux crawlers des IA (celle de Meta lors de l'incident précédent, je ne sais pas encore avec certitude laquelle pour l'incident en cours).
J'ai mis en place une solution qui semble avoir bien fonctionné dans un premier temps:
https://www.mediawiki.org/wiki/Extension:CrawlerProtection
Cette solution interdit aux robots de prendre connaissance de l'énorme quantité de liens possibles sur un wiki en leur retournant un HTTP 403 Forbidden quand ils essayent d'accéder à l'immense liste de tous les liens techniques possibles (typiquement les liens vers les diffs entre toutes les anciennes versions de toutes les pages, ce qui augmente de manière exponentielle à chaque modification d'une page).
Mais que chaque demande du crawler sur sa liste de pages précédemment enregistrées génère quand même un appel à la base de données, même si c'est pour lui renvoyer un 403.
Mes questions sont les suivantes:
- Est-ce que je peux laisser les choses comme ça, car après tout ça ne gêne pas mes utilisateurs plus que ça et que quand ça déborde, OVH refuse de traiter les requêtes "a la c*n" des crawlers?
- Ou est-ce que je risque au contraire de me faire voler dans les plumes par OVH?
- Est-ce que les crawlers voyous vont finir par se lasser à force de récupérer des erreurs 403? Je n'y crois pas trop mais???
- Est-ce que vous me conseillez de bloquer les robots via un htaccess? Sauf que les crawlers IA ne les respectent pas toujours, que certains de mes "attaquants" changent d'IP en permanence et que je perdrais mes référencements.
Je ne me vois pas monter en gamme ni mettre en place plus de cache uniquement pour satisfaire des requêtes de robots voyous.
Bref tout conseil ou idée serait bienvenu. Merci d'avance.
Complément:
La véritable attaque (il n'y a pas d'autre mot!) que je subis en ce moment vient bien de nouveau d'un crawler de Meta:
https://developers.facebook.com/docs/sharing/webmasters/web-crawlers
Et c'est bien le robot
meta-externalagent/1.1qui essaye d'explorer les moindres recoins de mon wiki pour nourrir son IA (ils le disent dans leur doc) et pas du tout pour le référencement.Je vais essayer d'interdire
meta-externalagent/1.1via un htaccess. On verra bien s'il respecte la directive.A suivre...
Bon, apparemment, c'était bien ça qu'il fallait faire. Une fois qu'on a trouvé, ça semble tellement évident! 😇
J'ai énormément plus de "403 Forbidden" dans mes logs maintenant et plus de requêtes idiotes sur la BDD.
En espérant que ma mésaventure puisse servir à quelq'un(e)s.