Depuis, à deux reprises, j'ai reçu des messages d'alerte d'OVH au sujet de dépassements du nombre de requêtes sur ma base de données.
Renseignement pris, c'est hélas de plus en plus courant et c'est dû aux crawlers des IA (celle de Meta lors de l'incident précédent, je ne sais pas encore avec certitude laquelle pour l'incident en cours).
Cette solution interdit aux robots de prendre connaissance de l'énorme quantité de liens possibles sur un wiki en leur retournant un HTTP 403 Forbidden quand ils essayent d'accéder à l'immense liste de tous les liens techniques possibles (typiquement les liens vers les diffs entre toutes les anciennes versions de toutes les pages, ce qui augmente de manière exponentielle à chaque modification d'une page).
Mais que chaque demande du crawler sur sa liste de pages précédemment enregistrées génère quand même un appel à la base de données, même si c'est pour lui renvoyer un 403.
Mes questions sont les suivantes:
Est-ce que je peux laisser les choses comme ça, car après tout ça ne gêne pas mes utilisateurs plus que ça et que quand ça déborde, OVH refuse de traiter les requêtes "a la c*n" des crawlers?
Ou est-ce que je risque au contraire de me faire voler dans les plumes par OVH?
Est-ce que les crawlers voyous vont finir par se lasser à force de récupérer des erreurs 403? Je n'y crois pas trop mais???
Est-ce que vous me conseillez de bloquer les robots via un htaccess? Sauf que les crawlers IA ne les respectent pas toujours, que certains de mes "attaquants" changent d'IP en permanence et que je perdrais mes référencements.
Je ne me vois pas monter en gamme ni mettre en place plus de cache uniquement pour satisfaire des requêtes de robots voyous.
Bref tout conseil ou idée serait bienvenu. Merci d'avance.
Et c'est bien le robot meta-externalagent/1.1 qui essaye d'explorer les moindres recoins de mon wiki pour nourrir son IA (ils le disent dans leur doc) et pas du tout pour le référencement.
Je vais essayer d'interdire meta-externalagent/1.1 via un htaccess. On verra bien s'il respecte la directive.
Bon, deux mois après, l'extension Crawler Protection a bien amélioré les choses, mais ça ne suffisait toujours pas.
Et le blocage des crawlers IA avec .htaccess non plus puisque que pas mal de ces bots utilisent de faux identifiants et changent d'IP à chaque requête!
Depuis une semaine, je suis passé par Cloudflare, en version gratuite. Le réglage de base a déjà bien amélioré les choses, mais c'était pas encore ça.
Depuis deux jours, j'ai rajouté la règle suivante dans mes "security rules":
(http.request.uri.query contains "Sp%C3%A9cial") -> Non-Interactive Challenge
Vu que la très grande majorité des requêtes abusives étaient en direction des "pages spéciales" du wiki.
Depuis, tout semble être rentré dans l'ordre: Cloudflare, avec cette règle particulière plus sa règle générique anti-bots, bloque un bon 90% des requêtes indésirables, sans bloquer pour autant les bots de référencement.
Ce serait bien de pouvoir indiquer dans un header le tarif aux bot IA pour crawler : le bot IA envoie la somme sur un portefeuille crypto et en échange, il a le droit de crawler.
Très sincèrement, j'aimerais qu'OVH propose des solutions aussi complètes (au moins en partie) pour me passer d'eux. Mais ils sont juste indispensables dans de nombreuses situations, surtout quand tu ne veux pas monter une usine à gaz car le budget client est de "pas grand chose".