Bonjour,
Nous rencontrons de plus en plus de souci à cause des bots IA crawlant notre site de manière abusive.
Les comportements sont tellement abusifs que notre site tombe régulièrement en erreur 500 du fait de la restriction en nombre de requêtes à la base de données. Nous recevons des mails d'informations d'OVH à ce sujet et constatons dans nos logs ces pics de trafic anormaux.
Nous sommes en performance 1 et ceci est amplement suffisant pour l'usage générale que nous en avons.
En temps normal, nous plafonnons à peine à 5% des capacités du système.
La réalité est que nous subissons régulièrement des crawls intensifs de bots qui entrainent cette sur-consommation excessive de requêtes, parfois à plus de 6 requêtes/secondes de pages distinctes.
Ceux-ci sont facile à repérer puisqu'il s'agit d'un unique GET à une page.
Nous avons mis en place dans un Htaccess une première protection pour bloquer le traffic des bots agissant de manière transparente.
Celle-ci a fonctionné un temps.
Nous avons ensuite identifié des IP, voire plages d'IP, problématiques.
Idem, cela à fonctionner un temps, mais sur une seule matinée, nous avons pu constater plus de 800 IPs différentes … impossible de maintenir à jour un tel nombre et en plus au risque d'exclure des utilisateurs légitimes en fonctionnant par plage.
Maintenant, les bots utilisent des générations de User-Agent frauduleux pour se faire passer pour de véritables utilisateurs. Nous avons repéré que la plupart utilisaient des déclarations de UserAgent de navigateurs ou plateformes obsolètes, voire incohérent :
- Chrome obsolète (<142)
- Firefox obsolète (<110)
- Internet Explorer < 9
- anciens Safari / WebKit (<400)
- systèmes d’exploitation obsolètes Windows\s(95|98|NT\s5|2000)|PPC\ Mac
Nous avons donc mis en place des règles basées sur le user agent pour détecter des incohérences mais certains bots arrivent encore à passer et nous ne pouvons pas non plus imposé systématiquement des versions trop récentes ce qui serait au dépend de nos vrais utilisateurs.
Cela devient vraiment problématique.
Êtes-vous également concerné par ce genre de souci ?
Comment bloquer ces comportements abusifs ?
Avez-vous des astuces permettant de sécurisé l'accès à nos sites à de "vrais humains" ?