Je ne peux plus crawler !

J'avais un hébergement mutualisé Performance 1. Sur les conseils d'OVH (on m'a dit que mon site consommait trop de ressources), je suis passé à un VPS, l'offre VLE-4. Je dis de suite que je n'y connais rien en serveur, j'ai choisi cette offre au pif, parce qu'elle me paraissait bien (comment fait-on pour connaître ses besoins en serveur ?). J'ai migré mon site et les bases de données, et les quelques affichages que j'ai fait m'ont donné le sentiment que ce nouvel hébergement était moins performant que l'ancien.

Et là, je viens de tester un crawler pour vérifier mes liens, il s'est arrêté avec les requêtes en timeout alors qu'il n'a crawlé que 5% de mon site. Avec l'ancien hébergement, il y avait parfois des timeouts, mais après avoir crawlé au moins 25% du site…

L'offre VLE-4 est-elle moins performante que Performance 1 ?

Bonjour,
Votre question est trop généraliste… Mais si vous n'y connaissez rien en serveur, le VLE-4 est une erreur.
Peut-on avoir les détails sur votre site ? nom de domaine, framework utilisé, volumétrie disque et BDD, fréquentation.
êtes vous suivi par un webmaster ?

Je suis webmaster, j'ai conçu mon propre cms, la page la plus lourde doit faire 80 ko (sans les images) et mes 2 BDD sont hyper légères (22 et 24 Mo). C'est pour un site qui fait environ 12000 pages, et il y a quelques 40000 images. Le site total pèse environ 1,8 Go.
C'était le support OVH par email qui m'avait orienté vers un VPS.

Combien de visites par jour ?
Quel domaine ?

Bonjour,

La vraie question sur un VPS est comment vous avez installé ledit VPS ?
Comment vous l'avez optimisé ?
Avec quoi vous faites votre "crawling" ?

Dans l'absolu un VPS apporte plus de liberté et de puissance brute* par rapport à un mutualisé, mais il faut l'entretenir, le surveiller et bien faire ces sauvegardes.

Perso je vous aurais plutôt conseillé de prendre un mutu ailleurs que chez OVH plutôt que de vous lancer sur un VPS.

*Comparé à un mutu mais un VPS a aussi des limitations/bridage (par exemple sur un VLE-2 OVH fait un bridage des iops en écriture à 10K, testé avec la commande fio du guide OVH [KB0051277]).

Cordialement, janus57


Comparé à un mutu mais un VPS a aussi des limitations/bridage (par exemple sur un VLE-2 OVH fait un bridage des iops en écriture à 10K, testé avec la commande fio du guide OVH [KB0051277])


Très intéressant ça !


j'ai conçu mon propre cms, la page la plus lourde doit faire 80 ko (sans les images) et mes 2 BDD sont hyper légères (22 et 24 Mo). C'est pour moteurnature.com, le site fait environ 12000 pages, et il y a quelques 40000 images. Le site total pèse environ 1,8 Go

Bon je ne voie rien de dramatique.
Beaucoup de visite dans les log (robot compris) ? Car avec autant de page entre les bot légitimes, les illégitimes, les bots d'IA les attaques ça doit pas mal trafiquer je pense.

Avez vous contrôlé l'indexation de vos 2 bdd ?


Et là, je viens de tester un crawler pour vérifier mes liens, il s'est arrêté avec les requêtes en timeout alors qu'il n'a crawlé que 5% de mon site. Avec l'ancien hébergement, il y avait parfois des timeouts, mais après avoir crawlé au moins 25% du site...


Comme le dit @janus57 il faut voir comment est configuré le VPS et pourquoi votre bot de crawl c'est arrêté. Peut être un mécanisme de sécurité si vous avez un cpanel.

Le serveur ne répond plus, mon site a disparu…
Même l'interface d'OVH ne répond plus.
https://vps-fa0ae8bf.vps.ovh.net:8443/login_up.php
C'est une catastrophe


le site fait environ 12000 pages, et il y a quelques 40000 images. Le site total pèse environ 1,8 Go.

Bonjour @LaurentM8

Je me demande si vous n'auriez pas du laisser votre site sur un hébergement mutualisé.
Mais optimiser votre site.

Vous avez 12000 pages, et il y a quelques 40000 images.

Comment sont organisés ces pages et images, en particulier quelle est l'arborescence de ces fichiers ?

Combien de fichiers dans le dossier **_zvisu/1812/79_** ?

Il y a 48 fichiers dans ce répertoire. J'essaie de limiter le nombre de fichiers par répertoire à 50.
Pourquoi n'ai-je plus accès à l'intérface d'administration ?
C'est Diego G. qui m'a orienté vers un VPS.

Bonjour,


https://vps-fa0ae8bf.vps.ovh.net:8443/login_up.php
C'est une catastrophe

RAS de mon côté votre interface plesk répond bien


Même l'interface d'OVH ne répond plus.

vous parlez de l'interface sur https://www.ovh.com/manager/ ?

Dans tous les cas vous allez devoir analyser les métriques que vous avez dans plesk, vous avez peut être des protections intégrées qui vous bloquent surtout si vous lancer le crawl depuis votre connexion (cela pourrait être assimilé à du DoS si c'est mal réglé).

Sinon comme dit plus haut, si vous ne voulez pas faire tout ça, il faut repasser sur du mutualisé (quitte à aller ailleurs que chez OVH, ce ne sont pas les seuls à faire du mutu).

Cordialement, janus57

Non, je n'ai pas accès à Plesk, ni a mon site (par http ou ftp), et je ne reçois plus de mails.
Pour moi, il n'y a rien qui marche ce matin.
Il faut remettre mon site en ligne !

Bonjour,

Bah là votre site est bien accessible; testé via connexion Orange (ainsi que gtmetrix et pagespeed).

Comme dit plus haut, si vous faites le crawl depuis votre connexion il y a une très forte chance que vous vous êtes autobanni de votre service, essayer de vous connecter via une autre connexion pour vérifier.

Cordialement, janus57

Effectivement, cela ne marche pas avec Firefox ou Filezilla, mais je suis parvenu à me connecter à mon site avec Tor…
Le truc dingue est que quand j'étais en mutualisé, je crawlais mon site une fois par mois, et il n'y avait pas de problème. Les VPS ont plus de restrictions que les mutualisés, cela ne me semble pas logique. Il aurait fallu me le dire, qu'attention, si je crawle mon site, je vais m'autobannir !
Pouvez-vous me "débannir" ? Ou comment faire ?

Bonjour,


Les VPS ont plus de restrictions que les mutualisés, cela ne me semble pas logique.

non sur un VPS c'est vous le maitre à bord, ce n’est pas OVH qui fait les blocages :wink:


Pouvez-vous me "débannir" ? Ou comment faire ?

c’est à vous de le faire, c'est un VPS, donc seules vous avez la main dessus, même OVH ne peut rien y faire.

Je pense que vous n'avez pas totalement compris ce qu'implique un VPS en termes de gestion.

Pour faire simple, voici ce que OVH gère sur un VPS :
- Que la machine virtuelle soit allumée et soit disponible le plus possible 24/7J.
- Que la machine virtuelle ait une connexion réseau

Tout le reste c'est à vous de le faire en tant qu'administrateur et gestionnaire du VPS.

Cordialement, janus57

Non, pardon, j'ai bien compris ce qu'est un VPS. Oui, il y a des blocages, mais ce n'est pas moi qui les ai mis en place. Je n'ai fait que créer des sites sur le VPS. C'est OVH, ou c'est Plesk, je ne sais pas, mais ce n'est absolument pas moi qui ai programmé de bloquer le crawl, ou je ne sais ce qui peut aussi être bloqué ?
Je suis connecté à Plesk avec un VPN, je regarde ce que je peux faire.

Bonjour,


Oui, il y a des blocages, mais ce n'est pas moi qui les ai mis en place.

indirectement, c'est vous au travers de Plesk, là vous allez devoir maitriser plesk pour régler vos soucis.

Comme dit plus haut, OVH ne fait rien sur un VPS, donc si blocage il y a, cela vient de votre configuration, qui ici est peut être dû à la configuration de votre Plesk.

Cordialement, janus57