Bonjour,
J'ai un serveur KS-4C chez kinusufi depuis des années avec une Debian 9 "Stretch" (64bits), et de temps en temps ce serveur ne réponds plus au ping, et le service technique de kimsufi le rebootait, et le serveur marchait très bien ensuite. Sauf que depuis peu (environs un mois), la fréquence a augmenté, 6 ou 7 interventions pour le seul mois de janvier 2022. Et de plus, après reboot par les techniciens, le serveur ne répond toujours pas au ping, du coup ils le passent en mode rescue. Une fois en mode rescue, je ne fais qu'une seule chose, c'est changer le boot dans la console kimsufi (pour qu'il boot sur le disque), me connecter en ssh et faire un reboot. Après tout mes services sont up (ssh, nginx, docker, etc…)
Je dois donc avoir un problème de configuration quelque part, mais je ne sais pas ou chercher. Je suis donc preneur de toute bonne idée (sachant que je suis un débutant avancé dans l'admin serveur).
Merci d'avance pour votre aide
Guillaume
C'est le disque qui est HS ou un problème matériel.
Bonjour
Le plus simple serait d'en prendre un nouveaux, comme ça au passage installation de la dernière version de Debian, et hardware neuf ou récent.
A votre place je ferais vite car même si c'est un pb hard et que ça lâche, vous perdez tout.
un nouveaux
Lire entre les lignes: un nouveau serveur
Lors d'un compte rendu d'intervention, le support m'a assuré :
> Check hardware : OK aucune erreur
Du coup j'avais mis de coté cette piste. Comment puis je faire un diagnostic du disque dur?
@FredDev merci pour la suggestion, mais si je pouvais eviter de refaire completement l'installation, ca m'arrangerait, etant novice ca me prend un temps fou. Et pour les datas, rien de bien important, le principale etant sauvegarder ailleurs.
OK aucune erreur
Vous devriez vérifier chacun de vos disques avec `smartctl -a nom_du_device` et vérifier les compteurs d'erreurs.
Bonjour,
Le plus simple serait d'en prendre un nouveaux
j'en suis pas si sûr que que les stock sont quasiment tous à zéro
Comment puis je faire un diagnostic du disque dur?
en rescue il y a un WebUI pour faire les tests matériel (CPU/RAM/HDD).
Lors d'un compte rendu d'intervention, le support m'a assuré :
cela ne veux rien dire, sur un SYS j'avais le système qui avais des freeze +/- régulier, pensant que cela était dû au fait que j'avais installé le tout en ZFS manuellement je l'avais mis de côté (le serveur), sauf que un soir en rentrant du boulot j'ai vu un jolie mail d'intervention car un tech est intervenu sur le serveur suite à un un freeze sauf que la carte mère a été changé car là le serveur refusé de repartir.
Note : cela avais durée 3 mois et la cadence était aléatoire.
Cordialement, janus57
Merci a tous pour vos suggestions, je vais faire ce weekend un redemarrage en rescue et lancer les outils de diagnostic.
Cdt
Guillaume
Bonjour,
Est ce qu'il y a un firewall? c'est le protocole icmp qui permet le ping mais il peut aussi servir de faille de sécurité
cdt
Jean-Luc
Bonjour,
Le serveur a encore planté hier, même pb (alerte chez ovh, redémarrage par les techniciens, le serveur ne répond pas au ping, redémarrage en mode rescue). J'ai donc lance les tests depuis la page web de vérification de l’état du serveur, tous les tests passent sans pb, même si le test sur le disque est très rapide, même après avoir monté le disque. Du coup j'ai lance la commande :
`sudo badblocks -svn /dev/sda`
Mais sur un disque de 1To c'est long. Et j'ai bien sur fermé mon terminal avant d'avoir le retour de la commande. Je viens de la relancer, mais pas sur de pouvoir la laisser finir, mes utilisateurs commencent a raler. A l'instant ou j’écris ce message, il est a 35% et 0/0/0 errors après 4h.
@Jean-lucT11 En terme de sécurité, j'ai fail2Ban, logwatch et portsentry. J'avoue avoir suivi un tuto sur comment sécurisé son serveur aveuglement, donc je ne suis pas sur que fail2Ban soit un firewal.
Bonjour,
Que dises les log système au moment de la perte de connectivité ?
La carte réseaux est en adressage fixe ou via DHCP ?
Bonsoir @TTY
j'avoue que je sais pas trop quoi chercher. J'ai regarde dans /var/log/syslog et la dernière log avant l'heure présumé du plantage du serveur, c'est une log de portsentry. Après je vois 2 trace de reboot, qui doit correspondre aux reboot fait par les techniciens ovh.
Et pour la carte réseau, j'ai cherché sur le net et je devrais avoir un fichier dans /etc/network/interfaces, mais je n'ai pas de ficher interfaces, et j'ai rien dans le répertoire interfaces.d. D'ailleurs je vois des erreurs dans le syslog :
Feb 16 12:49:04 nsxxxxx sh[309]: ifquery: couldn't open interfaces file "/etc/network/interfaces": No such file or directory
Mais une fois rebooté, j’accède bien en ssh au serveur, donc c'est qu'il a bien réussi a configurer le réseau, non?
Et pour info, j'ai du arrêté le badblock après 6h, il avait fait que 50% environs du disque, et aucune erreur
j'avoue que je sais pas trop quoi chercher.
Dans tous les log (y compris ceux d’apache ou PHP si présent).
L'idée est de déterminer si la machine se bloque totalement ou si c'est juste une perte du rzo.
Si c'est juste du rzo tu devrais voir des évènements dans les log alors que la machine est offline.
C'est très rare d'avoir 0 trace quand il y a ce genre de problème.
Et pour la carte réseau, j'ai cherché sur le net et je devrais avoir un fichier dans /etc/network/interfaces, mais je n'ai pas de ficher interfaces,
Pour savoir si tu es en IP fixe fait une recherche de l'adresse IP du serveur :
` grep -lR /etc`
Si l'IP est trouvée dans un fichier de conf, c'est bien (et tu auras l'emplacement du fichier de conf de l'interface ).
Dans le cas contraire, c'est que ta machine prends un bail DHCP. Et ça on le voie souvent merder ces dernier temps.
Mais une fois rebooté, j’accède bien en ssh au serveur, donc c'est qu'il a bien réussi a configurer le réseau, non?
Au redémarrage oui. Puis le bail DHCP doit être renouvelé mais ne l'est pas -> machine offline.
fail2ban ajoute des règle à iptables pour gérer ses "prisons"
Le problème que j'ai avec OVH est la perte de l'adresse ipv4 sur les cartes réseaux.
Au bout d'un certain temps, l'adresse disparait (notion de TTL sur la carte réseau)
Du coup le ping disparait aussi ![]()
Via la partie IPMI de la console ovh, est ce que tu peux te connecter et taper ip address pour voir si c'est le même problème ?
J'ai du mettre un mot de passe sur root pour ce type d'accès
J'ai donc fait le grep, et je trouve l'ip du serveur dans 3 fichiers, /etc/issue, /etc/motd (ces 2 fichiers ont l'air identique avec l'adresse ip4, ip6 et le hostname) et dans /etc/systemd/network/1default.networkdefault.network et dans celui la je vois DHCP=no.
Pardon pour ma question de débutant, mais c'est quoi la partie IPMI? Je ne la vois pas dans la console de kimsufi (j'ai l'impression que c'est que dans la console ovh, et je suis chez kimsufi)
Bonjour,
pas d'IPMI/KVM chez kimsufi (serveur low cost).
Cordialement, janus57
Sur des serveur bare metal, y a un onglet ipmi pour se connecter quand le serveur n'est plus accessible.
si ton probleme est bien un perte de l adresse ipv4, mets en crontab toutes les demi heure appel à dchpclient
`dhcpclient eth0`
eth0 est le nom de ta carte reseau, ça peut être eno1 ou je ne sais quoi d'autre
ça redonnera une adresse ipv4 si ça arrive à expiration
J'ai donc ajoute dans la crontab de root :
*/30 * * * * /sbin/dhclient enp3s0 > /dev/null 2>&1
enp3s0 étant le nom de ma carte réseau, trouvé en faisant un ifconfig, et j'ai pris celle qui avait comme inet l'adresse ip du serveur.
Pour être précis je l'avais rajouté il y a quelque semaine, avant de me rendre compte que j'avais fait une faute de frappe dans la commande… Du coup je peux pas dire si ça marche, mais affaire a suivre.
Merci en tout cas pour l'aide