Hello,
J'ai un serveur qui me fait de joli kernel panic avec rsync (c'est cool de ne pas pouvoir faire ses sauvegardes), en dehors de ça il fait sa vie tranquillement.
Demain matin je vais avoir le plaisir de me lever à 5H du mat (yeah faut pas perturber la prod) pour passer en rescue et faire les tests hardware qui vont bien..
J'ai pris quelques screen de l'ipmi, ça parle à quelqu'un ?
Hello,
Fais une analyse des disques physiques, on dirait qu'un disque est HS
Enfin le kernel panic du rsync me fait penser à ca.
checkfsck, smartctl et badblocks pour ne citer qu'eux.
Ensuite je me dirigerais vers une mise à jour kernel, le 6.2 doit etre dispo dans les repo sans que ca impact ton service.
Bon courage
Captainadmin
ouaip les disques j'aime pas… Tjrs pénible comme problème…
Je ferai ts les tests demain matin en rescue, histoire de pouvoir bosser sur des partitions démontées et faire les tests hardware qui vont bien.
Le raid est tjrs parfaitement synchro en tt cas.
Rien dans les logs puisque ça termine en kernel panic…
Hello,
Serveur avec de la RAM ECC ?
Car à certains endroits cela ressemble à un défaut mémoire.
Cordialement, janus57
kernel panic
Avant cela, je regarderais les compteurs S.M.A.R.T. de tous tes disques , et en particulier les registres 5, 197, 198 et 199 qui sont des signes d'alertes si différents de zéro.
@janus57: oui c'est de l'ecc, un adv2 gen2, un kernel panic sur de la ram ecc ça m'étonne un peu… Au pire on a des remontées d'erreurs dans les logs.
@Fritz2cat: les disques ont l'air clean avec un smartctl, je ferai + de tests en rescue, mais en gros :
> === START OF SMART DATA SECTION ===
> SMART overall-health self-assessment test result: PASSED
> Available Spare: 100%
> Available Spare Threshold: 10%
> Percentage Used: 0%
> Error Information (NVMe Log 0x01, 16 of 64 entries)
> No Errors Logged
Le raid ne remonte pas la moindre erreur non plus.
Faut que je fasse les tests du mode rescue, ça m'en dira +.
Les disques seront démontés, je serai sur un système de secours, ça sera probablement + simple.
smartctl
Utilise 'smartctl -a /dev/sdX'
fais aussi, ça ne change rien.
Faudra voir avec les partitions démontées pour tester aussi l'intégrité des partitions.
Bonjour,
oui c'est de l'ecc, un adv2 gen2, un kernel panic sur de la ram ecc ça m'étonne un peu
c'est possible si et seulement si la barrette est vraiment endommagé au point que l'ECC ne suit plus (jamais vu ce cas pour être tout à fait franc).
Globalement dans les logs y a pas d'autre erreurs qui apparaissent ?
Cordialement, janus57
Le seul truc que j'ai de douteux dans les logs c'est au reboot :
> kernel: pci 0000:03:00.0: BAR 7: no space for [mem size 0x00400000 64bit pref]
> kernel: pci 0000:03:00.0: BAR 7: failed to assign [mem size 0x00400000 64bit pref]
> kernel: pci 0000:03:00.0: BAR 10: no space for [mem size 0x00100000 64bit pref]
> kernel: pci 0000:03:00.0: BAR 10: failed to assign [mem size 0x00100000 64bit pref]
Je ne garde les logs kern.log et messages que pendant 1 mois, je n'ai pas d'historique sur les précédents reboot pour voir si le message existait déjà avant les reboots…
Bonjour,
à priori cela aurait un rapport avec les lignes PCI, vu que cela semble être des SSD en NVMe la piste des disque est peut être bonne.
Cordialement, janus57
disque ou la carte mère… problème de bus de communication entre le nvme et le carte mère… En cas de forte charge ça se met à bugger…
En cas de forte charge
Tu n'as pas les mesures de température, par hasard ?
au repos ils sont normaux…
Faudrait voir en charge (je testerai demain, la nuit sera courte) :
> Media and Data Integrity Errors: 0
> Error Information Log Entries: 0
> Warning Comp. Temperature Time: 0
> Critical Comp. Temperature Time: 0
> Temperature Sensor 1: 33 Celsius
> Temperature Sensor 2: 42 Celsius
Bon ben ce fut rapide…
Test de la ram, crash dès le lancement du test…
On notera que stress-ng n'est pas installé sur le rescuepro64, qu'on ne peut pas l'installer image Jessie… Je n'ai pas le lien vers l'interface web pour les tests, je me suis basé là dessus pour le test RAM : https://help.ovhcloud.com/csm/fr-dedicated-servers-hardware-diagnostics?id=kb_article_view&sysparm_article=KB0043509#connexion-au-reseau
Bref, maintenant la suite c'est le support…
Bonjour,
Je n'ai pas le lien vers l'interface web pour les tests
port 81 de mémoire (sauf si cela a été retiré).
Finalement mes impression de problème mémoire n'était pas mauvaise (bien que extrêmement rare sur de la ECC).
Cordialement, janus57
Petit débrief pour la forme.
Donc ce matin, reboot en rescue, serveur qui crash dès le lancement de la commande de test de RAM. Validé 2x de suite…
Je lance l'intervention OVH, ils ont passé 1H30 a tester le serveur et… rien…
Tout est ok…
Mieux, je n'ai plus les crash lors des rsync… ouf, j'ai pu mettre mes backups à jour…
Bref, no idea sur pourquoi j'ai eu ces problèmes, qui étaient tjrs présent en rescue… Et qui ont disparus par magie après l'intervention des techs OVH…
Un exorcisme peut être ? Une prière par les techs ? Le Dieu Machine doit être Honoré ?
Ma foi, le week end approche, c'est le + important.
Merci pour les != conseils !
[EDIT]
Le ticket annonce que tout est ok, mais en fait il y a bien eu un changement de RAM.
Je n'ai pas halluciné ![]()
[/EDIT]
Bonjour @Sich
Il y a longtemps que je n'ai plus du tout d'expérience sur les serveurs.
Par contre ton problème qui disparaît tout seul me fait penser à un problème sur les ordinateurs.
Il est parfois impossible de démarrer l'ordinateur Windows qui en permanence demande de faire une restauration.
La simple utilisation d'une clé USB avec Ubuntu live permet, une fois l'utilisation en Ubuntu puis arrêt, de redémarrer normalement et sans histoire dans Windows.
Sur mes PC et et ceux de mes amis, j'ai le problème une à deux fois par an .
Il semblerait que le fait de redémarrer un système par une autre version d'OS serait équivalent à une remise à zéro de certaines parties de la mémoire ROM.
Le fait que les techniciens OVH aient directement leurs propres tests a pu neutraliser le problème.
Alors en fait le support Twitter derrière m'a confirmé qu'ils ont bien changé une barrette RAM. Je leur ai demandé si ils avaient fait une prière pour que tout fonctionne si bien, et il m'a confirmé le changement…
C'est juste que dans le mail de rapport ils indiquent que tout est ok… Ce qui m'a un peu étonné…
Problème résolu, les backups sont à jour, on peut aller en week end l'esprit serein ![]()


