Erreurs réccurentes de correction ECC sur la RAM d'un serveur

Bonjour à toutes et à tous,

J'utilise l'offre advance 4 et je rencontre des problèmes de corrections très régulière d'erreur de RAM (mémoire ECC autocorrective), 700 depuis le 20/09 .
Même si le matériel permet effectivement l'autocorrection, cela indique quand même une défaillance matérielle imminente.

logs :
Sep 27 00:00:34 pmx1-ovh kernel: [25871706.454369] [Hardware Error]: Corrected error, no action required.
Sep 27 00:00:34 xxxxxx kernel: [25871706.458184] [Hardware Error]: CPU:4 (17:1:2) MC16_STATUS[Over|CE|MiscV|AddrV|-|-|SyndV|CECC|-|-|-]: 0xdc2040000000011b
Sep 27 00:00:34 xxxxxx kernel: [25871706.465790] [Hardware Error]: Error Addr: 0x00000002687ba240
Sep 27 00:00:34 xxxxxx kernel: [25871706.469575] [Hardware Error]: IPID: 0x0000009600150f00, Syndrome: 0x000010ed0a400b00
Sep 27 00:00:34 pmx1-ovh kernel: [25871706.473393] [Hardware Error]: Unified Memory Controller Ext. Error Code: 0, DRAM ECC error.
Sep 27 00:00:34 xxxxxx kernel: [25871706.477262] EDAC MC1: 1 CE on mc#1csrow#0channel#1 (csrow:0 channel:1 page:0xcf0f74 offset:0x440 grain:64 syndrome:0x10ed)
Sep 27 00:00:34 xxxxxx kernel: [25871706.484890] [Hardware Error]: cache level: L3/GEN, tx: GEN, mem-tx: RD

Comment OVH traite de genre de panne ? Remplacement ? Investigation longue et laborieuse ? Autre ?

Merci !

Cordialement,

Yann

Bonjour,
Normalement le support OVH pour le matériel des serveurs dédiés est bon.
Avez vous lancé un ticket ?

Bonjour,

normalement ticket + logs + test => remplacement

Et sinon la défaillance est déjà présente si il y a de la correction d'erreur (qui peut être soit la barrette soit la CM).

Cordialement, janus57


vement l'autocorrection, cela indique quand même une défaillance matérielle imminente.


vi faut passer par le mode rescue d'abord pour tester la RAM.
Ils ne feront pas le changement sans ça.