Serveurs dédiés - Mce: [Hardware Error]: CPU 1
... / Mce: [Hardware Error]: CPU 1
BMPCreated with Sketch.BMPZIPCreated with Sketch.ZIPXLSCreated with Sketch.XLSTXTCreated with Sketch.TXTPPTCreated with Sketch.PPTPNGCreated with Sketch.PNGPDFCreated with Sketch.PDFJPGCreated with Sketch.JPGGIFCreated with Sketch.GIFDOCCreated with Sketch.DOC Error Created with Sketch.
Frage

Mce: [Hardware Error]: CPU 1

Von
TTY
Beitragender
Erstellungsdatum 2023-04-25 16:14:14 (edited on 2024-09-04 12:00:46) in Serveurs dédiés

Bonjour,

Un avis sur ces messages qui s'affichent dans la console SSH d'un serveur dédié ?
Ça ressemble à une erreur matériel, et ça m’inquiète un peu.

Message from syslogd@http6 at Apr 25 11:25:37 ...
kernel:[58117660.934597] mce: [Hardware Error]: CPU 1: Machine Check: 0 Bank 0: 9000004000010005

Message from syslogd@http6 at Apr 25 11:25:37 ...
kernel:[58117660.934641] mce: [Hardware Error]: TSC 2be045ab140effc

Message from syslogd@http6 at Apr 25 11:25:37 ...
kernel:[58117660.934680] mce: [Hardware Error]: PROCESSOR 0:306a9 TIME 1682414737 SOCKET 0 APIC 2 microcode 17

Merci.


5 Antworten ( Latest reply on 2024-11-18 11:12:36 Von
TTY
)


Un avis sur ces messages


Avec des bank= j'aurais bien dit un problème mémoire ; mais CPU 1 dit le contraire ; la lecture ne m'éclaire pas plus
https://bbs.archlinux.org/viewtopic.php?id=266210

Si c'est juste au reboot ça correspond à ce qu'ils disent dans ce post ??


https://bbs.archlinux.org/viewtopic.php?id=266210


Oui je suis aussi arrivé sur cette page. Et du coup j'ai eu un doute....
Si c'est un problème RAM ça pourra attendre ce week-end. Si c'est le processeur, je ne sais pas du tout.

Je continu les recherches.

Les message sont apparus pendant le fonctionnement (je reboot que lorsqu’il y a un changement de kernel).
Ceci-dit les services fonctionnent correctement.

alors j'ai des messages similaires sur mon pc (une station de travail HP d'occasion).
Et en fait ça tourne malgré tout depuis des mois...

Clairement une erreur hardware quelque part, ram ou cpu...

M'enfin la RAM est théoriquement ECC, donc le serveur sait gérer les erreurs...
Et le CPU si c'est de la gamme serveur idem, il sait gérer quelques erreurs...

ça peut être la RAM, car en fait c'est la RAM attachée à un CPU... D'où l'alerte CPU 1...
Vi sur du multi cpu chaque RAM est associée physiquement à un CPU donné.

A priori pas d'urgence, mais prévoir un reboot en mode rescue pour faire les tests hardware, à programmer.
Avec changement de hardware derrière si l'origine du problème peut être identifié via les tests...

Bonjour,

ou cela peut être le CPU qui est mal serré et tous les pins du socket ne touchent plus le CPU à cause de la dilatation thermique (déjà vécu - un coup de tournevis et c'était reparti).

Sur certains CPU intel (et les derniers AMD) c'est le ventirad qui sert à mettre la bonne pression au CPU sur le socket (il n'y a plus la cage avec le levier).

Cordialement, janus57

Merci à @tous.
Je vais migrer les sites sur une autre machine et lancer les tests hardware.

Antworten sind derzeit für diese Frage deaktiviert.