Bonjour
J'ai un RAID soft avec 2 NVME
2x SSD NVMe 500GB Enterprise Class Soft RAID
Un des NVMe s'est planté, disparu !
Dec 1 14:19:00 rbx05 systemd[1]: Starting Proxmox VE replication runner…
Dec 1 14:19:00 rbx05 systemd[1]: pvesr.service: Succeeded.
Dec 1 14:19:00 rbx05 systemd[1]: Started Proxmox VE replication runner.
Dec 1 14:19:32 rbx05 kernel: [235736.257445] nvme nvme0: Abort status: 0x0
Dec 1 14:19:34 rbx05 kernel: [235738.849435] nvme nvme0: Abort status: 0x0
Dec 1 14:20:00 rbx05 systemd[1]: Starting Proxmox VE replication runner…
Dec 1 14:20:03 rbx05 kernel: [235767.229822] nvme nvme0: I/O 46 QID 5 timeout, reset controller
Dec 1 14:21:03 rbx05 kernel: [235827.388801] nvme nvme0: I/O 4 QID 0 timeout, reset controller
Dec 1 14:21:14 rbx05 kernel: [235839.180598] nvme nvme0: Device not ready; aborting reset
Dec 1 14:21:15 rbx05 smartd[728]: Device: /dev/nvme0, failed to read NVMe SMART/Health Information
Dec 1 14:21:15 rbx05 smartd[728]: Sending warning via /usr/share/smartmontools/smartd-runner to root …
Dec 1 14:21:24 rbx05 named[876]: client @0x7f5c9c1ae990 5.180.220.83#53254 (store.catfooddepot.com): query (cache) 'store.catfooddepot.com/A/IN' denied
Dec 1 14:21:25 rbx05 kernel: [235849.863559] nvme nvme0: Removing after probe failure status: -19
Dec 1 14:21:36 rbx05 kernel: [235860.416247] nvme nvme0: Device not ready; aborting reset
Dec 1 14:21:36 rbx05 kernel: [235860.419599] md/raid1:md2: nvme0n1p2: rescheduling sector 20974512
Dec 1 14:21:36 rbx05 kernel: [235860.419602] Read-error on swap-device (259:1:42594688)
Dec 1 14:21:36 rbx05 kernel: [235860.419605] blk_update_request: I/O error, dev nvme0n1, sector 159822128 op 0x0:(READ) flags 0x0 phys_seg 1 prio class 0
Dec 1 14:21:36 rbx05 kernel: [235860.419608] blk_update_request: I/O error, dev nvme0n1, sector 1000200072 op 0x1:(WRITE) flags 0x20800 phys_seg 1 prio class 0
Dec 1 14:21:36 rbx05 kernel: [235860.419610] blk_update_request: I/O error, dev nvme0n1, sector 42006400 op 0x1:(WRITE) flags 0x20800 phys_seg 1 prio class 0
Dec 1 14:21:36 rbx05 kernel: [235860.419611] md/raid1:md4: nvme0n1p4: rescheduling sector 115720496
Dec 1 14:21:36 rbx05 kernel: [235860.419612] md: super_written gets error=10
Dec 1 14:21:36 rbx05 kernel: [235860.419612] md: super_written gets error=10
Dec 1 14:21:36 rbx05 kernel: [235860.419627] md/raid1:md4: Disk failure on nvme0n1p4, disabling device.
Dec 1 14:21:36 rbx05 kernel: [235860.419627] md/raid1:md4: Operation continuing on 1 devices.
Dec 1 14:21:36 rbx05 kernel: [235860.419643] md/raid1:md2: Disk failure on nvme0n1p2, disabling device.
Dec 1 14:21:36 rbx05 kernel: [235860.419643] md/raid1:md2: Operation continuing on 1 devices.
Dec 1 14:21:36 rbx05 kernel: [235860.419667] blk_update_request: I/O error, dev nvme0n1, sector 514316680 op 0x1:(WRITE) flags 0x20800 phys_seg 1 prio class 0
Dec 1 14:21:36 rbx05 kernel: [235860.450633] Read-error on swap-device (259:1:42594696)
Dec 1 14:21:36 rbx05 CRON[23777]: (root) CMD (if [ -x /etc/munin/plugins/apt_all ]; then /etc/munin/plugins/apt_all update 7200 12 >/dev/null; elif [ -x /etc/munin/plugins/apt ]; then /etc/munin/plugins/apt update 7200 12 >/dev/null; fi)
Dec 1 14:21:36 rbx05 kernel: [235860.479416] md/raid1:md4: redirecting sector 115720496 to other mirror: nvme1n1p4
Dec 1 14:21:36 rbx05 kernel: [235860.489806] Read-error on swap-device (259:1:155968)
Dec 1 14:21:36 rbx05 systemd[1]: Stopped target Local File Systems.
Dec 1 14:21:36 rbx05 systemd[1]: Unmounting /boot/efi…
Dec 1 14:21:36 rbx05 systemd[1]: boot-efi.mount: Succeeded.
Dec 1 14:21:36 rbx05 systemd[1]: Unmounted /boot/efi.
Dec 1 14:21:36 rbx05 kernel: [235860.514079] Read-error on swap-device (259:1:155976)
Dec 1 14:21:36 rbx05 kernel: [235860.524036] Read-error on swap-device (259:1:1985488)
Dec 1 14:21:36 rbx05 kernel: [235860.526387] Read-error on swap-device (259:1:2086144)
Dec 1 14:21:36 rbx05 kernel: [235860.531513] Read-error on swap-device (259:1:1990432)
Dec 1 14:21:36 rbx05 systemd[1]: Stopped target Swap.
Ensuite, le fdisk ne voit qu'un seul disque NVMe !
Le serveur tourne, même si le crash NMVe a posé problème sur le SWAP qui lui n'est pas en RAID et est sur les 2 disques.
Ok, je me prépare à ouvrir un incident OVH.
Mais le serveur se bloque car bcp trop de messages "swap error".
Je reboot depuis le manager.
Le serveur revient.
Le NVMe fautif est de nouveau visible !
Évidemment il n'est plus dans le RAID car désynchronisé.
mais…
ce NVMe est revenu …
Je lui fais encore confiance ? C'est juste une fois…
ou il est à risque et il faut le changer ?
Dans ce cas, comment je demande un changement de NVMe à OVH, alors qu'il est revenu UP ?
Comment je peux tester ce NMVe ?
smartctl ne donne pas grand chose sur un NMVe.
et je ne connais pas trop la commande "nvme" …
bon, j'ai essayé un
nvme device-self-test /dev/nvme0 -n 1 -s 1
mais après, je fais quoi ?
Merci. Bonne journée
J'ai eu exactement le même problème récemment !
J'ai migré tous mes sites en prod sur un autre serveur pour pouvoir bosser peinard, puis reboot et là oh, le disque est de retour… Je check pas d'erreurs visibles…
Je remonte le raid, resynchro, tout est ok…
Je passe en rescue histoire de faire des tests complémentaires qui sont ok également… Je demande validation au support, qui me donne une série de commandes à faire et à leur donner les résultats… Tout est ok…
Là le serveur tourne normalement…
Bon j'en ai profité pour le formater et repartir clean sur une deb10, il va bientôt accueillir à nouveau des sites…
Pour le moment le serveur tourne depuis 2 semaines sans la moindre alerte…
Hello,
Tu peux faire cette commande pour avoir les infos équivalentes à smartctl :
nvme smart-log /dev/nvme0
bonjour Sich
oui, mais pas de bol. J'ai réduit mon nombre de serveurs car moins de sites… et j'ai arrêté mon 2ème serveur le 27/11.
Je ne peux donc pas basculer ces conteneurs Proxmox sur l'autre serveur…
Oui, au pire, je pourrais passer une nuit sur ça pour réinstall…
J'ai le backup des conteneurs sur le FTP OVH (et chez moi sur mon NAS).
On va voir…
Je vais poser la question à OVH, et probablement resynchroniser le RAID.
Merci. Bonne journée
Bonjour Etienne
# nvme smart-log /dev/nvme0
Smart Log for NVME device:nvme0 namespace-id:ffffffff
critical_warning : 0
temperature : 39 C
available_spare : 100%
available_spare_threshold : 10%
percentage_used : 0%
data_units_read : 139,821,808
data_units_written : 424,781,607
host_read_commands : 2,153,310,402
host_write_commands : 6,840,569,972
controller_busy_time : 15,915
power_cycles : 12
power_on_hours : 14,707
unsafe_shutdowns : 9
media_errors : 0
num_err_log_entries : 0
Warning Temperature Time : 0
Critical Composite Temperature Time : 0
Thermal Management T1 Trans Count : 0
Thermal Management T2 Trans Count : 0
Thermal Management T1 Total Time : 0
Thermal Management T2 Total Time : 0
Tout semble ok…
Merci
Étant donné que c'est du RAID je te conseille de le garder, mais s'il disparait à nouveau, demande à le remplacer.
j'ai demandé au support : "Vous conseillez quoi ?"
Ils m'ont remplacé le NVMe0 !
Ok, le serveur est en Rescue, mais je pense que je peux le rebooter (il a booté) hier sur un disque ?
et reconstruire le RAID ensuite ?
Bonjour,
Le problème pourrait-il provenir du contrôleur de la CM ? (qui aléatoirement perd le disque)
aucune idée …
réinstall Proxmox 6 avec Debian 10 : ok
accès ok
FTP des conteneurs –> /var/lib/vz/dump en cours
je dois parfois relancer les copy. Parfois ça foire, mais ça passe au 2ème essais…
J'ai déjà qques conteneurs UP![]()
ça va aller !