Serveurs dédiés - NVMe LENT après remplacement d'un disque
... / NVMe LENT après remplacem...
BMPCreated with Sketch.BMPZIPCreated with Sketch.ZIPXLSCreated with Sketch.XLSTXTCreated with Sketch.TXTPPTCreated with Sketch.PPTPNGCreated with Sketch.PNGPDFCreated with Sketch.PDFJPGCreated with Sketch.JPGGIFCreated with Sketch.GIFDOCCreated with Sketch.DOC Error Created with Sketch.
Frage

NVMe LENT après remplacement d'un disque

Von
Didier MISSON
Erstellungsdatum 2025-05-16 11:33:07 (edited on 2025-05-19 15:12:51) in Serveurs dédiés

Bonjour. J'ai un dédié RISE 1-2.

Intel Xeon-E 2136 - 6c/12t - 3.3 GHz/4.5 GHz

64 Go ECC 2666 MHz

2×500 Go SSD NVMe

 

J'en étais très content. Rapide, etc.

Proxmox tournait super bien.

 

Ensuite, problème RAID

NVMe 0 : WDC : mort (même plus visible)

NVMe 1 : WDC : ok

 

Le serveur tourne, après redémarrage des conteneurs.

J'ouvre un incident OVH. Lundi soir OVH remplace le NVMe par un nouveau Samsung, + màj BIOS MB Asus

 

Plutôt que de reconstruire le RAID, je réinstall Proxmox 8

 

J'ai tous les backups fait juste 2h avant l'intervention.

Je restore les backups : ok

 

2 ou 3 H après, j'ai un Load cpu à 80.

Plein d' IO Wait.

 

Je trouve le conteneur responsable (mails, Clamd). Je n'avais jamais eu ce problème.

Je fais un stop / start du conteneur, et ça s'arrange.

 

Mais, globalement, le serveur est LENT.

Les sites web répondent moins vite.

 

J'avais commencé à passer d' Apache vers Nginx, configuré en HTTP/3.

Le site en H3 était vraiment rapide !

 

Depuis le remplacement du NVMe, ce n'est plus le cas.

Les sites fonctionnent, mais on sent une différence.

 

Le RAID est ok.

Pas vu d'erreurs avec smartctl -a

 

Vous avez déjà eu ça ?

 

Comment je peux mieux tester les SSD NVMe ? ... sans devoir mettre mon serveur down ?

 

OVH peut-il aider sur ce problème ?

La différence de perf disque est sensible depuis le remplacement du NVMe en panne.

 

Le serveur tourne maintenant en RAID soft avec

 

  • nvme0n1 : WDC CL SN720 SDAQNTW-512G-2000  (ancien disque)
  • nvme1n1 : SAMSUNG MZVL2512HCJQ-00B07

==========================================================================

# smartctl -a /dev/nvme0n1
smartctl 7.3 2022-02-28 r5338 [x86_64-linux-6.8.12-10-pve] (local build)
Copyright (C) 2002-22, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Number:                       WDC CL SN720 SDAQNTW-512G-2000
Serial Number:                      205156802612
Firmware Version:                   10109122
PCI Vendor/Subsystem ID:            0x15b7
IEEE OUI Identifier:                0x001b44
Total NVM Capacity:                 512,110,190,592 [512 GB]
Unallocated NVM Capacity:           0
Controller ID:                      8215
NVMe Version:                       1.3
Number of Namespaces:               1
Namespace 1 Size/Capacity:          512,110,190,592 [512 GB]
Namespace 1 Formatted LBA Size:     512
Namespace 1 IEEE EUI-64:            001b44 8b484336fb
Local Time is:                      Fri May 16 13:28:48 2025 CEST
Firmware Updates (0x14):            2 Slots, no Reset required
Optional Admin Commands (0x0017):   Security Format Frmw_DL Self_Test
Optional NVM Commands (0x001f):     Comp Wr_Unc DS_Mngmt Wr_Zero Sav/Sel_Feat
Log Page Attributes (0x02):         Cmd_Eff_Lg
Maximum Data Transfer Size:         128 Pages
Warning  Comp. Temp. Threshold:     80 Celsius
Critical Comp. Temp. Threshold:     85 Celsius
Namespace 1 Features (0x02):        NA_Fields

Supported Power States
St Op     Max   Active     Idle   RL RT WL WT  Ent_Lat  Ex_Lat
 0 +     5.50W       -        -    0  0  0  0        0       0
 1 +     3.50W       -        -    1  1  1  1        0       0
 2 +     3.00W       -        -    2  2  2  2        0       0
 3 -   0.0700W       -        -    3  3  3  3     4000   10000
 4 -   0.0025W       -        -    4  4  4  4     4000   45000

Supported LBA Sizes (NSID 0x1)
Id Fmt  Data  Metadt  Rel_Perf
 0 +     512       0         2
 1 -    4096       0         1

=== START OF SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

SMART/Health Information (NVMe Log 0x02)
Critical Warning:                   0x00
Temperature:                        37 Celsius
Available Spare:                    100%
Available Spare Threshold:          10%
Percentage Used:                    26%
Data Units Read:                    380,355,746 [194 TB]
Data Units Written:                 186,292,308 [95.3 TB]
Host Read Commands:                 7,409,430,588
Host Write Commands:                6,827,945,587
Controller Busy Time:               16,441
Power Cycles:                       55
Power On Hours:                     36,050
Unsafe Shutdowns:                   45
Media and Data Integrity Errors:    0
Error Information Log Entries:      0
Warning  Comp. Temperature Time:    0
Critical Comp. Temperature Time:    0

Error Information (NVMe Log 0x01, 16 of 256 entries)
No Errors Logged

======================================================

# smartctl -a /dev/nvme1n1
smartctl 7.3 2022-02-28 r5338 [x86_64-linux-6.8.12-10-pve] (local build)
Copyright (C) 2002-22, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Number:                       SAMSUNG MZVL2512HCJQ-00B07
Serial Number:                      S63CNX0Y413813
Firmware Version:                   GXA7802Q
PCI Vendor/Subsystem ID:            0x144d
IEEE OUI Identifier:                0x002538
Total NVM Capacity:                 512,110,190,592 [512 GB]
Unallocated NVM Capacity:           0
Controller ID:                      6
NVMe Version:                       1.3
Number of Namespaces:               1
Namespace 1 Size/Capacity:          512,110,190,592 [512 GB]
Namespace 1 Utilization:            331,908,407,296 [331 GB]
Namespace 1 Formatted LBA Size:     512
Namespace 1 IEEE EUI-64:            002538 b451b43ba0
Local Time is:                      Fri May 16 13:29:22 2025 CEST
Firmware Updates (0x16):            3 Slots, no Reset required
Optional Admin Commands (0x0017):   Security Format Frmw_DL Self_Test
Optional NVM Commands (0x0057):     Comp Wr_Unc DS_Mngmt Sav/Sel_Feat Timestmp
Log Page Attributes (0x0e):         Cmd_Eff_Lg Ext_Get_Lg Telmtry_Lg
Maximum Data Transfer Size:         128 Pages
Warning  Comp. Temp. Threshold:     81 Celsius
Critical Comp. Temp. Threshold:     85 Celsius

Supported Power States
St Op     Max   Active     Idle   RL RT WL WT  Ent_Lat  Ex_Lat
 0 +     8.37W       -        -    0  0  0  0        0       0
 1 +     8.37W       -        -    1  1  1  1        0     200
 2 +     8.37W       -        -    2  2  2  2        0     200
 3 -   0.0500W       -        -    3  3  3  3     2000    1200
 4 -   0.0050W       -        -    4  4  4  4      500    9500

Supported LBA Sizes (NSID 0x1)
Id Fmt  Data  Metadt  Rel_Perf
 0 +     512       0         0

=== START OF SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

SMART/Health Information (NVMe Log 0x02)
Critical Warning:                   0x00
Temperature:                        33 Celsius
Available Spare:                    100%
Available Spare Threshold:          10%
Percentage Used:                    0%
Data Units Read:                    13,224,313 [6.77 TB]
Data Units Written:                 1,615,881 [827 GB]
Host Read Commands:                 212,653,266
Host Write Commands:                55,212,716
Controller Busy Time:               714
Power Cycles:                       13
Power On Hours:                     53
Unsafe Shutdowns:                   10
Media and Data Integrity Errors:    0
Error Information Log Entries:      0
Warning  Comp. Temperature Time:    0
Critical Comp. Temperature Time:    0
Temperature Sensor 1:               33 Celsius
Temperature Sensor 2:               37 Celsius

Error Information (NVMe Log 0x01, 16 of 64 entries)
No Errors Logged

 

 

Merci

Bon après-midi. Didier


7 Antworten ( Latest reply on 2025-05-20 12:13:16 Von
TTY
)

Salut,

Triste histoire et question intéressante.
De ce que j'en sais tu ne pourras pas faire de test (avec FIO par ex) sur un disque physique au risque d'avoir une belle corruption du RAID.
Peut être en faisant uniquement un test en lecture sur le NVME Samsung ? Mais là encore je serai ultra prudent...
A ta place je migre sur un nouveau serveur complet en avertissant OVH du problème rencontré sur la machine actuelle :(

J'avais lu un peu vite...

Je ne peux pas faire de test du disque Samsung pour ne pas détruire le RAID soft ?
Même en LECTURE uniquement ?

Sinon, oui, je peux faire un test sur md3 ou md5

mais le serveur tourne. Je veux dire, il tourne sans plantage.

S'il y avait vraiment un problème de lecture, tôt ou tard j'aurais un plantage Proxmox ou un des conteneurs ?...

Merci

Nouveau serveur ?

Je suis tout à fait pour, mais ce dédié est payé jusque février 2026...
Si OVH transfert les mois restants vers un nouveau dédié, j'accepte sans problème (même si je perds 1 mois de chevauchement).

 

J'ai complètement abandonné les engagements sur mes bares metal en grande parti à cause de ça.

Cela me permet aussi de remplacer régulièrement les machines au fur et à mesure des rapports perf/prix (qui peuvent être énorme est très peux de temps... Regarde aujourd'hui les perf d'un un RISE-S-1 pour même pas 60€ ).
Avant je faisait mon renouvellement massivement pendant les promos mai aujourd'hui elles ne sont plus vraiment interressante je trouve... Bref.

Il est tout à fait possible que le service commercial fasse un geste si tu reprend un engagement sur un serveur de la gamme supérieur. On le lit de temps en temps sur les ML.

 

ancien NVMe 0 : WDC : latence moyenne ~290 µsec
nouveau NVMe 1 : Samsung : latence moyenne ~900 µsec ...

On pale de quoi exactement ? IO time, wait, read, write ? 

J'ai mal de disque qui dans le même ordre de moyenne en IO time avec des load average autours de 0.4
Tu es bien sur et certain que la reconstruction du RAID est terminée hein ?

 

Je ne peux pas faire de test du disque Samsung pour ne pas détruire le RAID soft ?
Même en LECTURE uniquement ?

Je ne sais pas.  Il serait logique que ça se passe bien mais je n'ai pas ce genre d'expérience.

S'il y avait vraiment un problème de lecture, tôt ou tard j'aurais un plantage Proxmox ou un des conteneurs ?...

ça n'a pas l'air si dramatique que ça. Par ex sur un RISE 1 j'ai :

 

Mais au final... Tout te parait super lent sur cette machine ou ce sont les graphes Munin qui t'inquiète ?
Tu monitors les temps de réponses globaux des pages d'accueil des sites par ex ?