J’ai un serveur Windows (2022) avec deux Samsung 990 Pro SSD de 2 To. J’ai eu des problèmes étranges avec l’un d’eux qui disparaît de temps en temps. Ce qui se passe, c’est qu’environ tous les 2 mois, le disque en question n’existe plus : diskpart ou Get-PhysicalDisk (dans PS) ne listent tout simplement plus le disque. La seule chose à faire à ce moment-là est un arrêt complet et un redémarrage ; un simple redémarrage depuis l’OS n’est pas suffisant.
Au début, je pensais que c’était un problème avec la carte mère, alors j’ai contacté le fabricant et — surprise ! — ils m’ont dit de m’assurer que ce n’était pas un problème avec le disque. Après quelques échanges, j’ai décidé d’explorer un problème potentiel avec les disques, simplement pour éviter la galère de remplacer la carte mère et d’avoir toujours le problème.
Examiner la situation des disques n’a pas été si facile, car c’est une installation Server Core, donc pas d’interface graphique, mais j’ai pu faire quelques analyses, qui ont révélé une surprise : l’exécution de diskspd de MS a montré des performances complètement abyssales pour les deux disques. La lecture et l’écriture sont juste en dessous de 50 Mio/s, ce qui est bien en dessous des spécifications du 990 Pro.
J’ai donc maintenant plusieurs questions :
-
Les deux problèmes (disparition du disque de temps en temps) sont-ils liés ?
-
Le problème de vitesse pourrait-il être causé par la carte mère (c’est une ASRock X570S PG Riptide) ?
-
Se pourrait-il que les SSD soient contrefaits ? Et comment puis-je vérifier cela ?
-
Avez-vous des suggestions pour analyser cela plus en détail ?
Clarifications :
-
Journaux du serveur : rien n’apparaît dans l’observateur d’événements
-
Âge des disques : ils ont un an et n’ont pas été utilisés intensivement
-
Lectures SMART :
Voici la sortie que j’ai obtenue de Samsung DC Toolkit :
Disk Number: 1:c | Model Name: Samsung SSD 990 PRO with Heatsink 2TB | Firmware Version: 0B2QJXG7
Bytes
Description
Value
0
Critical Warning
0x00
2:1
Composite Temperature
0x0142
3
Available Spare
0x64
4
Available Spare Threshold
0x0A
5
Percentage Used
0x02
47:32
Data Units Read
0x000000000000000000000000011BD521
63:48
Data Units Written
0x000000000000000000000000010D94FB
79:64
Host Read Commands
0x0000000000000000000000000DD8604F
95:80
Host Write Commands
0x0000000000000000000000001282EACA
111:96
Controller Busy Time
0x00000000000000000000000000009963
127:112
Power Cycle
0x00000000000000000000000000000020
143:128
Power On Hours
0x00000000000000000000000000001F93
159:144
Unsafe Shutdowns
0x00000000000000000000000000000014
175:160
Media and Data Integrity Errors
0x00000000000000000000000000000000
191:176
Number of Error Information Log Entries
0x00000000000000000000000000000000
195:192
Warning Composite Temperature Time
0x00040880
199:196
Critical Composite Temperature Time
0x00000000
201:200
Temperature Sensor 1
0x0142
203:202
Temperature Sensor 2
0x0149
205:204
Temperature Sensor 3
0x0000
207:206
Temperature Sensor 4
0x0000
209:208
Temperature Sensor 5
0x0000
211:210
Temperature Sensor 6
0x0000
213:212
Temperature Sensor 7
0x0000
215:214
Temperature Sensor 8
0x0000
Source : [Server Fault](Samsung 990 Pro SSDs Report Rapid Health Degradation | Tom's Hardware](Samsung 990 Pro SSDs Report Rapid Health Degradation | Tom's Hardware)