Problème avec Samsung SSD (990 PRO avec dissipateur thermique)

J’ai un serveur Windows (2022) avec deux Samsung 990 Pro SSD de 2 To. J’ai eu des problèmes étranges avec l’un d’eux qui disparaît de temps en temps. Ce qui se passe, c’est qu’environ tous les 2 mois, le disque en question n’existe plus : diskpart ou Get-PhysicalDisk (dans PS) ne listent tout simplement plus le disque. La seule chose à faire à ce moment-là est un arrêt complet et un redémarrage ; un simple redémarrage depuis l’OS n’est pas suffisant.

Au début, je pensais que c’était un problème avec la carte mère, alors j’ai contacté le fabricant et — surprise ! — ils m’ont dit de m’assurer que ce n’était pas un problème avec le disque. Après quelques échanges, j’ai décidé d’explorer un problème potentiel avec les disques, simplement pour éviter la galère de remplacer la carte mère et d’avoir toujours le problème.

Examiner la situation des disques n’a pas été si facile, car c’est une installation Server Core, donc pas d’interface graphique, mais j’ai pu faire quelques analyses, qui ont révélé une surprise : l’exécution de diskspd de MS a montré des performances complètement abyssales pour les deux disques. La lecture et l’écriture sont juste en dessous de 50 Mio/s, ce qui est bien en dessous des spécifications du 990 Pro.

J’ai donc maintenant plusieurs questions :

  • Les deux problèmes (disparition du disque de temps en temps) sont-ils liés ?

  • Le problème de vitesse pourrait-il être causé par la carte mère (c’est une ASRock X570S PG Riptide) ?

  • Se pourrait-il que les SSD soient contrefaits ? Et comment puis-je vérifier cela ?

  • Avez-vous des suggestions pour analyser cela plus en détail ?

Clarifications :

  • Journaux du serveur : rien n’apparaît dans l’observateur d’événements

  • Âge des disques : ils ont un an et n’ont pas été utilisés intensivement

  • Lectures SMART :
    Voici la sortie que j’ai obtenue de Samsung DC Toolkit :

Disk Number: 1:c | Model Name: Samsung SSD 990 PRO with Heatsink 2TB | Firmware Version: 0B2QJXG7

Bytes
Description
Value

0
Critical Warning
0x00

2:1
Composite Temperature
0x0142

3
Available Spare
0x64

4
Available Spare Threshold
0x0A

5
Percentage Used
0x02

47:32
Data Units Read
0x000000000000000000000000011BD521

63:48
Data Units Written
0x000000000000000000000000010D94FB

79:64
Host Read Commands
0x0000000000000000000000000DD8604F

95:80
Host Write Commands
0x0000000000000000000000001282EACA

111:96
Controller Busy Time
0x00000000000000000000000000009963

127:112
Power Cycle
0x00000000000000000000000000000020

143:128
Power On Hours
0x00000000000000000000000000001F93

159:144
Unsafe Shutdowns
0x00000000000000000000000000000014

175:160
Media and Data Integrity Errors
0x00000000000000000000000000000000

191:176
Number of Error Information Log Entries
0x00000000000000000000000000000000

195:192
Warning Composite Temperature Time
0x00040880

199:196
Critical Composite Temperature Time
0x00000000

201:200
Temperature Sensor 1
0x0142

203:202
Temperature Sensor 2
0x0149

205:204
Temperature Sensor 3
0x0000

207:206
Temperature Sensor 4
0x0000

209:208
Temperature Sensor 5
0x0000

211:210
Temperature Sensor 6
0x0000

213:212
Temperature Sensor 7
0x0000

215:214
Temperature Sensor 8
0x0000


Source : [Server Fault](Samsung 990 Pro SSDs Report Rapid Health Degradation | Tom's Hardware](Samsung 990 Pro SSDs Report Rapid Health Degradation | Tom's Hardware)

La version actuelle du firmware pour la série Samsung SSD 990 PRO semble être 4B2QJXD7. Et apparemment, les versions de firmware antérieures à 1B2QJXD7 avaient un bug assez grave qui nuit sérieusement à la durée de vie du SSD :

https://www.tomshardware.com/news/samsung-990-pro-health-dropping-fast

https://www.tomshardware.com/news/samsung-990-pro-firmware-update-released-ssd-health

https://www.youtube.com/shorts/D7XgEfxPGuo

https://www.reddit.com/r/hardware/comments/10jkwwh/samsung_990_pro_ssd_with_rapid_health_drops/

Au moins lorsque le correctif initial a été fourni dans la version 1B2QJXD7, il a empêché le disque de se dégrader davantage mais n’a pas réparé la dégradation qui s’était déjà produite avant la mise à jour. Les versions de firmware plus récentes ont peut-être fourni des correctifs plus affinés, mais malheureusement Samsung n’a apparemment pas publié beaucoup de détails.

D’après ce que je comprends, votre version de firmware 0B2QJXG7 serait celle affectée par ce bug, et il semble que vos SSD soient effectivement gravement dégradés. Vous devriez probablement mettre à jour le firmware dès que possible, et peut-être essayer de contacter le support Samsung pour un éventuel retour sous garantie, car il semble que ce soit un problème connu.