Swisslinux.org

− Le carrefour GNU/Linux en Suisse −

 

Langue

 

Le Forum

Vous n'êtes pas identifié.

#1 28 Jan 2022 11:29:48

François Marthaler
Modérateur
Lieu: Prilly
Date d'inscription: 07 Sep 2013
Messages: 2978
Site web

Erreurs trop nombreuses sur SSD Samsung 970 EVO Plus

Bonjour,

Un client en Suisse alémanique dit avoir des messages disant qu'il a trop d'erreurs sur le SSD Samsung 970 EVO Plus.

Je lui ai conseillé de démarrer sur une live-USB et de lancer un auto-test (données SMART) dans Utilitaire de disque (impossible si le disque système est monté).

Il a finalement découvert qu'il était possible de lancer test SMART avec la commande suivante dans un terminal ([Ctrl]+[Alt]+[T]):

Code:

rancois@francois-N240JU:~$ sudo smartctl -a /dev/nvme0
[sudo] Mot de passe de francois : 
smartctl 7.1 2019-12-30 r5022 [x86_64-linux-5.13.0-27-generic] (local build)
Copyright (C) 2002-19, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Number:                       Samsung SSD 970 EVO Plus 500GB
Serial Number:                      S4EVNX0R432632D
Firmware Version:                   2B2QEXM7
PCI Vendor/Subsystem ID:            0x144d
IEEE OUI Identifier:                0x002538
Total NVM Capacity:                 500’107’862’016 [500 GB]
Unallocated NVM Capacity:           0
Controller ID:                      4
Number of Namespaces:               1
Namespace 1 Size/Capacity:          500’107’862’016 [500 GB]
Namespace 1 Utilization:            448’555’786’240 [448 GB]
Namespace 1 Formatted LBA Size:     512
Namespace 1 IEEE EUI-64:            002538 5411b16788
Local Time is:                      Fri Jan 28 11:22:49 2022 CET
Firmware Updates (0x16):            3 Slots, no Reset required
Optional Admin Commands (0x0017):   Security Format Frmw_DL Self_Test
Optional NVM Commands (0x005f):     Comp Wr_Unc DS_Mngmt Wr_Zero Sav/Sel_Feat Timestmp
Maximum Data Transfer Size:         512 Pages
Warning  Comp. Temp. Threshold:     85 Celsius
Critical Comp. Temp. Threshold:     85 Celsius

Supported Power States
St Op     Max   Active     Idle   RL RT WL WT  Ent_Lat  Ex_Lat
 0 +     7.80W       -        -    0  0  0  0        0       0
 1 +     6.00W       -        -    1  1  1  1        0       0
 2 +     3.40W       -        -    2  2  2  2        0       0
 3 -   0.0700W       -        -    3  3  3  3      210    1200
 4 -   0.0100W       -        -    4  4  4  4     2000    8000

Supported LBA Sizes (NSID 0x1)
Id Fmt  Data  Metadt  Rel_Perf
 0 +     512       0         0

=== START OF SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

SMART/Health Information (NVMe Log 0x02)
Critical Warning:                   0x00
Temperature:                        43 Celsius
Available Spare:                    100%
Available Spare Threshold:          10%
Percentage Used:                    0%
Data Units Read:                    20’746’830 [10.6 TB]
Data Units Written:                 8’119’347 [4.15 TB]
Host Read Commands:                 132’176’927
Host Write Commands:                67’969’329
Controller Busy Time:               703
Power Cycles:                       412
Power On Hours:                     640
Unsafe Shutdowns:                   28
Media and Data Integrity Errors:    0
Error Information Log Entries:      26
Warning  Comp. Temperature Time:    0
Critical Comp. Temperature Time:    0
Temperature Sensor 1:               43 Celsius
Temperature Sensor 2:               47 Celsius

Error Information (NVMe Log 0x01, max 64 entries)
Num   ErrCount  SQId   CmdId  Status  PELoc          LBA  NSID    VS
  0         26     0  0x1009  0x4004      -            0     0     -

Sauf que, dans son cas, ErrCount annonce 95, soit >max. 64 entries. J'imagine que c'est ça qui provoque des messages d'erreur et que le SSD est bien défectueux. A moins qu'il suffise de le reformater...


laptop why! NV41MZ, Intel Core i7-1165G7, RAM 16 Gb, Ubuntu 22.04 LTS

Hors ligne

 

#2 01 Feb 2022 22:43:24

François Marthaler
Modérateur
Lieu: Prilly
Date d'inscription: 07 Sep 2013
Messages: 2978
Site web

Re: Erreurs trop nombreuses sur SSD Samsung 970 EVO Plus

Le client vient de nous écrire ceci (en allemand; traduction DeepL):

En poursuivant mes recherches, je suis tombé sur [1] et [2]. [1] fait référence à un bug qui pourrait s'appliquer et [2] qualifie le support nvme de smartctl comme expérimental.
J'en déduis que le problème que j'ai décrit n'est peut-être pas un vrai problème du SSD, ce qui me rassure pour le moment.
Néanmoins, dans les prochains jours, je vais probablement suivre votre suggestion d'une nouvelle installation.


Merci à lui!


laptop why! NV41MZ, Intel Core i7-1165G7, RAM 16 Gb, Ubuntu 22.04 LTS

Hors ligne

 

#3 23 Feb 2022 11:16:18

François Marthaler
Modérateur
Lieu: Prilly
Date d'inscription: 07 Sep 2013
Messages: 2978
Site web

Re: Erreurs trop nombreuses sur SSD Samsung 970 EVO Plus

Le client nous écrit ce qui suit (en allemand; traduction DeepL):

J'ai maintenant effectué la nouvelle installation avec la nouvelle table de partition. Malheureusement, je vois toujours les mêmes erreurs sur cet ordinateur. Comme vous l'avez fait remarquer, des erreurs s'affichent.

Code:

:~# smartctl /dev/nvme0n1 -a
smartctl 7.1 2019-12-30 r5022 [x86_64-linux-5.13.0-30-generic] (local build)
Copyright (C) 2002-19, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Number:                       Samsung SSD 970 EVO Plus 250GB
Serial Number:                      S4EUNZFN562202M
Firmware Version:                   2B2QEXM7
PCI Vendor/Subsystem ID:            0x144d
IEEE OUI Identifier:                0x002538
Total NVM Capacity:                 250’059’350’016 [250 GB]
Unallocated NVM Capacity:           0
Controller ID:                      4
Number of Namespaces:               1
Namespace 1 Size/Capacity:          250’059’350’016 [250 GB]
Namespace 1 Utilization:            60’788’383’744 [60.7 GB]
Namespace 1 Formatted LBA Size:     512
Namespace 1 IEEE EUI-64:            002538 55019ed63d
Local Time is:                      Tue Feb 22 00:20:30 2022 CET
Firmware Updates (0x16):            3 Slots, no Reset required
Optional Admin Commands (0x0017):   Security Format Frmw_DL Self_Test
Optional NVM Commands (0x005f):     Comp Wr_Unc DS_Mngmt Wr_Zero Sav/Sel_Feat 
Timestmp
Maximum Data Transfer Size:         512 Pages
Warning  Comp. Temp. Threshold:     85 Celsius
Critical Comp. Temp. Threshold:     85 Celsius

Supported Power States
St Op     Max   Active     Idle   RL RT WL WT  Ent_Lat  Ex_Lat
 0 +     7.80W       -        -    0  0  0  0        0       0
 1 +     6.00W       -        -    1  1  1  1        0       0
 2 +     3.40W       -        -    2  2  2  2        0       0
 3 -   0.0700W       -        -    3  3  3  3      210    1200
 4 -   0.0100W       -        -    4  4  4  4     2000    8000

Supported LBA Sizes (NSID 0x1)
Id Fmt  Data  Metadt  Rel_Perf
 0 +     512       0         0

=== START OF SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

SMART/Health Information (NVMe Log 0x02)
Critical Warning:                   0x00
Temperature:                        32 Celsius
Available Spare:                    100%
Available Spare Threshold:          10%
Percentage Used:                    0%
Data Units Read:                    934’526 [478 GB]
Data Units Written:                 4’301’582 [2.20 TB]
Host Read Commands:                 10’578’547
Host Write Commands:                77’269’994
Controller Busy Time:               166
Power Cycles:                       878
Power On Hours:                     451
Unsafe Shutdowns:                   26
Media and Data Integrity Errors:    0
Error Information Log Entries:      155
Warning  Comp. Temperature Time:    0
Critical Comp. Temperature Time:    0
Temperature Sensor 1:               32 Celsius
Temperature Sensor 2:               30 Celsius

Error Information (NVMe Log 0x01, max 64 entries)
Num   ErrCount  SQId   CmdId  Status  PELoc          LBA  NSID    VS
  0        155     0  0x3007  0x4004      -            0     0     -

La même commande passée sur une autre machine avec le même SSD Samsung 970 EVO Plus 250GB donne ce résultat:

Code:

:~# smartctl -a /dev/nvme0
smartctl 6.6 2016-05-31 r4324 [x86_64-linux-5.4.0-99-generic] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Number:                       Samsung SSD 970 EVO Plus 250GB
Serial Number:                      S4EUNJ0N411569B
Firmware Version:                   2B2QEXM7
PCI Vendor/Subsystem ID:            0x144d
IEEE OUI Identifier:                0x002538
Total NVM Capacity:                 250'059'350'016 [250 GB]
Unallocated NVM Capacity:           0
Controller ID:                      4
Number of Namespaces:               1
Namespace 1 Size/Capacity:          250'059'350'016 [250 GB]
Namespace 1 Utilization:            43'887'026'176 [43.8 GB]
Namespace 1 Formatted LBA Size:     512
Local Time is:                      Mon Feb 21 12:33:02 2022 CET
Firmware Updates (0x16):            3 Slots, no Reset required
Optional Admin Commands (0x0017):   Security Format Frmw_DL *Other*
Optional NVM Commands (0x005f):     Comp Wr_Unc DS_Mngmt Wr_Zero Sav/Sel_Feat 
*Other*
Maximum Data Transfer Size:         512 Pages
Warning  Comp. Temp. Threshold:     85 Celsius
Critical Comp. Temp. Threshold:     85 Celsius

Supported Power States
St Op     Max   Active     Idle   RL RT WL WT  Ent_Lat  Ex_Lat
 0 +     7.80W       -        -    0  0  0  0        0       0
 1 +     6.00W       -        -    1  1  1  1        0       0
 2 +     3.40W       -        -    2  2  2  2        0       0
 3 -   0.0700W       -        -    3  3  3  3      210    1200
 4 -   0.0100W       -        -    4  4  4  4     2000    8000

Supported LBA Sizes (NSID 0x1)
Id Fmt  Data  Metadt  Rel_Perf
 0 +     512       0         0

=== START OF SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

SMART/Health Information (NVMe Log 0x02, NSID 0xffffffff)
Critical Warning:                   0x00
Temperature:                        42 Celsius
Available Spare:                    100%
Available Spare Threshold:          10%
Percentage Used:                    0%
Data Units Read:                    51'385'705 [26.3 TB]
Data Units Written:                 2'853'752 [1.46 TB]
Host Read Commands:                 224'943'180
Host Write Commands:                91'506'388
Controller Busy Time:               433
Power Cycles:                       834
Power On Hours:                     586
Unsafe Shutdowns:                   2
Media and Data Integrity Errors:    0
Error Information Log Entries:      0
Warning  Comp. Temperature Time:    0
Critical Comp. Temperature Time:    0
Temperature Sensor 1:               42 Celsius
Temperature Sensor 2:               40 Celsius

Error Information (NVMe Log 0x01, max 64 entries)
No Errors Logged

Il semble bien que ce SSD soit défectueux. Reste à savoir chez qui et quand il a été commandé, car ces SSD sont garantis 60 mois...

Cordialement.


laptop why! NV41MZ, Intel Core i7-1165G7, RAM 16 Gb, Ubuntu 22.04 LTS

Hors ligne

 

Pied de page des forums

Powered by FluxBB