Les SSD et les données SMART

SMART est l’acronyme de Self-Monitoring, Analysis and Reporting Technology (Technologie d'auto-surveillance, d'analyse et de rapport). Comme ce nom l’indique, il s’agit d’un outil qui enregistre les données relatives à la santé d’un disque dur ou d’un SSD. Les données SMART peuvent s’avérer précieuses, permettant de déceler suffisamment tôt les éventuels problèmes d’un disque dur, ou bien de savoir s’il a atteint la fin de sa vie utile, afin de le remplacer avant qu’il ne tombe en panne.

Un système de rapport ergonomique à destination de l’utilisateur ou de l’administrateur est essentiel, car le disque en lui-même n’est pas en mesure de réaliser une analyse approfondie des données. Le disque peut uniquement signaler si certains attributs ont dépassé des seuils prédéterminés, et seulement si ces seuils ont été paramétrés dans le firmware.

Le système SMART existe depuis de nombreuses années, et est apparu avant les SSD. Le SMART était à l’origine conçu pour les disques durs, puis a été adapté aux SSD lors de la naissance de cette nouvelle technologie qui a remplacé les disques durs à plateaux rotatifs. Malheureusement, quelle que soit la technologie de stockage, il n’existe pas de norme commune à l’intégralité du secteur pour savoir quel numéro d’attribut SMART correspond à chaque propriété physique du disque. Les descriptions des attributs varient entre les SSD et les disques durs, et même entre les différentes marques de SSD.

Il existe plusieurs logiciels libres et gratuits tiers capables de récupérer les données SMART d’un disque et d’en générer un rapport. Toutefois à moins que le développeur du logiciel tiers ne consulte le fabricant du disque concernant les attributs SMART corrects, leurs descriptions et leurs seuils (le cas échéant) peuvent s’avérer erronés et sont susceptibles d’entraîner des rapports d’erreur faussement positifs ou négatifs.

Nous avons constaté plusieurs cas où l’attribut « Nombre d’heures de fonctionnement » renvoie une valeur à l’utilitaire, et si ce dernier n’est pas compatible, il est possible qu’il associe cette valeur à l’attribut « Nombre d’erreurs logicielles » ou « Nombre total d’erreurs incorrigibles ». Pire encore, l’utilitaire tiers est susceptible d’indiquer des seuils d’erreur qui ne conviennent pas au SSD concerné. L’utilitaire SMART renverra donc une erreur à un niveau de fonctionnement que le fabricant considère comme acceptable.

En raison de cette confusion, Crucial vous recommande d’utiliser uniquement notre logiciel Storage Executive pour récolter et analyser les données SMART des SSD Crucial. Storage Executive sera toujours paramétré avec les bonnes descriptions d’attributs et les seuils correspondants (le cas échéant) pour tous les SSD Crucial, à l’exception des plus anciens modèles.

Les attributs SMART de Crucial expliqués

Les SSD Crucial enregistrent plusieurs attributs différents à des fins de collecte par Storage Executive. Certains attributs renvoient des informations essentielles concernant le SSD, tandis que d’autres sont purement informatives.

Nous allons à présent aborder les caractéristiques les plus importantes. Lorsque l’attribut porte un nom différent en fonction de l’interface (SATA ou PCIe), les deux intitulés sont affichés :

Attribut 202 : Pourcentage de la durée de vie restante (pourcentage de la durée de vie utilisée sur PCIe)

Cet attribut reflète exactement ce que son nom indique. Il s’agit d’une mesure de la durée de vie restante estimée du disque à un moment donné. Lorsque le SSD est neuf, l’attribut 202 indique « 100 », et lorsque la fin de sa durée de vie estimée sera atteinte, il renverra « 0 », vous informant ainsi qu’il reste 0 % de sa durée de vie.

Toutefois, il est important de bien comprendre ce qu’utiliser la durée de vie estimée veut dire. Cela ne signifie pas que le disque va tomber en panne dès que le compteur atteindra zéro, mais seulement que vous devriez remplacer votre SSD rapidement.

La durée de vie d’un périphérique flash-NAND est définie par une autre caractéristique : sa capacité de rétention de données. La rétention de données correspond à la quantité de temps pendant laquelle un appareil peut stocker en toute sécurité et permettre une bonne récupération des données de l’utilisateur lorsqu’il n’est pas alimenté. Lorsqu’un SSD ou un périphérique flash-NAND est neuf, sa capacité de rétention de données hors tension est de plusieurs années. Toutefois, à l’instar de la mémoire humaine, elle diminue en raison de l’usure entraînée par l’écriture de données (la lecture de données n’entraîne pas d’usure directe).

Le JEDEC est un organisme de normalisation qui établit des normes et spécifications pour les appareils et équipements reposant sur des semi-conducteurs. Micron est un membre éminent du JEDEC, qui définit la rétention de données d’une manière spécifique : Pour les SSD destinés à des applications « client » (tels que les ordinateurs professionnels ou personnels), la rétention de données d’un SSD doit être d’un an, lorsqu’il est hors tension et stocké à 30 °C (86 °F). Ce prérequis offre suffisamment de temps à n’importe quel utilisateur pour récupérer les données stockées sur un disque inutilisé depuis un certain temps, si besoin est.

Vous remarquerez à partir de cette description que votre SSD est supposé fonctionner pendant longtemps, car son compteur de durée de vie commence à 100 %. Toutefois, plus le temps passe, plus la rétention de données continuera de se dégrader, passant de un an à 6 mois, puis à 3 mois, etc. Enfin, bien après que la garantie du disque ait expiré, il ne sera plus en mesure de retenir aucune donnée une fois hors tension.

Pas d’inquiétudes, le firmware du SSD prend ces informations en compte. Au fur et à mesure que vieillit le SSD, le code correcteur d’erreurs (ECC), les tentatives de lecture, les paramètres de lecture adaptative, la maintenance des données en arrière plan et d’autres ajustements du firmware permettent de corriger les problèmes liés à une dégradation progressive de la rétention de données. Au fur et à mesure que les blocs de données se dégradent, ils sont remplacés par d’autres blocs de rechange du périphérique, qui pourra fonctionner normalement. Évidemment, toutes ces opérations d’arrière-plan ont lieu lorsque le SSD est alimenté, c’est pour cela que la rétention de données est définie par un état hors tension.

Cet attribut est également présenté comme « Pourcentage de la durée de vie utilisée » sur certains SSD Crucial plus anciens, ainsi que sur les modèles NVMe, et fonctionne de la même manière que le paramètre Durée de vie restante, mais en sens inverse. L’attribut 202 du nouveau SSD indique « 0 », et lorsque la fin de sa durée de vie estimée sera atteinte, il renverra « 100 », vous informant ainsi que 100 % de sa durée de vie ont été utilisés. Sur ces modèles, le pourcentage peut dépasser 100 à mesure que davantage d’opérations d’écriture sont effectuées, mais les problèmes de rétention des données sont les mêmes.

Attribut 5 : Blocs de NAND condamnés

Le nombre de blocs condamnés au cours de ce processus d’évaluation continue de la qualité des blocs de NAND est indiqué par l’attribut SMART 5. Le firmware du SSD condamne les blocs de NAND pour plusieurs raisons telles que l’usure et les problèmes de rétention des données mentionnés précédemment. L’une des raisons de cet isolement est l’incapacité d’effacer un bloc au cours de la suppression ou du déplacement de données lors du passage du ramasse-miettes. Ce type de panne ne met que peu les données de l’utilisateur en danger, car les données en question sont destinées à une suppression ou bien ont déjà été copiées à un nouvel emplacement du SSD.

Les nouveaux SSD Crucial mesurent les superblocs avec cet attribut, qui correspondent à des groupes de blocs individuels. Lorsqu’il s’agit de la mesure de l’attribut 5, le nombre total de blocs n’augmente pas tant que plusieurs blocs individuels ne sont pas condamnés.

Attribut 180 : Nombre de blocs de réserve inutilisés (blocs de réserve disponibles pour les SSD PCIe)

Encore une fois, comme son nom l’indique, cet attribut correspond au nombre de blocs supplémentaires disponibles si des blocs défaillants doivent être condamnés. Ce nombre varie en fonction de l’architecture NAND de base, de l’architecture du firmware, et de la capacité effective du disque, mais il s’élève généralement à plusieurs milliers.

Il diminue au fur et à mesure que le nombre de blocs condamnés augmente. Lorsque l’attribut 180 atteint 0, le firmware passe automatiquement le SSD en mode « lecture seule ». Le SSD ne pourra plus être utilisé comme disque normal, mais l’utilisateur devrait être en mesure de récupérer les données qu’il contient et les transférer vers un nouveau support.

Tout comme avec l’attribut 5, les nouveaux SSD Crucial mesurent également les superblocs avec cet attribut, ce qui signifie que ce nombre total de blocs ne diminue pas tant que de nombreux blocs individuels ne sont pas condamnés. De plus, lors de la première utilisation, il peut refléter une valeur bien plus faible que celle d’un ancien composant.

Attribut 210 : Nombre de récupérations réussies de pages RAIN

L’architecture RAIN est très similaire au système RAID qui permet d’obtenir une redondance des données à l’aide de plusieurs disques durs. Toutefois, la redondance du RAIN est réalisée à l’intérieur du disque, indépendamment de l’utilisateur. Le RAIN est une technologique qui équipe les SSD afin de protéger les données des utilisateurs et d’étendre la durée de vie du disque.

Les événements liés au RAIN sont rares, ainsi si cette valeur est élevée, il est probablement temps d’examiner les attributs précédents afin de déterminer si le SSD doit être remplacé. Des événements trop fréquents liés au RAIN peuvent entraîner une baisse des performances remarquable. Le système de redondance par parité pour récupérer les données permet au disque de fonctionner normalement, mais il requiert une bande passante importante. Si les baisses de performances sont fréquentes, les reconstructions RAIN en sont probablement responsables, et peuvent être symptomatiques d’un problème plus grave.

Attribut 174 : Nombre d’arrêts inattendus (nombre d’arrêts risqués sur les SSD PCIe)

Un arrêt normal pour un ordinateur est précédé d’un message partant du système hôte vers le SSD pour l’informer que l’alimentation électrique va être interrompue. Cet avertissement offre au SSD le temps de terminer toutes les opérations en cours. Une fois terminé, le SSD envoie un message « bien reçu » à l’hôte, qui met alors un terme au processus d’extinction.

Il existe de nombreuses situations dans lesquelles l’alimentation se coupe de manière inattendue, et ces coupures peuvent entraîner des problèmes pour le SSD. Dans la plupart des conditions, le SSD est capable de compenser cette coupure, mais le prochain démarrage prendra plus de temps (quelques secondes au lieu de quelques centaines de millisecondes), mais le système démarrera correctement.

L’attribut 174 est purement informatif. Toutefois, un nombre important de ce type d’événement peut indiquer que l’utilisateur doit apprendre à éteindre correctement son système afin d’éviter tout problème avec l’alimentation ou les connexions.

Attribut 194 : Température du boîtier (température du périphérique PCIe)

Le logiciel Crucial Storage Executive indique à la fois la température actuelle et la température maximale enregistrée au cours de la vie du périphérique, en degrés Celsius, mesurées par un capteur sur le SSD. La plage de fonctionnement indiquée pour la plupart des SSD Crucial s’étend de 0 °C à 70 °C (de 32 °F à 158 °F). Toute température enregistrée dépassant 70 °C est susceptible d’annuler la garantie du produit, la température doit donc être surveillée régulièrement. Si les températures dépassent régulièrement 65 °C, des mesures correctives telles qu’une meilleure ventilation et des ventilateurs supplémentaires sont de mise.

Conclusion

Le système SMART peut s’avérer très pratique pour la surveillance de l’état de santé de votre SSD. Toutefois, le SMART n’est pas un outil à part entière. Les informations récoltées à partir des attributs SMART et les diagnostics du système d’exploitation constituent un bon point de départ pour les procédures standard de résolution des problèmes.

Les données SMART mal indiquées ou mal interprétées peuvent entraîner des conclusions erronées qui, malheureusement, peuvent conduire au retour d’un disque parfaitement fonctionnel. Ce faisant, nous vous recommandons une fois de plus d’utiliser uniquement le logiciel Crucial Storage Executive pour lire les données SMART des SSD Crucial.

©2019 Micron Technology Inc. Tous droits réservés. Les caractéristiques, informations et/ou produits contenus dans ce document peuvent être modifiés sans préavis. Crucial et Micron Technology Inc. ne sauraient être tenus pour responsables de toute omission ou erreur figurant dans la typographie ou les photographies. Micron, le logo Micron, Crucial et le logo Crucial sont des marques déposées ou de commerce de Micron Technology Inc. PCI Express et PCIe sont des marques de commerce déposées de PCI-SIG. Toutes les autres marques de commerce et marques de service sont la propriété de leurs détenteurs respectifs.