Processeurs

Processeur EPYC, AMD confirme un bug de “zombification”

L'unique solution est de redémarrer le serveur

AMD confirme un souci avec ses processeurs EPYC de deuxième génération basée sur la micro architecture Zen 2. Après un peu plus de 1000 jours un cœur de ces puces peut ne plus sortir de l’état de veille CC6.

La durée exacte est de 1044 jours soit environ 34 mois ou encore un peu moins de trois ans.  Selon plusieurs retours publiés sur Reddit et Twitter la période réelle est de 1042 jours et 12 heures exactement. AMD explique que cette défaillance peut varier en fonction du spectre étalé et de la fréquence REFCLK, cette dernière étant l’horloge de référence qui aide la puce à suivre le temps. L’unique solution est de couper l’alimentation afin de réinitialiser le compter à zero.

Errate _ Processeur EPYC AMD
Errate _ Processeur EPYC AMD

Le plus intéressant dans ce bug est qu’il a été découvert car des nombreux systèmes équipés de processeurs EPYC de deuxième génération fonctionnent depuis presque trois ans sans jamais avoir été redémarré une seul fois. C’est inquiétant car cela veut dire que leur maintenance est inexistence. Aucune mise à jour et aucun correctif nécessitant un redémarrage pour terminer leur installation n’a été installé.

AMD ne prévoit pas de corriger le bogue « CC6 ». La solution proposée est de désactiver cet état pour éviter que les cœurs n’entrent en mode “zombie” après plusieurs années de fonctionnement. L’autre approche est de redémarrer le système de temps en temps.

Jerome G

Issu d’une formation scientifique. Aime l'innovation, la High Tech et le développement durable. Soucieux du respect de la vie privée.

2 commentaires

  1. “C’est inquiétant car cela veut dire que leur maintenance est inexistence.”

    Pas nécessairement car un système BSD/Linux n’a pas besoin de rédémarrer
    pour appliquer une MAJ contrairement à Windaube.

    “Aucune mise à jour et aucun correctif nécessitant un redémarrage pour
    terminer leur installation n’a été installé.”

    Cela reste à vérifier et quand bien même cela aurait été le cas, cela
    n’a pratiquement aucune incidence sur une machine hors ligne
    (e.g. superordinateur à usage militaire).

    En revanche, ce bogue démontre que les processeurs AMD ne sont pas
    qualifiés pour usage critique (i.e. militaire).

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Bouton retour en haut de la page