Gli sviluppatori AMD hanno segnalato che è stato identificato un bug insolito nei processori AMD EPYC 7002.
Il bug porta al fatto che dopo 1044 giorni di funzionamento continuo (2 anni e 10 mesi), il processore potrebbe bloccarsi, a causa del quale il server dovrà essere riavviato. AMD ha avvertito che non sarà in grado di risolvere questo problema.

Il produttore riferisce che il problema è legato al fatto che il kernel non riesce a uscire dallo stato di risparmio energetico CC6 se l’ultimo riavvio del sistema è stato effettuato più di 1044 giorni fa. Inoltre, il tempo di guasto può variare a seconda della frequenza di REFCLK.
L’utente acid_migrain di Reddit suggerisce che il problema in realtà si manifesta non dopo 1044 giorni, ma dopo 1042 giorni e 12 ore. Secondo la sua teoria, il blocco si verifica quando il TSC [Time Stamp Counter], contando il numero di cicli di lavoro dopo un reset, raggiunge 0x380000000000000 mentre opera a 2800 MHz (2800 * 10**6 * 1042.5).
Come soluzione alternativa, AMD suggerisce agli amministratori di riavviare il server più di una volta ogni 1044 giorni, il che “azzererà” la CPU e riavvierà il “timer” di 1044 giorni, oppure disabiliterà la modalità di risparmio energetico di CC6.