Künstliche Intelligenz in der Zuverlässigkeitsanalyse von HDDs und SSDs: Neue Horizonte

Künstliche Intelligenz (KI) wird in der heutigen Welt zu einem integralen Bestandteil verschiedener Technologien und Prozesse. Von der Medizin bis zur Automobilindustrie begegnen uns ihre Anwendungen jeden Tag. Aber haben Sie schon einmal darüber nachgedacht, wie KI bei der Datenspeicherung helfen kann? Könnte sie insbesondere eingesetzt werden, um die Zuverlässigkeit von Festplatten (HDDs) und Solid State Drives (SSDs) zu analysieren? Unerwartete Ausfälle von Festplatten können schwerwiegende Probleme wie Serverausfälle und Datenverlust verursachen. Häufig geben Festplatten keine eindeutigen Hinweise auf ihren Zustand, so dass sich Techniker auf die Betriebszeit und ihre Erfahrung verlassen müssen. In diesem Artikel untersuchen wir, wie KI den Ansatz zur Überwachung des Festplattenzustands verändern und potenzielle Ausfälle verhindern kann.

Herkömmliche Diagnosemethoden

S.M.A.R.T.-Tests (Self-Monitoring, Analysis and Reporting Technology) sind auch heute noch das Mittel der Wahl, um den Zustand von Festplattenlaufwerken zu überprüfen. Bei dieser Methode werden eine Reihe von Datenpunkten gesammelt, z. B. die Betriebszeit der Festplatte, die Fehlerraten beim Lesen und Schreiben und die Anzahl der fehlerhaften Sektoren. Insgesamt erfasst das S.M.A.R.T.-System etwa 255 verschiedene Attribute, wobei die Hersteller den Zugriff auf einige dieser Attribute einschränken können.

SMART data example (source: ixbt.com)

Example of SMART data in HDDlife program.

S.M.A.R.T. ist sehr nützlich, hat aber auch seine Grenzen. So kann es beispielsweise nicht immer vorhersagen, wann ein Datenträger ausfallen wird, insbesondere bei plötzlichen Ausfällen. Außerdem müssen sich die Techniker oft auf ihre eigene Erfahrung und Intuition verlassen, was nicht immer eine erfolgreiche Problemlösung garantiert.

Anwendung von KI für die Ausfallvorhersage

Eine beliebte technische Ressource, Habr.com, veröffentlichte kürzlich einen Artikel über den Einsatz von KI zur Analyse der Zuverlässigkeit von Festplatten. Die Autoren haben einen neuen Weg gefunden, dies zu tun, indem sie eine große Menge historischer Daten über Festplattenausfälle analysiert haben.

Für die Erstellung des KI-Modells wurden Daten von zwei großen Unternehmen verwendet:

Daten von BackBlaze: Dieses amerikanische Unternehmen veröffentlicht seit 2013 S.M.A.R.T.-Diagnosen seiner Festplatten. Sie liefern umfassende Statistiken über 85 verschiedene Festplattenmodelle, einschließlich Informationen darüber, wann sie ausfallen. Anhand dieser Daten konnten sich die Forscher ein Bild davon machen, wie sich die verschiedenen Festplattenmodelle unter realen Bedingungen verhalten.
PAKDDD2020 Alibaba AI Ops Wettbewerb: Dieser Wettbewerb forderte die Teilnehmer auf, ein Modell zur Vorhersage von Festplattenausfällen auf der Grundlage anonymisierter S.M.A.R.T.-Daten zu entwickeln. Es ist wichtig zu erwähnen, dass die Daten für den Wettbewerb Informationen über Festplattenhersteller enthielten, aber diese Informationen waren versteckt, was die Aufgabe für die Teilnehmer erschwerte. Trotz des Mangels an Informationen über bestimmte Festplattenhersteller enthielten die Daten genügend Attribute, um das Modell erfolgreich zu trainieren.

Erstellen und Testen eines AI-Modells

Die Entwicklung des Modells erfolgte in mehreren Schritten. Der erste Schritt bestand in der Sammlung und Verarbeitung historischer Daten, einschließlich S.M.A.R.T.-Attributen und tatsächlicher Fehlerinformationen. Im nächsten Schritt wurden die Daten bereinigt und normalisiert, um Anomalien zu beseitigen und sicherzustellen, dass die Algorithmen des maschinellen Lernens korrekt funktionieren.

Anschließend wurden die Korrelationen zwischen den verschiedenen Attributen und den Ausfallzeiten analysiert, um die wichtigsten Faktoren zu identifizieren. Basierend auf diesen Daten wurden mehrere maschinelle Lernmodelle entwickelt und mit verschiedenen Algorithmen wie Random Forests, Gradient Bousting und neuronalen Netzen trainiert.

The survival time histogram. It shows the distribution of the time between the first positive prediction of the model and the actual disk failure. Specifically for the selected disk model. (Source: habr.com)

Median disk survival time as a function of decision threshold (source: habr.com)

Nach dem Training wurden die Modelle mit neuen Daten getestet, um ihre Genauigkeit und Zuverlässigkeit zu bewerten. Die Ergebnisse zeigten, dass das Modell in der Lage war, die Wahrscheinlichkeit eines Festplattenausfalls in den nächsten Tagen mit hoher Genauigkeit vorherzusagen, so dass ein rechtzeitiger Austausch potenziell unzuverlässiger Geräte möglich war und Ausfallzeiten vermieden werden konnten.

Modell Profis:

Das resultierende Modell ist ziemlich universell - es gibt keine kritische Abhängigkeit von den in einer bestimmten Organisation verwendeten SMART-Festplattendaten. Das bedeutet, dass kein komplexes System zur regelmäßigen Erfassung von SMART-Daten und Festplattenausfallereignissen erforderlich ist. Dies ist sein wichtigster Wert.

Nachteile des Modells:

Es ist nicht möglich, ein Modell zur Vorhersage von Festplattenausfällen zu schreiben, das auf verschiedene Festplattenmodelle anwendbar ist. Für jedes Festplattenmodell muss ein eigenes Modell trainiert werden. Der Grund dafür ist, dass jedes Festplattenmodell einen anderen Satz von SMART-Attributen haben kann. Außerdem ist die Abnutzung in den SMART-Attributen für jedes Festplattenmodell einzigartig.

Schlussfolgerung

Die Modelle der Autoren können eine relativ hohe Genauigkeit aufweisen. In einigen Fällen erreicht die Genauigkeit 70%, aber diese Modelle versagen bei der Vorhersage einer signifikanten Anzahl von Ausfällen. Der Recall-Wert liegt nie über 50 %, was bedeutet, dass die Hälfte der Festplatten aus Gründen ausfällt, die das Modell nicht versteht. Diese Ausfälle können als „Sudden Death“ bezeichnet werden. Es ist wahrscheinlich, dass eine so hohe Anzahl von plötzlichen Ausfällen darauf hinweist, dass die SMART-Daten einfach nicht ausreichend sind. Die Tatsache, dass die Gewinner des Alibaba-Wettbewerbs nur eine Rückrufquote von 40% haben, bestätigt diese Hypothese.

Der Einsatz von künstlicher Intelligenz eröffnet neue Möglichkeiten für die Überwachung und Vorhersage von Festplattenausfällen. Die Modelle zeigen bereits gute Ergebnisse, insbesondere in Bezug auf die Vorhersagegenauigkeit. Es gibt jedoch noch ungelöste Probleme im Zusammenhang mit plötzlichen Ausfällen und begrenzten S.M.A.R.T.-Daten.

Die Autoren des Projekts arbeiten weiter an der Verbesserung ihrer Modelle und hoffen, dass neue Daten die Effizienz der Vorhersagen verbessern werden. Trotz der bestehenden Schwierigkeiten scheint die Anwendung von KI im Bereich der Diagnose von Festplatten und Solid-State-Disks (HDD und SSD) ein vielversprechender Bereich der IT-Entwicklung zu sein.

Weitere Informationen über das Modell, einschließlich der technischen Details (alle möglichen Parameter des AI-Modells), finden Sie in der Originalartikel auf Habr.com.