Seriennummern von Festplatten und Hinweise zu defekten Festplatten

Last change on 2021-07-27 • Created on 2020-03-18 • ID: RO-5B7D2

Einführung

Dieser Artikel soll grundlegende Informationen zum Auslesen der Festplatteninformationen und Fehlersuche geben.

Ermitteln der Seriennummer einer Festplatte

Unter Windows

Unter Windows gibt es ein Tool, womit Sie die Seriennummern einer oder mehrerer Festplatten auslesen können. Das Programm nennt sich DiskID32 und ist OpenSource.

Sie können das Tool hier herunterladen.

Öffnen Sie mit der Konsole in das Programmverzeichnis und geben Sie folgenden Befehl ein:

diskid32.exe

Sie erhalten mehrere Informationen über Ihre Festplatte(n). Die Seriennummer(n) der ausgewählten Festplatte(n) finden Sie in Drive Serial Number.

Beispiel:

alt text

Unter Linux

  • Möglichkeit 1 mit udevadm:
 /sbin/udevadm info --query=property --name=sda | grep ID_SERIAL
  • Möglichkeit 2 mit hdparm:
sudo hdparm -i /dev/sda | grep SerialNo

Mit sudo bekommen Sie Administratorenrechte, die Sie zum Lesen der Festplatteninformationen benötigen. Via hdparm rufen Sie eine Funktion auf, die Ihnen Festplatteninformationen liefert.

Mit -i /dev/sda übergeben Sie hdparm einen Parameter, der Ihnen konkrete Informationen zur Festplatte liefert.

Die zu überprüfende Festplatte kann jedoch von der Schnittstelle aus variieren:

  • IDE / ATA Gerät : -i /dev/hd[a-t]
  • SCSI / SATA Geräte : -i /dev/sd[a-z]

Anschließend filtern Sie mit | grep SerialNo die Seriennummer der Festplatte aus der Ausgabe hinaus.

Wenn dieser Befehl einen Fehler zurück gibt, muss wahrscheinlich noch das Programm selbst installiert werden:

sudo apt-get install hdparm

Beispiel:

alt text

Unter FreeBSD

Unter FreeBSD können Sie folgenden Befehl nutzen:

smartctl -a /dev/ad0 | grep Serial

smartctl ist eine Funktion, mit der Sie Festplatteninformationen lesen können.

Mit dem -a Parameter können Sie sich alle verfügbaren Informationen der zunächst übergebenen Festplatte anzeigen lassen.

Dabei gelten auch hier die verschiedenen Schnittstellen der Geräte:

  • IDE / ATA Gerät : -a /dev/ad[0-9]+
  • SCSI Gerät : -a /dev/da[0-9]+ ODER -a /dev/pass[0-9]+
  • SATA Gerät : -a /dev/ada[0-9]+

Mit | grep Serial filtern Sie die Seriennummer der Festplatte aus den Informationen.

Beispiel:

alt text

Hinweise zu defekten Festplatten

Um beschädigte Festplatten zu erkennen, empfiehlt sich ein Tool zur Erkennung solcher Fehler.

Deshalb verwenden wir auf Windows, Linux und FreeBSD ein und dasselbe Tool: Smartmontools.

Unter Windows

Falls Sie Smartmontools noch nicht auf Ihrem Windows Server 2008 installiert haben sollten, können Sie sich die aktuelle Version hier herunterladen.

ACHTUNG: Setzen Sie während des Setup unbedingt den Haken bei PATH variable. Alternativ zu dieser Option, können Sie in den Umgebungsvariablen den Pfad zu diesem Programm setzen.

Wenn das Tool erfolgreich installiert ist, können Sie die Eingabeaufforderung öffnen.

Geben Sie folgenden Befehl ein, um zu prüfen, ob das Programm verwendbar ist:

smartctl -h

Es sollte in der Eingabeaufforderung eine Liste mit Befehlen erscheinen, die Sie smartctl übergeben können.

Unter Windows verhält sich smartctlgenau so, wie unter Linux. Deshalb können Sie die selben Befehle nutzen. Was ebenso gleich bleibt, ist die Pfadangabe zu den Partitionstypen.

Deshalb müssen Sie unter Windows dieselben Parameter verwenden, wie unter Linux.

Achten Sie deshalb auf die verschiedenen Schnittstellen der Geräte:

  • IDE / ATA Geräte : -H /dev/hd[a-t]
  • SCSI / SATA Geräte : -H /dev/sd[a-z]

ACHTUNG: Normale Laufwerksnamen wie c:, funktionieren nicht!

Unter Linux

Unter Linux Systemen bieten sowohl Meldungen des Kernels als auch die smartmontools Hinweise auf eine defekte Platte.

Kernelmeldungen können per dmesg angezeigt werden. Dort sollte besonders auf Meldungen geachtet werden, welche mit ata beginnen. Hier könnte man beispielsweise den Befehl dmesg | grep ata anwenden.

Die Smartmontools müssen sie auf Linux Systemen erst installieren. Dabei variieren die Paketnamen unter den Systemen:

  • Debian: smartmontools
  • Fedora: kernel-utils

Sie benötigen für die Installation Administratorrechte.

Als nächstes können Sie in der Konsole weiterarbeiten.

(Beachten Sie, dass der gesamte Vorgang Administratorrechte benötigt)

Geben Sie in der Konsole folgenden Befehl ein:

smartctl -H /dev/sda

Achten Sie hier auf die verschiedenen Schnittstellen der Geräte:

  • IDE / ATA Geräte : -H /dev/hd[a-t]
  • SCSI / SATA Geräte : -H /dev/sd[a-z]

Diese Anweisung befragt den Zustand Ihrer Festplatte. So erhalten Sie eine Meldung, die Ihnen sagt ob Ihre Festplatte weiterhin einsetzbar ist.

Wird als Ergebnis FAILED! angezeigt, dann ist mit Ihrer Festplatte etwas nicht in Ordnung.

Lautet das Ergebnis PASSED, dann ist mit Ihrer Festplatte alles in Ordnung.

Wollen Sie von Ihrer Festplatte ein genaueres Ergebnis, dann können Sie die mit angelegte Tabelle nutzen. Diese finden Sie unter dem selben Befehl, ab Failed Attributes.

Eine Erklärung zu den Messwert-Attributen finden Sie im Abschnitt Messwert-Attribute.

Wenn Sie Ihre Tabelle mit den Messwerten nun auswerten, erhalten Sie eine Übersicht von Fehlern auf Ihrer Festplatte.

Wenn Sie alle möglichen Fehler von Ihrer Festplatte erkennen wollen, können Sie

den Befehl smartctl -A /dev/sda verwenden.

(ACHTEN Sie auch hier auf Ihren Gerätetypen)

Dieses Mal werden alle verfügbaren Fehler angezeigt. Sie können nun die Tabelle auswerten.

Eine Erklärung zu den Attributen finden Sie im Abschnitt Attribute-Liste.

Unter FreeBSD

Auch unter FreeBSD lohnt sich der Blick in die Meldungen des Kernels (dmesg) um weitere Hinweise auf den Defekt der Platte zu finden.

Gleich wie unter Windows und Linux, müssen Sie die smartmontools in der Paketverwaltung installieren.

Dazu können Sie folgenden Befehl nutzen:

pkg_add -r -v smartmontools

(Beachten Sie, dass der gesamte Vorgang Administratorrechte benötigt)

Wie unter Linux, können Sie auch in FreeBSD die selben smartctlBefehle nutzen. Allerdings gibt es zur Pfadangabe der Festplatte einen kleinen Unterschied.

Verwenden Sie statt den üblichen Pfadangaben wie z.B.: /dev/hd[a-t]und/dev/sd[a-z], den neuen Pfad: /dev/ad[0-9]+.

Attribute-Liste

Parametername Bedeutung
Raw Read Error Rate Kritisch. Ein niedriger Wert weist auf unkorrigierbare Lesefehler hin, die mit der Plattenoberfläche oder mit den Leseköpfen zusammen hängen.
Througput Performance Kritisch. Allgemeiner Indikator für den Datendurchsatz. Niedrige Werte zeigen, dass die Platte nicht mehr in vollem Tempo arbeiten kann.
Spin Up Time Mittlere Startzeit des Motors, der die Platten antreibt. Schlechte Werte können auf Lagerprobleme hinweisen, die oft von zu hohen Temperaturen kommen.
Start/Stop Count Unkritisch. Zählt die Start/Stop-Vorgänge des Laufwerks.
Reallocated Sector Count Sehr kritisch. Zählt, wieviele Reservesektoren die Festplatte bereits genutzt hat. Deutet auf Medienprobleme hin.
Read Channel Margin Gibt an, wie viel der Bandbreite bei Lesevorgängen im Mittel genutzt wird. Die genaue Bedeutung ist undokumentiert.
Seek Error Rate Kritisch. Zählt die Fehler bei Lesevorgängen, die vom Zustand des Positionierungssystems, oder von der Oberfläche abhängig sind.
Seek Time Performance Allgemeiner Wert, der die Leistung der Leseköpfe beschreibt. Niedrige Werte weisen auf Mechanische Probleme hin.
Power On Hours Count Zählt die Betriebsstunden der Platte. Meist in einem herstellerspezifischen Format.
Spin Retry Count Kritisch. Gibt an, wie oft der Motor anlaufen musste, damit die Platte ihre betriebstypische Umdrehungszahl erreicht.
Recalibration Retries Kritisch. Zählt, wie oft die Platte die Schreib-Leseköpfe neu kalibrieren musste. Weißt auf mechanische Fehlfunktionen hin.
Device Power Cycle Count Zeigt die Statistik, wie oft das Laufwerk ein- und ausgeschaltet wurde.
Soft Read Error Rate Gibt an, wie oft das Betriebssystem die gelesenen Daten als fehlerhaft verworfen hat.
G-Sense Error Rate G-Sense steht für einen Schock-Sensor, der heftige Erschütterungen im Betrieb misst.
Power-Off Retract Cycle Zählt lediglich, wie oft die Festplatte abgeschaltet wurde.
Load/Unload Cycle Count Gibt an, wie oft die Platte ihre Schreib- und Leseköpfe in die Parkposition (Landing Zone) gefahren hat.
Temperature Gibt die Temperatur des Laufwerks an. Eher unwichtig, da die Messung bei den meisten Geräten sehr ungenau ist.
Reallocation Events Count Sehr kritisch. Zählt jeden Versuch der Platte, Sektoren umzumappen, auch wenn dies nicht gelingt.
Current Pending Sector Count Sehr kritisch. Gibt die Anzahl der instabilen Sektoren an, die auf eine Verschiebung in den reservierten Bereich warten.
Uncorrectable Sector Count Sehr kritisch. Die Anzahl der fehlerhaften Sektoren, welche die interne Plattenlogik nicht restaurieren und in den reservierten Bereich verschieben kann.
UltraDMA CRC Error Rate Kritisch. Anzahl der Prüfsummenfehler bei der Datenübertragung. Kann auch auf defekte Kabel, Treiberkonflikte oder auf Übertaktungsprobleme hinweisen.
Write Error Rate Kritisch. Zählt, wie oft Fehler beim Schreiben von Sektoren aufgetreten sind.
Disk Shift Sehr Kritisch. Dieser Wert gibt an, ob sich aufgrund von Temperaturproblemen oder Schockeinwirkungen eine Umwucht gebildet hat.
Loaded Hours Gibt an, wie lange die Platte unter Volllast stand. Der Indikator dafür sind die Bewegungen des Plattenarms.
Load/Unload Retry Count Zählt in einer undokumentierten Einheit, wie oft die Schreib-Leseköpfe die Position geändert haben.
Load Friction Zeigt einen statistischen Wert, wie hoch der Reibungswiderstand beim Bewegen des Plattenarmes ist.
Load-in Time Gibt an, wie lange sich der Plattenarm nicht in der Landing Zone geparkt war.
Torque Amplification Count Zählt, wie oft die interne Logik der Platte das Drehmoment neu anpassen musste.
GMR Head Amplitude Ein rein statistischer Wert über die zurückgelegte Distanz der Schreib-Leseköpfe während einer Bewegung.

(Quelle)

Messwert-Attribute

Attribut Bedeutung
VALUE ist ein normalisierter Messwert, der zumeist rückwärts zählt (je niedriger, desto schlechter).
WORST der bisher schlechteste Wert.
THRESHOLD die Grenze, unter die der Wert nicht fallen darf.
TYPE steht für die Bedeutung des Parameters: Pre-fail ist eine Warnung vor einem baldigen Ausfall, während Old age bedeutet dass es sich allgemein um fortschreitende Alterung handelt. (Die aktuelle Temperatur fällt nicht unbedingt in eine der beiden Kategorien)
UPDATED zeigt an, ob der Wert permanent (always) oder erst durch einen Selbsttest vom Typ Offline data collection aktualisiert wird.
RAW_VALUE ist der eigentliche Messwert, also etwa die gemessene Temperatur oder die Zahl der Fehler.

(Quelle)

Erstellung eines Kompletten SMART Logs

Um einen Kompletten SMART Log zu erstellen führt man smartctl mit der option -x aus. Die Angabe der Festplatte erfolgt analog der Erklärung unter Hinweise zu defekten Festplatten.

SMART Selbsttest starten

Den Selbsttest der Festplatte kann man mit smartctl und der Option -t short oder -t long starten. Die Angabe der Festplatte erfolgt analog der Erklärung unter Hinweise zu defekten Festplatten.

Dieser Selbsttest ist ein Hersteller spezifischer Test, der von der Festplattenfirmware durchgeführt wird. Der Server sollte während des Tests nicht weiter beansprucht werden, da dies den Test abbrechen könnte.

Festplattentest im Hardware Check

Im Rescue-System kann man mit dem Tool hwcheck eine Überprüfung der Festplatten nach den Hetzner Standards durchführen. Es gibt dafür einen short-test (Auswahl G), der ca 15 - 30 Minuten, und einen long-test (Auswahl 1), der mehr als 6 Stunden dauern kann. Bei der Durchführung des Tests sollten keine anderen Aktionen auf dem Server durchgeführt werden. RAID Controller werden in dem Test automatisch erkannt.

Funktionsweise des Hardware Checks

Der Test beginnt mit einem Lesetest auf den einzelnen Festplatten. Dabei wird von jeder Festplatte ca. 100GB Daten gelesen. Dabei wird überprüft ob es zu Lesefehlern kommt. Die Daten an sich werden dabei nicht untersucht und sofort verworfen.

Ist der Lesetest abgeschlossen werden die SMART Werte der Festplatten ausgelesen. Diese werden überprüft und auf Auffälligkeiten, die auf einen Defekt hinweisen, untersucht.

Wenn die Überprüfung der SMART Werte abgeschlossen ist wird je nach Auswahl der short oder long Test gestartet.

Bei einem short Test werden nur Teilbereiche der Festplatte untersucht. Dies verkürzt die Dauer des Tests. Der long Test überprüft alle Sektoren der Festplatte mehrfach.

Welche Tests im Detail bei einem Selbsttest durchgeführt werden ist Hersteller abhängig und meist nicht genau bekannt.

Wenn der Selbsttest abgeschlossen ist wird das Ergebnis überprüft und es folgt nochmal eine Prüfung der SMART Werte.

Zuletzt werden die ermittelten Ergebnisse überprüft und für jede Festplatte eine Logdatei mit dem Abschlussergebnis angelegt (hddtest-[seriennummer].log). Diese liegen unter /root/hwcheck-logs/.

Festplatten in RAID-Controllern

Unter Windows

Um Festplatteninformationen aus einem RAID-System zu entnehmen, entwickelte Adaptec ein Tool zur Administration dieser Systeme. Dieses Programm ist grafisch aufgebaut und heißt Adaptec Storage Manager. Sie können es hier herunterladen. Benutzen Sie hierzu, die in der Bestätigungsemail geschickten Benutzerdaten.

Installieren Sie das Programm auf Ihren Server und starten Sie es. Danach sollte eine grafische Oberfläche erscheinen, mit der Sie administrieren können.

Als nächstes klicken Sie links in der Box auf Direct Attached Storage. Blicken Sie rechts in das Auswahlmenü und wählen Sie mit einem Doppelklick das installierte Betriebssystem, mit der entsprechenden IP und dem entsprechenden System. Es sollte eine Abfrage nach den Anmeldedaten erfolgen. Nachdem Sie sich angemeldet haben erscheint eine Meldung, dass ein RAID-Controller gefunden wurde. Bestätigen Sie mit Register Later und klicken dann mit einem Doppelklick auf den RAID-Controller.

Nun erscheint eine Liste in der sich alle Festplatten an dem RAID-Controller befinden. Wählen Sie Ihre Festplatte mit einem Doppelklick aus. Es öffnet sich ein Fenster, wo Sie die Festplatteninformationen abrufen können.

Unter Linux

smartctl zeigt in der Regel die Seriennummer der Festplatte an, es gibt jedoch für diverse Controller auch spezielle Programme:

3ware Controller

Hier wird tw_cli benötigt. Es sollte in den Paketquellen der Distributionen enthalten sein. Man startet tw_cli ohne Angabe von Parametern:

tw_cli

Der Aufruf erfolgt nun wie folgt:

/cx/py show serial

x steht für die Controller-Nr, bei einem 0 y für die Nr der Festplatte

Adaptec Controller

Unter Linux benötigen Sie ein Tool namens arcconf. Dieses Programm können Sie sich hier, herunterladen.

Entpacken Sie die Datei. Verschieben Sie anschließend die Datei:

mv arcconf-64 /usr/local/bin

Anschließend machen Sie die arcconf zu einer ausführbaren Datei:

chmod +x /usr/local/bin/arcconf

Führen Sie nun die Datei aus:

/usr/local/bin/arcconf

Möglicherweise werden Sie libstdc++5 mit installieren müssen, da arcconfig dieses Paket benötigt. Falls dies der Fall sein sollte, können Sie sich hier die Datei herunterladen.

Wenn eine Liste mit möglichen Befehlsparametern erscheint, arbeitet das Programm korrekt.

Nun können Sie mit dem Befehl ./usr/local/bin/arcconf getconfig 1 die Seriennummer der Festplatte auslesen. Dabei gibt die Zahl 1 an, um welchen RAID-Controller es sich handelt.

Beachten Sie jedoch, dass Ihre Festplatten im RAID erst ab Physical Device information aufgelistet werden. Sie finden die Seriennummer Ihrer Festplatten in Serial number.

Neben den Seriennummern, finden Sie mit diesem Tool weitere nützliche Informationen zu Ihren Festplatten.

Unter FreeBSD

Um die Festplattenseriennummer aus FreeBSB zu bekommen, müssen Sie folgende Befehle in das Terminal eingeben:

portsnap fetch update
cd /usr/ports/sysutils/arcconf
make install clean && rehash

Mit dem Befehl /usr/local/sbin/arcconf getconfig 1 können Sie auf die Festplatten zugreifen. Achten Sie auch hierbei darauf, das die Zahl hinter getconfig, den RAID Controller angibt.

Wie auch unter Linux finden Sie sämtliche Festplatteninformationen, u.a. auch die Serial number, in den Physical Device information.

Table of Contents