USV-Monitoring: Wenn das Licht im Serverraum ausgeht

Die Installation einer unterbrechungsfreien Stromversorgung (USV, engl. UPS) scheint vielen Firmen eine unnötige Investition. Wann fällt schon mal der Strom aus? Und der PC läuft doch nach einem Stromausfall auch wieder problemlos hoch, oder?

Zugegeben, die Anschaffungskosten einer USV sind nicht kurzfristig mittels ROI (Return on Investment) gegenzurechnen. Jeder IT-Verantwortliche, der einmal mit einem unerwarteten Stromausfall konfrontiert war, wird den Aufwand nie wieder in Frage stellen. Mittels Monitoring bietet das unscheinbare Gerät im gesamten IT-Management aber noch einiges mehr.

Down – Stromausfall und die Folgen

In der Praxis bietet die USV einen seltenen, aber erheblichen Nutzen: Fällt der Strom aus oder zieht ein Schutzschalter die Reißleine, so liefert der integrierte Akku für eine gewisse Zeit genügend Power, um den Ausfall zu beheben oder die Systeme sauber herunterzufahren. Ohne diese Maßnahme würden sämtliche Server schlagartig ausgehen, was einerseits der Hardware nicht guttut, andererseits einen undefinierten Zustand der darauf laufenden Software zurücklässt.

Diese Vorgehensweise hat nicht selten einen Datenverlust zur Folge, im schlimmsten Fall sogar inkonsistente Datenbanken und damit einen aufwändigen Wiederherstellungsprozess.

Wozu die Überwachung der USV?

Jede USV kann über den integrierten Webserver derart konfiguriert werden, dass beim Eintreten von Ereignissen Störungsmeldungen versendet werden. Im einfachsten Fall passiert dies per E-Mail. In fortgeschrittenen Umgebungen wird für diese Fälle das SNMP-Protokoll genutzt, welches sehr effizient und ohne Abhängigkeiten von einem Mailsystem eine zentrale Überwachungsstelle über den Alarm informiert. Diese wiederum kümmert sich dann um die passende Eskalationsmethode (E-Mail, SMS, Anruf, etc.) oder weitere Aktionen (Starten alternativer Stromversorger, Umschaltung auf Standby-Systeme). Dies passiert mithilfe sogenannter »Traps«.

Aktive oder passives Monitoring

Wozu also die ständige aktive Überwachung der USV? Kleiner Ausflug: Über ein aktives Monitoring wird nicht auf die Meldung des Geräts gewartet, sondern in regelmäßigen Abständen der Zustand des Systems aktiv abgefragt. Auch dafür wird das SNMP-Protokoll benutzt. Auf diese Art können – mit minimalster Belastung des Netzwerks – wertvolle Daten der USV entlockt werden.

Mehr als nur ein Tot/Ok-Status

Die wichtigsten Werte, die auf diese Weise gesammelt werden können, sind die verbleibende Laufzeit der USV (unter Berücksichtigung der aktuellen Last an angeschlossenen Serversystemen) und der Ladezustand der Batterie (in Prozent). Darüber hinaus gibt es eine Menge detaillierter Parameter: Stärke von In- und Output (in Volt, hilfreich zur Erfassung von Stromspitzen), Temperatur des Akkus, Temperatur angeschlossener Sensoren, usw.

Von Trends und Alarmen

Die Aufzeichnung der Intervallmessungen lassen nun grafische Auswertungen über längere Zeiträume zu. Beispiel: Starten Sie die Kalibrierung der USV. Dabei wird ein Stromausfall solange simuliert, bis der Akku nahezu leer ist. Der daraus entstehende Graph im Diagramm zeigt anschaulich, wie lange die Batterie die externen Geräte versorgt. Bei wechselnden Verbrauchern bietet diese Darstellung eine gute Grundlage für die richtige Dimensionierung der USV.

Die Fehleranalyse

Einen außerordentlichen Input bietet die Überwachung der USV aber erst im Zusammenspiel mit dem Monitoring des restlichen Netzwerks. Ein Beispiel aus der Praxis: ein kurzer nächtlicher Stromausfall im Serverraum (Dauer rund 10 Minuten). Eigentlich kein Problem. In jedem Rack steht eine USV, die diese Zeitspanne locker aus der Akkuleistung überbrücken sollte. Dennoch sind einige Systeme ausgefallen, manche danach wieder hochgefahren und davon einige mit Fehlfunktionen. Ein Grauen für den IT-Administrator, ein Eldorado für den Betreuer des Monitoringsystems.

Zusammenhänge analysieren

Hier nutzt kein Verständigungssystem, welches ausschließlich auf E-Mail basiert. Erst die Kombination von Logeinträgen und Diagrammen bietet die Basis für eine vollständige Fehlerrecherche und die Grundlage für notwendige Änderungen.

Punkt 1: Wann erfolgte der Stromausfall und welche Systeme liefen unmittelbar danach nicht mehr? Was nicht sein darf, passiert in der Praxis immer wieder: Manche Server wurden nicht (zusätzlich) über die USV mit Strom versorgt. Einfach an der falschen Steckdosenleiste angeschlossen und schon ist es passiert.

Punkt 2: Welche Systeme sind nach dem Ausfall noch weitergelaufen, wurden aber dann dennoch beendet? Diese Analyse ist etwas schwieriger. Variante A: Diese Systeme verfügen über einen Shutdown-Agent, der das System kontrolliert herunterfährt, wenn die USV ihren Status auf »On-Battery« ändert. Hier genügt eine Kontrolle der Software auf den betroffenen Systemen. Der Zeitpunkt des Shutdowns sollte sich an der Restlaufzeit der USV orientieren. Hat deren Akku noch eine Restlaufzeit von 10, dann sollte der Shutdown starten. Ein Beispielwert. In der Praxis ist das Serversystem genauer zu prüfen. Aufwendige Dienste (z.B. Datenbanken) können schon mal länger für ein sauberes Beenden benötigen.

APC by Schneider Electric AP9630 UPS Netzwerk karte 2
  • Fernwartung, Erweiterungsmodul
  • Remotemonitoring und Steuerung einer Einzel-USV durch direkten Anschluss ans Netzwerk.
  • Lieferumfang: Software-CD, Benutzerhandbuch

Letzte Aktualisierung am 24.10.2020 / Affiliate Links / Bilder von der Amazon Product Advertising API

Variante B: Der Akku einer Stromversorgung (in einem Rack) ist nicht mehr funktionsfähig. Derartige Probleme sollten eigentlich über eine routinemäßige Selbstprüfung der USV abgefangen werden. Einmal richtig konfiguriert, sendet das System beim regelmäßigen Selbsttest eine Nachricht. Wurde diese entsprechend in das Monitoringsystem eingepflegt, so wird auch rechtzeitig eskaliert. Wurde dies versäumt, so liefern die Protokolle des Netzwerk-Überwachungssystems jetzt die Grundlage für die Fehlersuche.

Alles gestartet, nichts funktioniert

Nur weil ein System gestartet wurde und auf den üblichen Ping reagiert, heißt das noch lange nicht, dass es seinen Dienst erwartungsgemäß erfüllt. Im einfachen Fall beendet der eine Dienst mit einer Fehlermeldung den Startvorgang. Dieser neu gestartet, funktioniert auch alles wieder.

Weitaus komplexer wird die Fehleranalyse, wenn Dienste oder Programme nicht starten, weil Abhängigkeiten von fehlerhaften Modulen auf anderen Systemen sie daran hindern. Noch eine Stufe komplexer wird es für den Admin, wenn alle Dienste zwar starten, aber nicht funktionieren. Hier hilft nur ein ausgeklügeltes Monitoring- und Aufzeichnungssystem, um nicht im Urwald der unendlichen Protokollanalyse zu versinken.

Stromausfall in virtualisierten Umgebungen

Administratoren von virtuellen Serverumgebungen wissen von der Problematik der Abhängigkeit ein Lied zu singen. Nicht selten vollzieht ein HA-Cluster einer VM-Umgebung einen Host-Switch, weil dieser glaubt, dass dieser nicht mehr funktionsbereit ist. Dabei ist nur die Netzwerkstrecke zu diesem System ausgefallen (Stichwort: Gateway). Ein weiterer Punkt ist die Startreihenfolge (und Verzögerung) der einzelnen Server.

Das Praxis-Video

Unser Screencast-Video zum Thema USV-Monitoring und Ausfall-Fehleranalyse finden Sie in einer Woche an dieser Stelle und in unserem YouTube-Kanal. Schauen Sie wieder vorbei!

Know your Network

Egal ob virtualisiert oder mehrere Racks voller „richtiger“ Server. Die Boot-Reihenfolge spielt eine entscheidende Rolle (siehe dazu auch unseren Blogbeitrag »Reboot-Monitoring«). Ein Domain-Controller steht in der Startreihenfolge ganz oben. Gleiches gilt für den (virtualisierten?) VCenter-Server in VMware-Umgebungen. Ein gestarteter Sharepoint-Server bringt jede Menge Fehlermeldungen, wenn sein SQL-Pendant noch nicht soweit ist. Unnötiger Arbeitsaufwand aufgrund einer kleinen Fehlkonfiguration.

Übersicht durch Monitoring

Die (richtige) Einbindung einer USV in die Netzwerküberwachung ist nur ein Baustein. Eben jene Vollständigkeit und Tiefe im Aufbau eines Monitoring-Systems ist aber letztlich entscheidend, wenn eine schnelle und eindeutige Analyse bei Fehlern gefragt ist.

Mehr zum Thema System-Monitoring finden Sie hier im Blog und auf unserer Website.


Anzeige



Teile diesen Artikel

Das könnte dich auch interessieren …

Eine Antwort

  1. Florian sagt:

    Ich finde USV sehr wichtig. Ich möchte eine solche Technologie in meinem Serverraum installieren. Wie du schreibst, würde ich gerne extra Probleme wie Datenverlust vermeiden, und daher finde ich diese Investition wichtig.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

*