5 typische Fehler in der Alarmierung und wie man sie vermeidet

Apr 22, 2021 | Allgemein

Eine gute Alarmierungsstrategie ist eine wichtige Voraussetzung für die erfolgreiche Betriebsführung und die Verfügbarkeit kritischer Systeme. Aber auch für die Mitarbeiterzufriedenheit. Dabei geht es nicht nur darum, dass kritische Zustände, Probleme und Ausfälle überhaupt alarmiert werden, sondern vor allem wann, wie und an wen. Hier sind die 5 typischsten Fehler, ihre Konsequenzen und wie man sie vermeiden kann.

1. Es wird nicht, zu wenig oder zu langsam alarmiert

Das ist selbstredend ein Problem. Wenn kritische Zustände übersehen werden, führt dies schnell zu großen Problemen mit dramatischen Auswirkungen, hohe Kosten, Produktivitätsverlusten usw. Zu wenige Alarme habe ihre Ursache oft in mangelhafter Überwachung der Systeme oder auch Brüchen in einer Meldekette. So findet man oft die Situation, wo ein Pförtner kritische Signale oder ein Meldesystem beobachten und dann manuell eine Hotline anrufen soll.

-> Wie man Fehler 1 vermeidet

Alles beginnt tatsächlich mit der Überwachung und dies ist keine triviale Aufgabe. Glücklicherweise gibt es in der IT seit jeher leistungsfähige Überwachungssysteme. Mit dem Internet der Dinge (IoT) wird die Grundlage geschaffen, auch in der Industrie, dem Gebäudemanagement und anderen Bereichen, kostengünstig und effektiv den Zustand einer Vielzahl von Systemen zu erfassen und schwerwiegenden Störungen zu kommunizieren oder einen Alarm auszulösen. Dass die Überwachung als auch die Alarmierung möglichst automatisch und ohne Brüche erfolgen sollte, liegt auf der Hand. Menschliche „Latenzen“ und Fehler sollten möglichst ausgeschlossen werden.

2. Es werden zu viele Zustände alarmiert

Wenn selbst die unwichtigsten Störungen in der Nacht an eine Bereitschaft alarmiert werden, sinkt die Akzeptanz für eine Alarmierung ins Bodenlose. Nichts ist mehr frustrierend als für eine unbedeutende Störung nachts aus dem Bett gerufen zu werden. Dies kann zu „Alarmierungs-Burnout“ („Alert Fatigue“) führend und am Ende gar zur Kündigung einer IT-Fachkraft. Niemand will dies.

-> Wie man Fehler 2 vermeidet

Diesen Fehler zu vermeiden ist definitiv schwieriger als Fehler 1. Denn hier reden wir über das Filtern von Alarmen/Ereignissen, also der Feinsteuerung der Überwachung. Dazu gehört die Vermeidung von „False-Positives“, also Fehlalarmen. Dabei helfen Werkzeuge wie regelbasierte Alarmierungsrichtlinien, Inhaltsfilter aber auch Funktionen wie De-Duplizierung oder „Wait for Recovery“-Mechanismen oder sogar die Korrelation von Ereignissen und Alarmen. Letzteres bedeutet, dass ein Fehler oftmals eine Vielzahl von Effekten hat und diese dann alle für sich Alarme auslösen, obwohl ein Alarm an einer Wartungsteam möglicherweise genügt. Ereigniskorrelation ist allerdings nicht trivial. Diese Funktionen sollten entweder im Überwachungstool oder dem Alarmierungsprodukt zur Verfügung stehen. Neuere Trends wie AIOps versprechen die Reduktion von Fehlalarmen und die Korrelation, müssen allerdings beweisen, dass sie in jedem Fall kritische Alarme nicht herausfiltern.

3. Es werden zu viele Personen alarmiert

Das ist der nahe Verwandte von Fehler 2. In Kombination sind die beiden definitiv „tödlich“ für jedes Bereitschaftsteam. Niemand möchte Alarme erhalten, die nicht in seinem Zuständigkeitsbereich liegen. Dazu kommt das Problem des so genannten „Broadcast Dilemmas“. Sehen sich mehrere Personen in einer Hilfesituation, so sinkt die Bereitschaft zum Helfen mit der Anzahl der Personen. Wird nur eine Person informiert und weiß diese Person, dass sie die einzige ist, so ist die Bereitschaft zur Hilfestellung und Problemlösung am größten. Darüber hinaus führt dieser Fehler genauso zu „Alarmierungs-Burnout“ wie Fehler 2. Alternativ kann es auch zum „Fuchs im Hühnerstall“-Problem kommen. Alle alarmierten Personen sind aufgeregt und das erzeugte Chaos vermeidet eine effektive Problemlösung.

-> Wie man Fehler 3 vermeidet

Diesen Fehler zu vermeiden ist die typische Aufgabe einer guten Alarmierungslösung aber auch einer guten Alarmierungsstrategie. Es ist immer am einfachsten alle Personen, die möglicherweise helfen könnten oder interessiert sind, in den Verteiler von Alarmmeldungen einzuschließen. Wegen der negativen Auswirkungen ist es aber mehr als ratsam eine zielgenaue Alarmierung einzurichten. Dazu zählt unter anderem die Alarmierung von Personen gemäß einer Bereitschafts- oder Schichtplanung, die Alarmierung gemäß Zuständigkeiten, örtlicher Verfügbarkeit (Geolokation) oder sogar gemäß der Ausbildung oder Fähigkeit, die zur Lösung der Störung benötigt werden. Moderne Alarmierungslösungen bieten zunehmend derartige Funktionen, um klare Zuständigkeiten im Alarmfall zu sichern.

4. Keiner kennt den Zustand eines Alarms

Werden in einem Team aus bestimmten Gründen, z.B. in der Maschinenwartung, mehrere Personen alarmiert, so genügt es nicht, den Alarm oder Serviceauftrag an alle Teammitglieder zu versenden und den Status nicht zu kommunizieren. Ein System, bei dem mehrere Personen informiert werden und Aufträge oder Alarme „gezogen“ werden können, muss die anderen Teammitglieder über die Annahme informieren, da sonst Mehrarbeit entsteht, z.B. dadurch, dass zwei oder noch mehr Teammitglieder glauben sich um einen Alarm oder Auftrag kümmern zu müssen.

-> Wie man Fehler 4 vermeidet

Hier hilft natürlich nur Transparenz und es ist wichtig, dass jedes Teammitglied jederzeit den Zustand eines Alarms oder eines Auftrags einsehen kann. Idealerweise ist dies bei mobilen Mitarbeitern ortsunabhängig möglich, z.B. über eine mobile App, die alle Alarme und Serviceaufträge mit Quittierungen und Status anzeigt. Das Quittieren eines Auftrags oder Alarms wird idealerweise in Echtzeit angezeigt und kommuniziert, um auch nur die kleinste Mehrarbeit, Verwirrung oder Ablenkung zu vermeiden und so das Team möglichst effizient und ohne umständliche Nachfragen arbeiten lässt.

5. Kritische Alarme werden nicht auf kritische Art kommuniziert

Dramatisch ist es in jedem Fall auch, wenn ein wirklich wichtiger Alarm übersehen wird. Wenn also alle vorherigen Punkte umgesetzt sind, bleibt noch das Problem, dass ein Alarm einfach nicht „angemessen“ oder drastisch genug kommuniziert wird und einfach untergeht – möglicherweise mit dramatischen Folgen.

-> Wie man Fehler 5 vermeidet

Kritische Störmeldungen sollten sicher nicht per E-Mail versendet werden. Und auch Messenger und Chatsysteme sind keine adäquaten Kommunikationswege, wenn es „brennt“. Nachts oder in lärmintensiven Umgebungen (z.B. Produktionsstätten) muss sichergestellt, dass ein Alarm nicht überhört wird. Auch hier spielen spezielle Alarmierungssysteme eine entscheidende Rolle. Der Einsatz und die Kombination verschiedener Kommunikationsmittel wie Anrufe, Push-Nachrichten, SMS und Chatmeldungen ist eine wesentliche Funktion, um Alarmmeldungen sicher zuzustellen. Auch die wiederholte Alarmierung, bis eine Quittierung durch den Nutzer erfolgt, ist wichtig. Zum Beispiel dafür, dass beim Überschreiten einer Reaktionszeit eskaliert werden kann, z.B. an einen Teamkollegen oder einen Vorgesetzen. Bei mobilen Apps sind auch Funktionen wie das Überschreiben des Lautlosmodus relevant.

Was kann SIGNL4 leisten?

Als zuverlässige und ausgereifte Cloudlösung kann SIGNL4 die Probleme 2-5 umfangreich adressieren und bei der Vermeidung typischer Fehler in der Alarmierung helfen. Über zahlreiche leistungsfähige Schnittstellen können darüber hinaus Überwachungssysteme und Sensoren in IT, Produktion, Energieversorgung, Logistik, Gebäudemanagement und vielen anderen Bereichen schnell und unkompliziert angebunden werden. SIGNL4 bietet Funktionen für das Filtern von Ereignissen, für die zielgenaue Alarmierung, für die transparente Quittierung von Alarmen und Serviceaufträgen und natürlich vor allem für die zuverlässige und gesicherte Alarmierung in den entscheidenden Momenten.

Weitere Details zu den Features gibt es hier.

Entdecke SIGNL4

SIGNL4 Alerting App

Mit SIGNL4 und seinen Superkräften bist du kritischen Ereignissen und Störungen immer einen Schritt voraus. SIGNL4 automatisiert Alarmierungsprozesse, liefert Alarme mobil und an die richtigen Personen zur richtigen Zeit und ermöglicht es Betriebsteams, von jedem Ort aus zu reagieren und kritische Störungen erfolgreich zu beheben.

Lerne mehr über SIGNL4 und starte Deinen 30-Tage-Test.