Fehlertoleranz bezeichnet die Fähigkeit eines technischen Systems, seine Funktion auch bei Auftreten von Fehlern oder Teilausfällen weiter aufrechtzuerhalten. Ein fehlertolerantes System bleibt also funktionsfähig, selbst wenn einzelne Komponenten versagen. Besonders sicherheitskritische Systeme (z. B. Notabschaltungen, Flugsteuerungen, Kraftwerkssteuerungen) müssen so ausgelegt sein, dass sie Fehler tolerieren können, um die Sicherheit von Menschen und Umwelt nicht zu gefährden.
In der funktionalen Sicherheit technischer Systeme wird der Begriff Hardware-Fehlertoleranz (HFT) verwendet, um die Fehlertoleranz auf Komponentenebene zu quantifizieren. Die Norm IEC 61508 definiert HFT als Kennzahl für sicherheitsbezogene Systeme. Formal bedeutet eine HFT = N, dass erst N+1 gleichzeitige Hardwarefehler zum Verlust der definierten Sicherheitsfunktion führen. Anders ausgedrückt: Ein System mit HFT = 0 kann bereits durch einen einzelnen Fehler ausfallen, während HFT = 1 bedeutet, dass ein Fehler noch abgefangen wird und erst beim zweiten Fehler die Sicherheitsfunktion versagt. Hohe Sicherheitsanforderungen erfordern folglich HFT > 0, was typischerweise durch redundante Hardware erreicht wird.
Bei der Hardware-Entwicklung spielt die Hardware-Fehlertoleranz eine entscheidende Rolle, weil sie eine wesentliche System-Kenngröße in der Auslegung von E/E/PE-Systemen darstellt. Die Wahl von Mikrocontrollern, Mikroprozessoren oder Logikbausteinen entscheidet zusammen mit konkreten Metriken über die System-Architektur der Hardware.
Architekturen der Hardware-Fehlertoleranz
Zur Realisierung von Hardware-Fehlertoleranz werden redundante Architekturen eingesetzt, die nach dem M-out-of-N-Prinzip (MooN) beschrieben werden. Eine MooN-Architektur bedeutet, dass von N parallel vorhandenen Kanälen mindestens M einwandfrei funktionieren müssen, damit die Gesamtfunktion erfüllt wird. Gängige Architekturbeispiele sind:
-
1oo1 (One out of One): Einkanalige Architektur ohne Redundanz (HFT = 0). Fällt dieser Kanal aus, versagt das gesamte System.
-
1oo2 (One out of Two): Zwei Kanäle, von denen einer ausreichen muss (HFT = 1). Falls ein Kanal ausfällt, bleibt der andere funktionsfähig.
- 2oo3 (Two out of Three): Drei Kanäle, von denen zwei einwandfrei arbeiten müssen. Ein Fehler wird toleriert (HFT = 1).
- 2oo4 (Two out of Four): Vier Kanäle mit Zweier-Voting, toleriert zwei Fehler (HFT = 2).
Ein weiteres wichtiges Konzept im Bereich der Hardware-Fehlertoleranz ist die Kennzeichnung von Systemen mit einem zusätzlichen D in der Architekturbezeichnung, wie 1oo2D oder 2oo4D. Das „D“ steht für Diagnose, was bedeutet, dass das System über erweiterte Mechanismen zur Fehlererkennung verfügt.
Bei 1oo2D beispielsweise handelt es sich um ein redundantes System mit zwei parallelen Kanälen, von denen einer ausreicht, um die Sicherheitsfunktion zu gewährleisten. Der entscheidende Unterschied zu einem normalen 1oo2-System ist, dass zusätzliche Diagnosetechniken eingesetzt werden, um Fehler aktiv zu detektieren. Dies führt zu einer höheren sicheren Fehlerfraktion (SFF), da erkannte Fehler in einem der Kanäle gezielt behandelt oder kompensiert werden können. Ein typisches Anwendungsbeispiel wäre eine Sicherheits-SPS, die interne Plausibilitätsprüfungen zwischen zwei parallelen Prozesspfaden durchführt.
Die folgende Grafik zeigt verschiedene Systemarchitekturen im Vergleich.
Verschiedene Systemarchitekturen im Vergleich
Die Wahl der Architektur beeinflusst das Sicherheitsniveau erheblich. Höhere Redundanz ermöglicht eine höhere HFT und steigert die Ausfallsicherheit. Ein weiteres wichtiges Konzept im Bereich der Hardware-Fehlertoleranz ist die Kennzeichnung von Systemen mit einem zusätzlichen D in der Architekturbezeichnung, wie 1oo2D oder 2oo4D. Das „D“ steht für Diagnose, was bedeutet, dass das System über erweiterte Mechanismen zur Fehlererkennung verfügt.
Bei 1oo2D handelt es sich um ein redundantes System mit zwei parallelen Kanälen, von denen einer ausreicht, um die Sicherheitsfunktion zu gewährleisten. Der entscheidende Unterschied zu einem normalen 1oo2-System ist, dass zusätzliche Diagnosetechniken eingesetzt werden, um Fehler aktiv zu detektieren. Dies führt zu einer höheren sicheren Fehlerfraktion (SFF), da erkannte Fehler in einem der Kanäle gezielt behandelt oder kompensiert werden können. Ein typisches Anwendungsbeispiel wäre eine Sicherheits-SPS, die interne Plausibilitätsprüfungen zwischen zwei parallelen Prozesspfaden durchführt.
Ein 2oo4D-System hingegen besitzt vier redundante Kanäle, von denen zwei für die Sicherheitsfunktion notwendig sind. Die eingebaute Fehlerdiagnose erkennt fehlerhafte Kanäle und kann sie isolieren oder eine gezielte Wartung empfehlen, bevor die Fehlertoleranz des Systems überschritten wird. Der Vorteil liegt in der erhöhten Verfügbarkeit und Sicherheit, da das System bis zu zwei Fehler tolerieren kann, während es weiterhin Diagnosedaten auswertet. Solche Architekturen werden in besonders kritischen Anwendungen eingesetzt, beispielsweise in Flugsteuerungssystemen oder in Kernkraftwerken, wo Redundanz mit intelligenter Fehleranalyse kombiniert werden muss.
Sichere Fehlerfraktion (SFF) und Systemzuverlässigkeit
Die Sichere Fehlerfraktion (Safe Failure Fraction, SFF) gibt an, welcher Anteil der möglichen Ausfälle eines Systems als ungefährlich eingestuft wird. SFF wird berechnet als:
SFF = (sichere Ausfälle + erkannte gefährliche Ausfälle) / alle Ausfälle
Ein hoher SFF-Wert bedeutet, dass das System Fehler entweder selbst erkennt oder dass sie harmlos bleiben. Dies reduziert die Wahrscheinlichkeit eines unentdeckten gefährlichen Fehlers. Systeme mit hohem SFF erfordern weniger Hardware-Redundanz, da eine hohe Diagnosedeckung einen Sicherheitsgewinn bietet.
Vergleich von Typ-A- und Typ-B-Systemen
In der funktionalen Sicherheit unterscheidet die IEC 61508 zwischen Typ A und Typ B Systemen, basierend auf der Komplexität und dem bekannten Fehlverhalten der Komponenten.
Typ A Systeme sind einfache sicherheitsbezogene Systeme oder Komponenten, bei denen alle möglichen Fehlermodi bekannt und das Ausfallverhalten vollständig vorhersehbar ist. Diese Systeme bestehen meist aus passiven oder bewährten elektromechanischen Komponenten, wie z. B. Relais, Ventilen oder einfachen Schaltern. Da ihre Fehlermechanismen gut verstanden sind, lassen sich ihre Ausfallwahrscheinlichkeiten mit hoher Sicherheit bestimmen. In der Regel können Typ A Systeme bereits mit einer geringeren Hardware-Fehlertoleranz (HFT) hohe SIL-Stufen erreichen.
Typ B Systeme sind komplexe sicherheitsbezogene Systeme oder Komponenten, bei denen mindestens eine Komponente ein nicht vollständig bekanntes Fehlverhalten aufweist. Dies betrifft vor allem Mikrocontroller, FPGA-basierte Schaltungen, komplexe Sensoren oder softwaregesteuerte Systeme, bei denen sich nicht alle möglichen Fehlerszenarien exakt vorhersagen lassen.
Unterscheidungsmerkmal | Typ A Systeme | Typ B Systeme |
---|---|---|
Definition | Einfaches System mit vollständig bekanntem Fehlverhalten | Komplexes System mit unbekanntem Fehlverhalten |
Typische Komponenten | Relais, Ventile, passive Bauelemente | Mikrocontroller, FPGAs, komplexe Sensoren |
Maximal erreichbare SIL-Stufen | Bis SIL 4 bei hoher Diagnosedeckung | Max. SIL 2 bei HFT = 0, höher mit Redundanz |
Erforderliche HFT | SIL 3 oft ohne Redundanz möglich | Höhere HFT notwendig für SIL 3-4 |
Typische Anwendungsbereiche | Mechanische Notabschaltungen, Relaissteuerungen | Sicherheits-SPS, Automotive-Steuergeräte, Prozessleittechnik |
Methoden zur Erhöhung der Hardware-Fehlertoleranz
Um die HFT zu steigern, werden folgende Methoden genutzt:
-
Redundanz: Mehrere unabhängige Komponenten, z. B. 1oo2- oder 2oo3-Architekturen.
-
Diversität: Nutzung unterschiedlicher Technologien für redundante Kanäle, um gemeinsame Ausfälle zu vermeiden.
-
Diagnosemechanismen: Permanente Selbsttests, Plausibilitätsprüfungen und Watchdog-Mechanismen.
-
Fail-Operational-Konzepte: Degradierter Weiterbetrieb bei Fehlern statt Abschaltung.
Fazit
Die Hardware-Fehlertoleranz (HFT) ist ein entscheidender Faktor für die Sicherheit und Verfügbarkeit technischer Systeme. Höhere HFT-Stufen werden durch redundante Architekturen realisiert, während Diagnosemaßnahmen (hohe SFF) zusätzlich die Sicherheit erhöhen. Die richtige Balance zwischen Redundanz und Verfügbarkeit bestimmt die Architekturwahl in sicherheitskritischen Anwendungen. Während Typ A Systeme einfache und bewährte Technik mit hoher Vorhersagbarkeit nutzen, erfordern Typ B Systeme eine ausgeklügelte Fehlererkennung und oft eine redundante Auslegung, um ein hohes Sicherheitsniveau zu gewährleisten.
Hardware-Fehlertoleranz bleibt ein zentraler Aspekt in der funktionalen Sicherheit und wird in Zukunft mit steigender Komplexität elektronischer Systeme eine noch wichtigere Rolle spielen.
Kommentieren