Redondance (ingénierie)

En ingénierie, la redondance est la duplication de composants ou de fonctions critiques d'un système dans le but d'augmenter la fiabilité du système, généralement sous la forme d'une sauvegarde ou d'une sécurité intégrée, ou pour améliorer les performances réelles du système, comme dans le cas de récepteurs GNSS ou traitement informatique multithread.

Dans de nombreux systèmes critiques pour la sécurité, tels que les commandes de vol électriques et systèmes hydrauliques d'aéronef, certaines parties du système de commande peuvent être triplées^[1], ce que l'on appelle officiellement la triple redondance modulaire (TMR). Une erreur dans un composant peut alors être annulée par les deux autres. Dans un système à triple redondance, le système comporte trois sous-composants, qui doivent tous trois tomber en panne avant que le système ne tombe en panne. Étant donné que chacun d'entre eux tombe rarement en panne et que les sous-composants sont censées tomber en panne indépendamment les unes des autres, la probabilité que les trois tombent en panne est calculée comme étant extraordinairement faible; elle est souvent compensée par d'autres facteurs de risque, comme l'erreur humaine. La redondance peut également être connue sous les termes de "systèmes de vote majoritaire" ^[2] ou "logique de vote"^[3].

Les nombreux câbles d'un pont suspendu sont une forme de redondance.

La redondance produit parfois moins, au lieu d'une plus grande fiabilité - elle crée un système plus complexe qui est sujet à divers problèmes, elle peut conduire à la négligence de responsabilité humaine, et peut conduire à des exigences de production plus élevées qui, en surchargeant le système, peuvent le rendre moins sûr^[4].

Redondance en plongée profonde

La redondance en plongée profonde est constituée par le doublement symétrique du matériel ou des dispositifs sensibles (machines, appareils, instruments, etc.) pour une même fonction vitale; de sorte qu'en cas de défaillance de l’un d'eux, la fonction vitale puisse être assurée.

Avec plusieurs appareils pour une fonction, la probabilité de défaillance simultanée sera bien inférieure à celle d’une seule machine. La probabilité de survenance d’un événement est convertie en degré de confiance ou de criticité.

Il est possible de choisir diverses formes de redondance :

La redondance symétrique
La redondance asymétrique
La redondance évolutive
La redondance modulaire

La redondance symétrique est réalisée avec deux choses semblables et opposées dans l'espace qui se correspondent point par point.

La redondance asymétrique permet de basculer d'un type de matériel à un autre.

La redondance évolutive fait qu'en cas de panne sur un système on isole la partie défaillante pour utiliser une autre partie du système.

La redondance modulaire est celle qui permet de dévier une panne d'un système sur un autre. Ex : le FCD (free flow control device).

Estimation coût/bénéfice

On peut calculer les gains en performance ou en fiabilité de l'ensemble constitué en tenant compte des caractéristiques propres à chacun des éléments. Les formules de calcul ne sont pas toujours simples : la capacité ou les performances conjuguées de trois composants identiques sont rarement égales au triple des possibilités d'un seul, mais elles peuvent être par exemple de l'ordre du double.

En revanche, la multiplication des composants permet d'augmenter la fiabilité de l'ensemble de manière très efficace, même avec assez peu d'exemplaires. Sous certaines conditions (composants banalisés, non inter-dépendants), le taux de panne d'un ensemble redondant est équivalent au produit des taux de panne de chacun des composants (généralement des nombres très inférieurs à 1, dont le produit est donc encore bien plus petit). Par exemple si chaque élément a une probabilité de panne toutes les mille heures (10^-3), avec deux éléments cette probabilité de panne complète chute à 1 panne pour 1 million d'heures (10^-6), avec trois à 1 panne pour un milliard d'heures (10^-9). On voit donc qu'il suffit d'assez peu d'exemplaires pour atteindre de très hauts niveaux de disponibilité.

Dans le contexte informatique où performances, capacités et fiabilité sont particulièrement recherchées, on peut citer en exemple (et la liste en pourrait être bien plus longue) pour aller du plus petit au plus grand :

les dipôles magnétiques sur une bande ou un disque, dont il faut qu'un certain nombre soient dans le même état pour être sûr qu'ils représentent une même valeur binaire (0 ou 1) et ainsi pouvoir être "reconnus" par la tête de lecture ;
les composants mémoire qui comportent souvent une part d'information redondante de manière à permettre de déceler voire de rectifier des erreurs (on parle de "parité mémoire") ;
les microprocesseurs que l'on double ou quadruple sur les petits serveurs, jusqu'à les disposer en matrice de plusieurs dizaines, centaines ou milliers dans des systèmes de très hautes performances (on parle d'architecture massivement parallèle) ;
les blocs d'alimentation électrique, pour que l'appareil concerné ne dépendent pas d'une seule prise de courant ;
les systèmes de stockage, dont les disques sont sujets à des erreurs ou des pannes fréquentes, et où l'on duplique ou on répartit l'information sur plusieurs disques de manière que la défaillance de l'un d'entre eux n'ait aucune conséquence ;
les ordinateurs eux-mêmes, dont on réplique la configuration (parfois à l'identique, parfois avec de petites variations) pour constituer des groupes ("clusters") se comportant comme un seul système de grande capacité ;
les connexions entre systèmes, afin de renforcer les chances que les données s'échangent malgré des erreurs ou pour en augmenter le débit ;
les systèmes informatiques complets voire la totalité d'un centre informatique, pour prévenir les conséquences d'un sinistre ou d'une panne générale.

Les éléments dupliqués sont parfois rigoureusement identiques, donc interchangeables ou banalisés, parfois délibérément différents pour éviter que, étant sensibles aux mêmes phénomènes, ils ne faillissent en même temps. De plus, on ajoute le plus souvent d'autres dispositifs de contrôle de façon à détecter la panne d'un composant et à le remplacer avant qu'une seconde panne ne menace plus sérieusement l'ensemble.

Il est question de redondance seulement si les objets multipliés exercent les mêmes fonctions, et ce sans dépendre les uns des autres. Leur influence mutuelle se limite en général à se répartir la charge de travail ou de données. Il peut néanmoins exister des interactions entre eux, comme l'effet de leur consommation électrique ou de dissipation de chaleur à l'intérieur d'un même appareil. Parfois ils exercent des contrôles sur l'activité de leurs voisins afin de se substituer à eux si ceux-ci sont manifestement hors d'usage, ou bien pour leur redonner vie s'ils sont redevenus opérationnels après un arrêt temporaire ou une panne. Parfois même un ou des exemplaires supplémentaires sont placés au repos, et ne sont mis en service que lorsque le besoin s'en fait sentir : secours d'un élément défaillant, charge de travail inhabituelle. Par extension on peut aussi considérer que des pièces de rechange constituent des éléments redondants.

Dans le cas de systèmes plus complexes (on emploie parfois le terme "à tolérance de pannes"), on peut être amené à dupliquer différents sous-ensembles. On les traite successivement en commençant par les éléments les moins fiables ; une fois multipliés, leur probabilité de panne étant devenue infime, la principale vulnérabilité est reportée sur un autre sous-ensemble que l'on duplique à son tour. Ce processus d'amélioration est généralement poursuivi :

tant que le surcoût est jugé rentable, c'est-à-dire tant que le bilan caractéristiques / prix augmente,
ou bien tant qu'on n'a pas atteint les niveaux (de capacité, performance ou fiabilité) recherchés.

Notes et références

(en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Redundancy (engineering) » (voir la liste des auteurs).

↑ Redundancy Management Technique for Space Shuttle Computers (PDF), IBM Research
↑ R. Jayapal, « Analog Voting Circuit Is More Flexible Than Its Digital Version » [archive du 3 mars 2007], elecdesign.com, 4 décembre 2003 (consulté le 1^er juin 2014)
↑ « The Aerospace Corporation | Assuring Space Mission Success », Aero.org, 20 mai 2014 (consulté le 1^er juin 2014)
↑ Scott D. Sagan, « Learning from Normal Accidents » [archive du 14 juillet 2004], Organization & Environment, mars 2004

Articles connexes

[1] Redundancy Management Technique for Space Shuttle Computers (PDF), IBM Research

[2] R. Jayapal, « Analog Voting Circuit Is More Flexible Than Its Digital Version » [archive du 3 mars 2007], elecdesign.com, 4 décembre 2003 (consulté le 1^er juin 2014)

[3] « The Aerospace Corporation | Assuring Space Mission Success », Aero.org, 20 mai 2014 (consulté le 1^er juin 2014)

[perr2004-4] Scott D. Sagan, « Learning from Normal Accidents » [archive du 14 juillet 2004], Organization & Environment, mars 2004

[1]

[2]

[3]

[4]