Redondance des matériels

Un article de Wikipédia, l'encyclopédie libre.
Aller à : navigation, rechercher

La redondance consiste à disposer plusieurs exemplaires d'un même équipement ou d'un même processus ou de tout autre élément participant à une solution électronique, mécanique ou industrielle. Selon les circonstances elle est utile :

  1. pour augmenter la capacité totale ou les performances d'un système,
  2. pour réduire le risque de panne,
  3. pour combiner ces deux effets.

Redondance en plongée profonde[modifier | modifier le code]

La redondance en plongée profonde est constituée par le doublement symétrique du matériel ou des dispositifs sensibles (machines, appareils, instruments, etc.) pour une même fonction vitale; de sorte qu'en cas de défaillance de l’un d'eux, la fonction vitale puisse être assurée.

Avec plusieurs appareils pour une fonction, la probabilité de défaillance simultanée sera bien inférieure à celle d’une seule machine. La probabilité de survenance d’un événement est convertie en degré de confiance ou de criticité.

Il est possible choisir diverses formes de redondance :

  1. La redondance symétrique
  2. La redondance asymétrique
  3. La redondance évolutive
  4. La redondance modulaire

La redondance symétrique est réalisée avec deux choses semblables et opposées dans l'espace qui se correspondent point par point.

La redondance asymétrique permet de basculer d'un type de matériel à un autre.

La redondance évolutive fait qu'en cas de panne sur un système on isole la partie défaillante pour utiliser une autre partie du système.

La redondance modulaire est celle qui permet de dévier une panne d'un système sur un autre. Ex : le FCD (free flow control device).

Estimation coût/bénéfice[modifier | modifier le code]

On peut calculer les gains en performance ou en fiabilité de l'ensemble constitué en tenant compte des caractéristiques propres à chacun des éléments. Les formules de calcul ne sont pas toujours simples : la capacité ou les performances conjuguées de trois composants identiques sont rarement égales au triple des possibilités d'un seul, mais elles peuvent être par exemple de l'ordre du double.

En revanche, la multiplication des composants permet d'augmenter la fiabilité de l'ensemble de manière très efficace, même avec assez peu d'exemplaires. Sous certaines conditions (composants banalisés, non inter-dépendants), le taux de panne d'un ensemble redondant est équivalent au produit des taux de panne de chacun des composants (généralement des nombres très inférieurs à 1, dont le produit est donc encore bien plus petit). Par exemple si chaque élément a une probabilité de panne toutes les mille heures (10-3), avec deux éléments cette probabilité de panne complète chute à 1 panne pour 1 million d'heures (10-6), avec trois à 1 panne pour un milliard d'heures (10-9). On voit donc qu'il suffit d'assez peu d'exemplaires pour atteindre de très hauts niveaux de disponibilité.

Dans le contexte informatique où performances, capacités et fiabilité sont particulièrement recherchées, on peut citer en exemple (et la liste en pourrait être bien plus longue) pour aller du plus petit au plus grand :

  • les dipôles magnétiques sur une bande ou un disque, dont il faut qu'un certain nombre soient dans le même état pour être sûr qu'ils représentent une même valeur binaire (0 ou 1) et ainsi pouvoir être "reconnus" par la tête de lecture ;
  • les composants mémoire qui comportent souvent une part d'information redondante de manière à permettre de déceler voire de rectifier des erreurs (on parle de "parité mémoire") ;
  • les microprocesseurs que l'on double ou quadruple sur les petits serveurs, jusqu'à les disposer en matrice de plusieurs dizaines, centaines ou milliers dans des systèmes de très hautes performances (on parle d'architecture massivement parallèle) ;
  • les blocs d'alimentation électrique, pour que l'appareil concerné ne dépendent pas d'une seule prise de courant ;
  • les systèmes de stockage, dont les disques sont sujets à des erreurs ou des pannes fréquentes, et où l'on duplique ou on répartit l'information sur plusieurs disques de manière à ce que la défaillance de l'un d'entre eux n'ait aucune conséquence ;
  • les ordinateurs eux-mêmes, dont on réplique la configuration (parfois à l'identique, parfois avec de petites variations) pour constituer des groupes ("clusters") se comportant comme un seul système de grande capacité ;
  • les connexions entre systèmes, afin de renforcer les chances que les données s'échangent malgré des erreurs ou pour en augmenter le débit ;
  • les systèmes informatiques complets voire la totalité d'un centre informatique, pour prévenir les conséquences d'un sinistre ou d'une panne générale.

Les éléments dupliqués sont parfois rigoureusement identiques, donc interchangeables ou banalisés, parfois délibérément différents pour éviter que, étant sensibles aux mêmes phénomènes, ils ne faillissent en même temps. De plus, on ajoute le plus souvent d'autres dispositifs de contrôle de façon à détecter la panne d'un composant et à le remplacer avant qu'une seconde panne ne menace plus sérieusement l'ensemble.

Il est question de redondance seulement si les objets multipliés exercent les mêmes fonctions, et ce sans dépendre les uns des autres. Leur influence mutuelle se limite en général à se répartir la charge de travail ou de données. Il peut néanmoins exister des interactions entre eux comme par exemple l'effet de leur consommation électrique ou de dissipation de chaleur à l'intérieur d'un même appareil. Parfois ils exercent des contrôles sur l'activité de leurs voisins afin de se substituer à eux si ceux-ci sont manifestement hors d'usage, ou bien pour leur redonner vie s'ils sont redevenus opérationnels après un arrêt temporaire ou une panne. Parfois même un ou des exemplaires supplémentaires sont placés au repos, et ne sont mis en service que lorsque le besoin s'en fait sentir : secours d'un élément défaillant, charge de travail inhabituelle. Par extension on peut aussi considérer que des pièces de rechange constituent des éléments redondants.

Dans le cas de systèmes plus complexes (on emploie parfois le terme "à tolérance de pannes"), on peut être amené à dupliquer différents sous-ensembles. On les traite successivement en commençant par les éléments les moins fiables ; une fois multipliés, leur probabilité de panne étant devenue infime, la principale vulnérabilité est reportée sur un autre sous-ensemble que l'on duplique à son tour. Ce processus d'amélioration est généralement poursuivi :

  • tant que le surcoût est jugé rentable, c'est-à-dire tant que le bilan caractéristiques / prix augmente,
  • ou bien tant qu'on n'a pas atteint les niveaux (de capacité, performance ou fiabilité) recherchés.

Voir aussi[modifier | modifier le code]

Articles connexes[modifier | modifier le code]