Basculement

Redundancy Disaster Recovery Aviation IT

Basculement – Passage du Système Principal au Système de Secours

Le basculement est un concept central dans la conception et l’exploitation de systèmes résilients à haute disponibilité — notamment dans l’aviation, l’informatique, la distribution d’énergie et d’autres secteurs critiques. Cette entrée du glossaire explore la définition, les mécanismes, les configurations et le contexte réglementaire du basculement, et distingue cette notion d’autres stratégies de continuité comme le basculement automatique (failover) et la reprise après sinistre.

Redundant IT system with active and standby servers

Qu’est-ce que le Basculement ?

Un basculement est une opération planifiée et délibérée visant à transférer le contrôle du système, le traitement des données ou la fourniture de services d’un système ou composant principal vers un système de secours (en attente). Contrairement au basculement automatique (failover) — qui est réactif et déclenché par des défauts imprévus — le basculement est généralement lancé manuellement ou par une automatisation programmée, dans des buts tels que :

  • Maintenance de routine
  • Mises à niveau ou correctifs système
  • Audits ou contrôles de conformité
  • Tests de reprise après sinistre (DR)

Le basculement est conçu pour la continuité : les systèmes principal et de secours sont synchronisés avant le transfert, minimisant ou éliminant les interruptions et la perte de données. Par exemple, en informatique aéronautique, le basculement permet aux contrôleurs de transférer les opérations de gestion du trafic aérien vers un cluster de serveurs de secours lors de la maintenance, sans interruption des services critiques pour la sécurité. Les normes OACI (Organisation de l’aviation civile internationale), telles que l’Annexe 10 et le Doc 9854, exigent la redondance et la validation régulière du basculement pour les systèmes réglementés.

Caractéristiques principales

  • Planifié : Déclenché par des opérations de maintenance, des mises à niveau ou la conformité — non par des pannes.
  • Contrôlé : Les étapes sont coordonnées, validées et enregistrées.
  • Synchronisé : Le système de secours est à jour et prêt à prendre le relais.
  • Temps d’arrêt minimal : La transition est transparente, avec peu ou pas d’impact pour les utilisateurs.

Basculement vs. Basculement Automatique (Failover)

Le basculement automatique (failover) est un transfert automatique des opérations vers un système de secours en réponse à des défaillances imprévues — telles que des pannes matérielles, des plantages logiciels ou des coupures réseau. Il est déclenché par la surveillance de l’intégrité, des minuteries de surveillance ou des alarmes système, souvent en quelques secondes.

  • Basculement : Planifié, manuel/automatisé, utilisé pour des événements de routine ou de conformité.
  • Basculement automatique (failover) : Non planifié, automatique, utilisé lors d’incidents ou de pannes.

Dans les deux cas, le système de secours devient le nouveau principal, mais les déclencheurs, procédures et exigences réglementaires diffèrent. Les systèmes critiques en aviation et informatique doivent prendre en charge les deux mécanismes, avec des tests et une documentation approfondis.

Basculement dans l’Aviation et l’Informatique Critique

La redondance et le basculement sont les piliers de la sécurité et de la fiabilité dans l’aviation et l’informatique critique. Les normes OACI imposent que les systèmes supportant la navigation aérienne, la surveillance et les communications doivent :

  • Offrir la redondance pour éliminer les points de défaillance unique
  • Prendre en charge le basculement planifié avec un transfert de services transparent
  • Journaliser, documenter et tester régulièrement la capacité de basculement

Par exemple, les systèmes de contrôle du trafic aérien peuvent utiliser le basculement pour transférer les opérations entre des centres de données géographiquement séparés lors d’exercices de reprise après sinistre, sans perte de données ni interruption de service.

Configurations de Basculement

Actif-Actif

Dans une configuration actif-actif, deux systèmes ou plus fonctionnent simultanément et se partagent la charge de travail. Le basculement dans ce contexte peut impliquer une redistribution de la charge si un nœud est mis hors ligne pour maintenance.

  • Avantages : Débit maximal, aucun point de défaillance unique, transfert transparent.
  • Défis : Complexité, risque d’incohérence des données (split-brain), coût plus élevé.

Actif-Passif (Actif-En Attente)

Dans les configurations actif-passif (ou actif-en attente), le système principal gère toutes les opérations tandis que le secours reste synchronisé et prêt.

  • Avantages : Gestion plus simple, surveillance ciblée, utilisation réduite des ressources.
  • Défis : Le système de secours peut mettre quelques secondes à prendre le contrôle, engendrant un léger temps d’arrêt.

Clusters de Basculement

Les clusters de basculement sont des groupes de serveurs capables de transférer automatiquement les charges de travail entre les nœuds. Le basculement peut être manuel (pour les tests) ou automatisé (pour le basculement automatique).

  • Utilisés pour la gestion du trafic aérien, le traitement des données radar et les bases de données critiques.

Mécanismes de Basculement

Basculement Manuel

  • Piloté par un opérateur via une interface graphique, une ligne de commande ou des commutateurs physiques.
  • Nécessite des listes de vérification, une validation et une communication aux parties prenantes.

Basculement Automatisé

  • Orchestré par des scripts ou des outils de gestion, généralement selon un calendrier.
  • Inclut des précontrôles (synchronisation des données, santé du système), des notifications et une journalisation détaillée.

Étapes clés

  1. Validation : Vérifier que les systèmes principal et de secours sont sains et synchronisés.
  2. Notification : Informer les utilisateurs et parties prenantes du basculement programmé.
  3. Transfert : Promouvoir le système de secours en actif ; rétrograder ou mettre en attente l’ancien principal.
  4. Vérification : Confirmer que tous les services fonctionnent comme prévu sur le nouveau principal.
  5. Journalisation & Audit : Enregistrer toutes les actions pour la conformité et le dépannage.

Normes & Réglementations sur le Basculement

L’aviation et d’autres secteurs réglementés exigent le respect de normes internationales et nationales pour le basculement et la redondance :

  • OACI Annexe 10 : Redondance des systèmes de communication et de navigation.
  • OACI Doc 9854 : Procédures de migration de système, de basculement et de basculement automatique.
  • IEC 60947-6-1 : Normes pour les commutateurs de transfert automatique (ATS) dans les systèmes électriques.
  • Codes électriques nationaux : Exigences pour le transfert d’alimentation dans les installations critiques.

Des tests réguliers, une documentation et des pistes d’audit sont obligatoires pour la certification.

Concepts Associés

Système/Site de Secours (En Attente)

Un système de secours est un composant secondaire, synchronisé, prêt à prendre le relais en cas de basculement ou de basculement automatique. Les secours peuvent être locaux (même site) ou distants (reprise après sinistre), et leur état de préparation est validé par des exercices réguliers.

Système/Site Principal

Le système principal assure les opérations en direct et constitue la référence. Il réplique les données vers le secours et est surveillé pour sa santé et ses performances.

Commutateur de Transfert Automatique (ATS)

Un ATS transfère automatiquement les charges électriques d’une source principale vers une source de secours (comme un groupe électrogène) lors d’une coupure, garantissant la continuité dans les tours de contrôle, centres de données et hôpitaux.

Réplication

La réplication synchronise les données et l’état opérationnel entre les systèmes principal et de secours. Elle peut être synchrone (zéro perte de données) ou asynchrone (décalage possible).

Redondance

La redondance consiste à dupliquer des systèmes critiques afin d’éliminer les points de défaillance unique. Elle peut être matérielle, logicielle ou réseau et constitue une exigence réglementaire en aviation.

Reprise Après Sinistre (DR)

La reprise après sinistre regroupe les stratégies et processus pour restaurer les opérations après des perturbations majeures. Le basculement est un outil clé pour les exercices DR planifiés, tandis que le basculement automatique est utilisé lors d’incidents réels.

RTO & RPO

  • Recovery Time Objective (RTO) : Temps d’arrêt maximal acceptable après une perturbation.
  • Recovery Point Objective (RPO) : Perte de données maximale acceptable, mesurée comme le temps écoulé depuis la dernière réplication ou sauvegarde.

Exemple de Fonctionnement du Basculement

Dans un système de contrôle du trafic aérien :

  1. Une maintenance est programmée pour le cluster de serveurs principal.
  2. Les opérateurs initient un basculement via la console de gestion.
  3. Le cluster de secours, continuellement synchronisé, est promu en actif.
  4. Toutes les connexions et flux de données en direct sont redirigés sans interruption.
  5. Le principal d’origine devient secours, prêt pour un retour arrière.
  6. Les opérateurs valident l’état et enregistrent l’événement pour la conformité.

Bonnes Pratiques pour le Basculement

  • Contrôles préalables : Vérifier la synchronisation des données, la santé du système et informer les parties prenantes.
  • Automatisation : Utiliser des scripts ou des outils d’orchestration pour réduire les erreurs humaines.
  • Journalisation : Maintenir des pistes d’audit complètes.
  • Tests : Tester régulièrement les procédures de basculement et de basculement automatique.
  • Documentation : Tenir à jour et rendre accessibles les procédures.

Basculement dans d’Autres Secteurs

Bien que l’aviation impose des normes parmi les plus strictes, le basculement est essentiel dans :

  • Centres de données : Pour la continuité des serveurs, du stockage et des réseaux.
  • Santé : Pour les systèmes de maintien en vie et de surveillance.
  • Banque/Finance : Pour le traitement des transactions et la conformité.
  • Énergie/Services publics : Pour la gestion du réseau et les infrastructures critiques.

Conclusion

Le basculement est un processus planifié et contrôlé permettant aux organisations de maintenir une continuité opérationnelle lors des maintenances, mises à niveau ou événements de conformité. En veillant à ce que les systèmes de secours soient toujours prêts à assumer le rôle principal, le basculement minimise les risques d’interruption, de perte de données et de non-conformité réglementaire. Dans l’aviation et d’autres domaines critiques, le respect de normes strictes, des tests réguliers et une documentation rigoureuse sont incontournables pour la sécurité et la fiabilité opérationnelles.

Data center redundancy and switchover

Le basculement, associé au basculement automatique, à la redondance et à la reprise après sinistre, constitue l’ossature de la conception de systèmes résilients — permettant aux organisations d’offrir des services ininterrompus et hautement fiables face à des défis quotidiens ou extraordinaires.

Questions Fréquemment Posées

Quelle est la différence entre basculement et basculement automatique (failover) ?

Le basculement est une action planifiée, manuelle ou automatisée, visant à transférer les opérations vers un système de secours, généralement pour la maintenance ou les mises à niveau sans interruption inattendue. Le basculement automatique (failover) est un processus réactif et automatique déclenché par des défaillances ou interruptions du système, garantissant la continuité du service lorsque le système principal rencontre un problème.

Pourquoi le basculement est-il important dans l’aviation et les systèmes informatiques critiques ?

Le basculement assure le fonctionnement ininterrompu des systèmes critiques pour la sécurité lors des opérations de maintenance, de mises à niveau, de contrôles de conformité ou d'exercices de reprise après sinistre. Dans l’aviation, des réglementations strictes (comme les normes OACI) imposent la redondance et la validation régulière des capacités de basculement afin de garantir la sécurité des passagers et la fiabilité du service.

Comment les organisations assurent-elles un basculement réussi ?

Un basculement réussi nécessite des systèmes synchronisés, la réplication des données en temps réel, des contrôles de validation complets, des procédures détaillées et une documentation approfondie. Des scripts automatisés ou des outils d’orchestration peuvent coordonner le processus, et toutes les étapes sont consignées pour l’audit et la conformité.

Quels sont les risques si le basculement n'est pas correctement géré ?

Un basculement mal géré peut provoquer des interruptions de service, des pertes de données, la non-conformité réglementaire et des risques pour la sécurité — en particulier dans les secteurs réglementés comme l’aviation et la finance. Des tests rigoureux, une surveillance et une documentation permettent de réduire ces risques.

Quelles sont les configurations courantes pour le basculement et la redondance ?

Les configurations courantes incluent l’actif-actif (plusieurs nœuds gèrent les charges simultanément), l’actif-passif (un système de secours est prêt à prendre le relais) et les clusters de basculement. Le choix dépend des besoins de performance, du budget et des exigences réglementaires.

Renforcez la continuité de vos opérations

Découvrez comment nos solutions peuvent vous aider à mettre en œuvre des stratégies de basculement transparentes, à minimiser les interruptions et à répondre aux exigences réglementaires pour les systèmes critiques.

En savoir plus

Système de secours

Système de secours

Un système de secours, ou système redondant, est une architecture critique pour la sécurité qui garantit le fonctionnement continu des services vitaux en cas de...

6 min de lecture
Safety Disaster Recovery +4
Système de contrôle

Système de contrôle

Un système de contrôle gère, dirige ou régule le comportement et le fonctionnement d'autres systèmes ou processus à l'aide de dispositifs, d'algorithmes et de r...

7 min de lecture
Aviation Industrial Automation +4
Couloir

Couloir

Un couloir est un passage fermé en architecture ou une voie définie en géographie et en aviation, essentiel pour la circulation, la sécurité et la connectivité....

9 min de lecture
Architecture Building Code +4