Bonnes pratiques

Comment rendre robuste son programme de continuité d'activité ?

Créé le

05.11.2009

-

Mis à jour le

23.03.2011

Quels sont les moyens d'assurer un niveau d'activité maximal ? Certaines fonctions (services en ligne, règlements interbancaires, autorisations de paiement par carte?) ne peuvent en effet souffrir d'interruption. Un début de réponse en quelques recommandations.

La réglementation bancaire française a défini en 2004 le plan de continuité de l’activité comme “un ensemble de mesures visant à assurer, selon divers scénarios de crises, y compris face à des chocs extrêmes, le maintien, le cas échéant de façon temporaire selon un mode dégradé, des prestations de services ou d’autres tâches opérationnelles essentielles ou importantes de l’entreprise puis la reprise planifiée des activités”. Depuis cette date, des investissements informatiques et des organisations du travail ont permis d’atteindre un niveau de continuité que l’on peut qualifier de robuste. Il peut être caractérisé par la nonperception d’un mode dégradé de fonctionnement en cas de survenance d’un sinistre.

Des services obligatoires

En s’inspirant des meilleurs exemples de la profession, il est possible d’apporter des recommandations pour atteindre un niveau maximal dans la continuité d’activité. Ceci concerne les systèmes qui ne peuvent pas souffrir d’interruption soit parce que leurs bénéficiaires ne le supporteraient pas, soit parce qu’ils sont soumis à des échéances impératives. C’est le cas de certains services bancaires en ligne – autorisation de paiement par carte, services sur Internet… – et des applications critiques – règlements interbancaires avec cut-off ou versements de prestations sociales. Pour ces cas, les notions classiques [1] en continuité d’activité de délai de reprise ou de pertes de données ne conviennent plus, puisqu’aucune interruption ne doit se produire. L’objectif à atteindre exclut coupure de service et perte de données. L’architecture informatique à mettre en place et les ressources humaines qui l’utilisent, doivent être organisées d’une manière adaptée.

Les systèmes informatiques

Concernant les systèmes informatiques et leurs implantations géographiques, l’état de l’art permet aujourd’hui de disposer de systèmesactifs/actifs à distance. Il existe différents niveaux de secours entre deux centres informatiques, de la duplication synchrone des données pour les sites distants de plusieurs dizaines de kilomètres à la duplication asynchrone pour les sites distants de plusieurs centaines de kilomètres. L’objectif à retenir est la solution qui supporte l’arrêt putal non anticipé d’un des deux centres. Le service est dégradé du point de vue informatique, mais l’utilisateur ne ressent pas de perturbation car il reste servi, de manière totalement transparente, par le centre actif. L’architecture télécom et réseau doit avoir été conçue pour supporter un tel fonctionnement.

Réduire la dépendance aux ressources indispensables

Pour chaque centre, il convient de veiller à réduire sa dépendance aux ressources de fonctionnement indispensables. C’est un principe général de la continuité d’activité qui est ici rappelé. Par exemple pour l’énergie électrique, l’existence de groupes électrogènes est le moyen classique de parer à une panne ou coupure électrique ; y est associée une gestion du combustible nécessaire (réserves, durée de fonctionnement, réapprovisionnement…). La durée de fonctionnement en autonomie est un indicateur à suivre en continu. Pour les télécommunications, plusieurs points d’accès à des centraux de télécommunications différents, des sorties multiples, sont recommandés. Le recours à plusieurs opérateurs est nécessaire. Ceux-ci doivent s’engager contractuellement sur la continuité de leur service. La réalité des doubles liens physiques est à vérifier.

La localisation des sites

Outre la prise en compte des contraintes économiques et techniques, la localisation des sites s’effectue après une analyse de risques. Individuellement, chaque site doit éviter certaines proximités : lieux possibles d’accidents graves (chimique sur autoroute, chute d’aéronef…) ou de blocages divers (périmètres de sécurité, manifestations publiques…). Il faut aussi veiller à ne pas renforcer une concentration locale qui pourrait souffrir d’un sinistre commun aux conséquences d’autant plus fortes. Entre les sites, il convient de supprimer des risques partagés. Une grande distance entre sites est une solution, mais elle est coûteuse du fait d’un besoin de compenser par des amplificateurs les pertes en puissance des signaux de télécommunications. Pour des distances plusréduites (jusqu’à 20 km sans amplification selon la technologie retenue), il faut éviter de partager un même risque. Il convient par exemple d’écarter les probabilités de pannes électriques ou télécom simultanées, de veiller à ce que les sites ne soient pas concernés par les mêmes perturbations de transports, un même risque d’inondation…

Dans tous les cas, les applications doivent rester ergonomiques, donc conserver de bons temps de réponse, or la distance et la synchronisation (c’est-à-dire lorsque l’application ne se poursuit qu’après la confirmation de l’écriture sur le disque à distance) influencent les temps de réponse.

En cas de sinistre sur un site, rester en fonctionnement prolongé sur un seul site constituerait une situation périlleuse. L’architecte complète suppose donc une solution de reconstitution de l’environnement informatique.

Un principe général de maîtrise du risque pour les centres de calcul est d’en diminuer l’attractivité aux personnes mal intentionnées, en veillant à leur discrétion. L’un des centres peut être situé dans un lien tenu secret pour tous ceux, nompeux, qui n’ont pas à en connaître.

Les ressources humaines

Les ressources humaines associées aux activités exigeant cette robustesse incluent les gestionnaires des centres informatiques, mais aussi tous les utilisateurs d’applications critiques.

Pour les informaticiens, des possibilités de contrôle et pilotage à distance existent, ce qui donne autonomie et liberté d’action dans le temps et l’espace. Un équilipe doit être recherché entre la facilité d’intervention et son contrôle. Il faut éviter une concentration de savoirs ou d’actions sur un “homme clé” sans démultiplier les possibilités d’actions avec un risque de perte de maîtrise (tropde droits de haut niveau accordés).

Pour les utilisateurs d’applications critiques, on doit anticiper des défaillances concernant leur lieu de travail, dues à des sinistres classiques, et leurs effectifs, du fait de compétences concentrées et du risque sanitaire. Comme pour les centres informatiques, la solution la plus adéquate est de dupliquer les ressources et de les faire fonctionner au même niveau d’activité. C’est la solution dite de dual office : elle consiste à disposer de bureaux dans des lieux différents, qui ne sont pas exposés aux mêmes risques, où des équipes équivalentes se partagent les tâches à effectuer dans toute leur diversité.

L’entretien d’une réelle “substituabilité” des équipes peut nécessiter des rencontres régulières, des permutations du lieu de travail… Pour toutes les ressources humaines, l’atteinte d’une robustesse collective suppose pour chacun un certain degré de polyvalence [2] et la mise en place d’un système de suppléance pour toutes les tâches essentielles. Le principe de la réduction de la “durée de la période en risque”, lorsqu’un sinistre ou une défaillance apparaît, conduit aussi pour les ressources humaines en prévoir un troisième niveau de reprise. Ce second suppléant peut supporter un certain délai pour être pleinement opérationnel, contrairement au premier. Compte tenu du coût de l’entretien d’un vrai système dual, le déplacement ou l’éclatement des ressources humaines sur plusieurs sites peut se faire en réaction à un sinistre. Cette formule de split operations est toutefois à préparer soigneusement bien à l’avance, pour lui donner toute la réactivité indispensable à la continuité d’activité.

1 Pour les définitions et nuances entre RTO – recovery time objective, DIMA – délai d’interruption maximal admissible, RPO – recovery point objective et PDMA – perte de données maximale admissible, voir le lexique du Club de la continuité d’activité : www.clubpca.eu 2 Cf. en France recommandation de la Direction générale du travail, circulaire du 18 décembre 2007.

À retrouver dans la revue
Revue Banque Nº718
Notes :
1 Pour les définitions et nuances entre RTO – recovery time objective, DIMA – délai d’interruption maximal admissible, RPO – recovery point objective et PDMA – perte de données maximale admissible, voir le lexique du Club de la continuité d’activité : www.clubpca.eu
2 Cf. en France recommandation de la Direction générale du travail, circulaire du 18 décembre 2007.