Pourquoi votre entreprise a besoin d’un plan de reprise après sinistre solide comme le roc ?

Dans le monde des affaires d’aujourd’hui, les perturbations sont inévitables. Les catastrophes naturelles, les cyberattaques, les pannes de système et les erreurs humaines peuvent toutes entraîner des temps d’arrêt opérationnels. Sans un plan de reprise d’activité solide, ces interruptions peuvent entraîner de lourdes pertes financières, une atteinte à la réputation, voire la fermeture de l’entreprise.

Microsoft Azure offre des solutions complètes pour la planification du désamorçage. En s’appuyant sur les services basés sur le Cloud d’Azure, les entreprises peuvent protéger leurs activités contre ces événements imprévus. Azure offre des options évolutives, flexibles et fiables pour maintenir les fonctions essentielles en cas de sinistre, avec un minimum de temps d’arrêt et de perte de données.

Imaginez que vous perdiez votre centre de données : Voici comment rebondir

Imaginez : vous êtes à votre bureau, concentré sur les tâches de la journée, quand soudain, une vague de panique se répand dans le bureau. Les téléphones commencent à sonner et les voix inquiètes se font de plus en plus fortes. Le responsable informatique entre, visiblement stressé, et informe tout le monde que l’ensemble du centre de données de production est en panne. Ce scénario, bien que dramatique, n’est pas farfelu.

Un plan de reprise d’activité bien planifié et bien exécuté est essentiel pour maintenir les activités de l’entreprise et permettre une reprise rapide, en décrivant les étapes à suivre pour restaurer les systèmes, les applications et les données critiques.

Il identifie les risques potentiels, fixe les objectifs de rétablissement et établit des protocoles de communication et de coordination entre les équipes. Il s’agit essentiellement d’une feuille de route claire pour naviguer dans le chaos d’une catastrophe, ce qui permet de minimiser les perturbations opérationnelles et de maintenir la confiance des clients.

Élaborer un plan de reprise après sinistre à toute épreuve

Avant d’entrer dans les détails d’un plan DR expert, il est essentiel de poser les bonnes questions. Ces questions guident le processus de planification et permettent de s’assurer que le plan aborde tous les aspects critiques des activités de votre entreprise.

Que devez-vous protéger ?

Identifiez les actifs clés qui sont essentiels et fondamentaux pour votre entreprise. Il s’agit de l’infrastructure physique, comme les serveurs et les centres de données, et des actifs numériques, comme les applications, les bases de données et la propriété intellectuelle. Comprendre ce qui doit être protégé permet de hiérarchiser les ressources et les efforts lors d’une catastrophe.

Quelle est son importance pour les activités de l’entreprise ?

Évaluez l’importance de chaque actif dans le contexte des activités de votre entreprise. Déterminez quels sont les systèmes et les applications critiques et quels sont ceux qui peuvent tolérer un certain temps d’arrêt.

Des évaluations complètes aident à définir les objectifs de temps de récupération (RTO) et de point de récupération (RPO) pour chaque actif.

Le RTO indique le temps d’arrêt maximal acceptable pour un système, tandis que le RPO définit la perte de données maximale acceptable. Ensemble, ces mesures permettent de concevoir un plan de reprise après sinistre qui répond aux besoins de votre entreprise et minimise l’impact des perturbations.

Exemple pratique de plan de reprise après sinistre avec Azure

Application multi-tiers construite sur des machines virtuelles (VM)

Considérez une application multi-niveaux typique construite sur des machines virtuelles (VM), composée de plusieurs couches, chacune remplissant une fonction distincte essentielle à la performance globale de l’application.

  • Niveau Web : Ce niveau comprend trois machines virtuelles exécutant des services d’information Internet (IIS). Ces machines virtuelles traitent les requêtes web des utilisateurs et servent d’interface à l’application. La haute disponibilité est assurée par l’équilibrage de la charge, qui répartit le trafic entre les machines virtuelles afin d’éviter tout point de défaillance unique.
  • Niveau d’application : Le code personnalisé s’exécute dans cette couche, interrogeant la base de données du serveur SQL et formatant les résultats pour le niveau web. Cette couche est cruciale pour le traitement de la logique commerciale et doit être protégée pour maintenir l’intégrité opérationnelle.
  • Niveau de la base de données : Cette base de données SQL Server unique est un composant critique et a été identifiée comme un point de défaillance unique (SPOF). Toute perturbation à ce niveau peut paralyser l’ensemble de l’application, d’où la nécessité d’inclure des solutions robustes de basculement et de sauvegarde.
  • Service d’identité : Exécuté sur deux machines virtuelles dotées de services de domaine Active Directory (AD DS), ce service gère l’authentification et l’autorisation, garantissant ainsi un accès sécurisé à l’application.

Pour schématiser, les couches d’application sont placées sur plusieurs serveurs « bare metal » exécutant des hyperviseurs VMware, avec des répartiteurs de charge distribuant le trafic. Chaque couche doit être soigneusement planifiée pour la haute disponibilité et la reprise après sinistre afin de se prémunir contre les défaillances potentielles.

Principales informations à inclure dans un plan DR complet

Établissez une cartographie des équipes et des flux de données pour une reprise sans heurts.

Identifier les utilisateurs internes et externes pour configurer avec précision le DNS, l’identité et le réseau. La documentation de ces configurations garantit qu’en cas de catastrophe, les voies de communication sont claires et ininterrompues.

Par exemple, la connaissance précise des flux de données entrants et sortants permet de mettre en place des mécanismes de basculement appropriés et de maintenir la connectivité.

Connaître le propriétaire de l’entreprise à qui s’adresser pour obtenir l’autorisation de mise en œuvre du DR

L’identification du propriétaire de l’entreprise responsable de la demande est une priorité. Cette personne est le point de contact pour l’autorisation et la notification lors d’un sinistre. Elle doit être informée des spécificités du plan de reprise d’activité et avoir l’autorité nécessaire pour lancer les procédures de reprise d’activité.

Une communication claire avec le propriétaire de l’entreprise permet de prendre des décisions rapidement, ce qui minimise les temps d’arrêt et les perturbations opérationnelles.

Déterminez la tolérance de votre entreprise aux temps d’arrêt pour une reprise optimale.

Il s’agit de l’objectif de temps de récupération (RTO), qui indique la durée maximale acceptable pendant laquelle une application peut être hors ligne. Comprendre cela permet de sélectionner les stratégies et les technologies de désamorçage appropriées.

Par exemple, les applications ayant un RTO de quelques minutes nécessitent des solutions plus sophistiquées et potentiellement plus coûteuses que celles ayant un RTO de plusieurs heures.

Définissez vos limites de perte de données pour protéger les informations critiques

L’objectif de point de récupération (RPO) définit le niveau de perte de données que l’entreprise peut tolérer. Cette mesure est essentielle pour planifier les stratégies de sauvegarde et de réplication des données.

Par exemple, si le RPO est mesuré en secondes, une réplication continue des données peut être nécessaire.

En revanche, si le délai d’exécution est de quelques heures, des sauvegardes périodiques peuvent suffire. Le RPO choisi influence directement la conception du plan DR et les technologies déployées.

Identifier et atténuer efficacement les risques d’interruption de service

Les risques vont de problèmes mineurs tels que des requêtes de base de données erronées à des événements catastrophiques tels que des incendies de centres de données. La réalisation d’analyses quantitatives et qualitatives des risques permet de comprendre ces risques et de préparer des stratégies d’atténuation.

L’analyse quantitative évalue la probabilité et l’impact des risques en termes numériques, tandis que l’analyse qualitative les évalue en fonction de leur gravité et de leur probabilité. Ensemble, ces analyses forment un profil de risque complet qui sert de base au plan de désamorçage.

Évaluez l’impact sur la réputation des temps d’arrêt des applications.

Certaines applications peuvent n’être essentielles qu’à certaines périodes, comme les outils de reporting trimestriel, tandis que d’autres font partie intégrante des opérations quotidiennes. Comprendre cet impact permet d’établir des priorités dans les efforts de récupération.

Les décideurs doivent trouver un équilibre entre l’invocation immédiate d’un sinistre et le dépannage prolongé pour choisir la meilleure voie de reprise.

Par exemple, les applications ayant de graves conséquences sur la réputation nécessitent une attention immédiate et des mesures de réduction des risques plus robustes.

Choisissez le lieu de récupération idéal pour vos applications

L’identification d’un emplacement approprié pour la reprise des applications est une étape critique de la planification de la reprise après sinistre – elle a un impact sur la stratégie globale de reprise, le coût et l’efficacité.

Récupération dans un autre centre de données ou dans une salle informatique de bureau

La récupération dans un autre centre de données ou une autre salle informatique est une approche traditionnelle. Bien qu’elle permette de contrôler les actifs physiques et de les personnaliser, elle est souvent associée à des coûts élevés. Les dépenses comprennent l’achat de matériel, la maintenance de l’infrastructure et l’examen des mesures de sécurité.

Cette méthode peut également nécessiter d’importantes dépenses d’investissement pour l’espace, l’alimentation, le refroidissement et la mise en réseau. Cette option peut être pratique pour les entreprises disposant d’une infrastructure de centre de données existante, mais pour beaucoup d’entre elles, le coût et la complexité peuvent être prohibitifs.

Utilisez le cloud pour la récupération

La récupération basée sur le Cloud offre une alternative moderne, flexible et rentable. L’utilisation de services tels que Microsoft Azure pour la reprise après sinistre offre évolutivité, souplesse et facilité de gestion.

Le modèle « pay-as-you-go » d’Azure signifie que les entreprises ne paient que pour les ressources qu’elles utilisent, ce qui peut conduire à des économies plus importantes que la maintenance d’un centre de données physique.

Le cloud offre également des fonctions de sécurité améliorées et une conformité aux normes industrielles, ce qui en fait une option convaincante pour de nombreuses organisations. L’exploitation de la récupération dans le cloud ouvre des perspectives pour l’hébergement futur de charges de travail et le développement d’applications à l’aide de modèles de plateforme en tant que service (PaaS) ou de logiciel en tant que service (SaaS).

Guide étape par étape pour configurer votre application en vue d’une reprise après sinistre

1. Suivez le cadre d’adoption du cloud de Microsoft pour Azure.

Commencez par respecter le cadre d’adoption du cloud Microsoft pour Azure, qui fournit un ensemble complet de bonnes pratiques, de documentation et d’outils conçus pour aider les entreprises à atteindre leurs objectifs en matière d’adoption du cloud.

Ce cadre guide les organisations dans la définition de leur stratégie, la planification, la préparation, l’adoption, la gouvernance et la gestion de leur parcours dans le cloud. Cela devrait être marqué comme une priorité, car cela permet de s’assurer que tous les aspects de l’adoption du cloud sont systématiquement abordés, ce qui pose des bases solides pour la planification de la reprise après sinistre.

2. Configurez le serveur de configuration dans l’environnement VMware

Les serveurs de configuration constituent un point central pour la coordination de la réplication des données entre les machines virtuelles sur site et Azure. Installez le logiciel du serveur de configuration nécessaire et connectez-le à votre infrastructure VMware. Le serveur gère le processus de réplication afin que toutes les modifications apportées aux machines virtuelles sur site soient capturées avec précision et envoyées à Azure.

3. Créer un espace de stockage Recovery Services dans Azure

Un coffre-fort de services de récupération est une entité de stockage dans Azure utilisée pour conserver des données à des fins de sauvegarde et de reprise après sinistre. Pour créer l’espace de stockage, accédez au portail Azure, sélectionnez « Create a resource » (Créer une ressource) et recherchez « Recovery Services Vault » (Espace de stockage des services de récupération).

Suivez les invites pour configurer l’espace de stockage, notamment en sélectionnant l’abonnement, le groupe de ressources et la région appropriés. La chambre forte sera le dépôt central de vos données répliquées et de vos plans de récupération.

4. Configurez les machines virtuelles pour la réplication

Après avoir configuré l’espace de stockage des services de restauration, l’étape suivante consiste à configurer vos machines virtuelles pour la réplication. Installez l’agent Azure Site Recovery (ASR) sur chaque machine virtuelle à répliquer. Une fois l’agent installé, configurez les paramètres de réplication dans le portail Azure.

Spécifiez l’environnement source (vos machines virtuelles VMware sur site), l’environnement cible (Azure) et la politique de réplication, y compris la fréquence de réplication et les paramètres de conservation. Ainsi, toutes les modifications de données sont répliquées en permanence sur Azure, ce qui permet à votre environnement de reprise après sinistre de rester à jour.

Créez des plans de reprise d’activité infaillibles avec Azure Site Recovery

Configurer l’ordre de récupération des serveurs

Une fois vos machines virtuelles configurées pour la réplication, vous devez configurer l’ordre de récupération des serveurs. Cette étape ne doit pas être omise afin de s’assurer que les systèmes les plus critiques seront mis en service en premier en cas de sinistre. Utilisez la fonction de plans de reprise d’Azure Site Recovery pour spécifier l’ordre dans lequel les machines virtuelles doivent être démarrées.

Par exemple, démarrez d’abord le serveur de base de données, puis les serveurs d’application et enfin les serveurs web. Cette séquence permet de maintenir l’intégrité de l’application et de s’assurer que les dépendances sont correctement gérées.

Automatisez les actions avant et après la récupération à l’aide d’Azure Automation ou d’étapes manuelles.

Azure Site Recovery vous permet d’automatiser les actions avant et après la récupération afin de rationaliser le processus de basculement. Les actions de pré-récupération peuvent inclure des tâches telles que l’arrêt des services de manière gracieuse, tandis que les actions de post-récupération peuvent impliquer le démarrage de services ou la reconfiguration des paramètres du réseau.

Utilisez les runbooks d’Azure Automation pour scripter ces actions, afin qu’elles soient exécutées automatiquement au cours du processus de récupération. Il est également possible de définir des étapes manuelles si des interventions humaines spécifiques sont nécessaires.

Ajoutez des équilibreurs de charge et réacheminez le trafic à l’aide des modèles Azure Resource Manager (ARM) et Azure Traffic Manager.

Utilisez les modèles Azure Resource Manager (ARM) pour déployer et configurer automatiquement les équilibreurs de charge afin de définir l’infrastructure en tant que code, ce qui rend le déploiement reproductible et cohérent.

Configurez Azure Traffic Manager pour gérer le routage DNS. Le Traffic Manager dirigera le trafic des utilisateurs vers le site principal ou secondaire en fonction des contrôles de santé et des politiques de routage définies pour une disponibilité et une fiabilité élevées.

Tim Boesen

juin 24, 2024

13 Min