La panne massive de CrowdStrike oblige à repenser l’automatisation informatique

La panne de CrowdStrike survenue le 19 juillet nous rappelle avec force les risques inhérents à la trajectoire actuelle de l’automatisation des technologies de l’information.
Alors que les entreprises continuent de rechercher une plus grande efficacité grâce à l’automatisation, l’incident de CrowdStrike réitère le besoin pressant pour les experts de réévaluer l’équilibre entre la vitesse et la sécurité dans le déploiement des logiciels.

Comment la panne de CrowdStrike a cloué les compagnies aériennes au sol et coûté des milliards de dollars

Le 19 juillet, une mise à jour logicielle de routine de la plateforme de CrowdStrike a déclenché une crise informatique mondiale.
Des millions d’ordinateurs Windows sont tombés en panne simultanément, provoquant des perturbations généralisées qui se sont répercutées sur de nombreux secteurs d’activité.

Le secteur de l’aviation a sombré dans la tourmente, les compagnies aériennes étant contraintes d’immobiliser leurs vols, ce qui a entraîné des retards et des annulations en cascade.
Les systèmes bancaires se sont également effondrés, les applications critiques tombant en panne, ce qui a empêché les clients d’accéder à leurs comptes ou d’effectuer des transactions.

L’impact financier de cette panne a été stupéfiant.
On estime que les entreprises du Fortune 500 ont subi à elles seules des pertes dépassant les 5,4 milliards de dollars, ce qui englobe les coûts immédiats des temps d’arrêt et les répercussions à plus long terme, notamment les dommages causés à la réputation de la marque, à la confiance des clients et à la continuité des opérations.

Pour nombre de ces entreprises, la panne a été plus qu’un simple problème technique ; elle a été une leçon coûteuse sur les dangers d’une trop grande dépendance à l’égard de systèmes automatisés dépourvus de garanties suffisantes.

La dangereuse dépendance aux mises à jour des fournisseurs dans un monde obsédé par l’automatisation

L’incident CrowdStrike a réitéré l’inquiétude croissante au sein de l’industrie technologique : la forte dépendance à l’égard des mises à jour automatisées fournies par les fournisseurs.
Alors que les entreprises adoptent de plus en plus l’automatisation informatique, la commodité des mises à jour centralisées fournies par des fournisseurs tels que Microsoft est devenue à la fois une aubaine et une responsabilité potentielle.

Les mises à jour centralisées rationalisent les processus, réduisent les interventions manuelles et garantissent que les systèmes restent à jour avec les dernières fonctionnalités et les derniers correctifs de sécurité.

Cette confiance s’accompagne toutefois d’un coût caché.
Lorsqu’une mise à jour se passe mal, comme ce fut le cas avec CrowdStrike, les effets peuvent être immédiats et étendus, affectant non seulement une seule organisation mais potentiellement des millions d’utilisateurs à travers le monde.

L’hypothèse selon laquelle les mises à jour effectuées par des fournisseurs de confiance sont intrinsèquement sûres peut conduire à une certaine complaisance, laissant les organisations vulnérables à des défaillances catastrophiques.

Pourquoi une confiance aveugle dans l’automatisation pourrait-elle constituer votre plus grand risque informatique ?

Phil Fersht, PDG et analyste en chef de HFS Research, attire l’attention sur les dangers d’une confiance aveugle dans les mises à jour automatisées.
M. Fersht souligne que des problèmes de code, même mineurs, peuvent se transformer en perturbations massives lorsqu’ils sont propagés par des systèmes automatisés.
Cette confiance, souvent accordée à de grands fournisseurs de technologie bien établis comme Microsoft, peut créer un faux sentiment de sécurité.

Les organisations peuvent penser que, parce qu’elles traitent avec des entreprises réputées, les mises à jour proposées sont infaillibles – une croyance qui conduit à un dangereux niveau de complaisance, où les mesures critiques d’assurance qualité sont contournées ou minimisées, en supposant que le fournisseur a déjà couvert toutes les bases.

Les risques de l’automatisation dans l’informatique : ce que vous devez savoir

La tendance à l’automatisation des technologies de l’information n’est pas sans risque, comme l’a montré l’incident CrowdStrike.
Si l’automatisation offre plusieurs avantages, tels que l’efficacité, la cohérence et l’évolutivité, elle introduit également de nouveaux défis qui doivent être gérés avec soin et expertise.

Avantages et inconvénients de l’automatisation : Les leçons de la crise CrowdStrike

L’évolution vers l’automatisation informatique a commencé avec l’introduction d’utilitaires de gestion de paquets dans Unix et plus tard dans Linux, qui ont facilité la gestion des mises à jour de logiciels sur un grand nombre de systèmes.
Cette approche s’est imposée au fur et à mesure que les organisations reconnaissaient l’efficacité qu’elle apportait à leurs opérations informatiques.

La transition de Microsoft vers des solutions basées sur le Cloud, notamment avec Microsoft 365, a encore accéléré cette tendance, en offrant aux entreprises la promesse de mises à jour transparentes et automatisées fournies directement depuis le Cloud.

Cette commodité s’accompagne toutefois d’un cliché à double tranchant.
Si l’automatisation réduit la nécessité d’une intervention manuelle et garantit que les systèmes sont toujours à jour, elle signifie également que toute faille dans une mise à jour peut être rapidement déployée sur un grand nombre de systèmes.

La caractéristique même qui rend l’automatisation attrayante – sa capacité à reproduire les changements rapidement et de manière cohérente – peut devenir son plus grand inconvénient en cas de problème.
C’est ce qui rend l’incident CrowdStrike si préoccupant : une seule mise à jour défectueuse avait le pouvoir de faire tomber des systèmes à l’échelle mondiale en l’espace de quelques minutes.

Les conséquences d’une propagation rapide

John Annand, directeur de recherche chez Info-Tech Research, souligne que la vitesse à laquelle l’automatisation peut propager les changements est à la fois une force et une faiblesse.
Lorsque les mises à jour sont impeccables, cette rapidité permet aux organisations de rester sûres et à jour sans délai.

Mais lorsqu’une mise à jour contient des erreurs, cette même rapidité peut amplifier le problème, le propageant largement avant que quiconque n’ait la possibilité de réagir.

Les implications financières d’une propagation aussi rapide sont énormes.
Selon les données de Splunk, les temps d’arrêt informatiques coûtent aux entreprises américaines plus de 400 milliards de dollars par an, en raison des perturbations opérationnelles immédiates et des impacts à plus long terme sur la satisfaction des clients, la conformité aux réglementations et le positionnement concurrentiel.

Dans le cas de la panne de CrowdStrike, la vitesse à laquelle la mise à jour défectueuse s’est répandue a fait que les entreprises ont eu peu de temps pour réagir, ce qui a aggravé les dommages financiers et opérationnels.

Protéger votre entreprise contre de futures pannes informatiques

La panne de CrowdStrike a donné lieu à une réévaluation générale de la gestion et de la maintenance des systèmes informatiques.
Les entreprises reconnaissent désormais que si l’automatisation et la centralisation des mises à jour sont source d’efficacité, elles présentent également des risques qui doivent être gérés avec soin.

La conversation s’est orientée vers la protection des infrastructures informatiques contre les perturbations futures, vers l’amélioration et l’optimisation des processus internes et vers l’adoption de stratégies plus nuancées pour le déploiement de logiciels.

La nécessité d’une meilleure assurance qualité

L’assurance qualité (AQ) a toujours été une facette essentielle de la gestion informatique, mais l’incident CrowdStrike a renforcé son importance croissante à l’ère de l’automatisation rapide.

Les analystes soulignent que des processus d’assurance qualité robustes ne sont plus facultatifs ; ils sont essentiels au maintien de l’intégrité opérationnelle.
Les modèles traditionnels d’assurance qualité, qui impliquent généralement des tests et une validation de base, ne sont plus suffisants.
Dans l’environnement informatique actuel, qui évolue rapidement et où les mises à jour sont déployées en continu et à grande échelle, il faut des contrôles plus complets pour détecter les problèmes potentiels avant qu’ils ne dégénèrent en crises.

Les mesures internes d’assurance qualité doivent évoluer pour inclure des suites de tests automatisés, des tests de régression rigoureux et des pipelines d’intégration et de déploiement continus (CI/CD) permettant d’identifier les problèmes dès le début du processus de développement.

L’objectif est de créer un filet de sécurité à plusieurs niveaux qui détecte les erreurs à chaque étape, du développement au déploiement, afin de réduire le risque que des mises à jour défectueuses atteignent les environnements de production et affectent les utilisateurs finaux.

Les organisations devraient envisager d’adopter une approche plus conservatrice des mises à jour des fournisseurs, en retardant la mise en œuvre jusqu’à ce que des tests internes approfondis aient été effectués.
Les délais peuvent sembler contre-intuitifs dans un monde qui valorise la rapidité, mais il s’agit d’une précaution nécessaire pour éviter des pannes coûteuses.

Déploiement de canaris : Une stratégie pour prévenir les catastrophes informatiques

Le déploiement canarien est devenu une stratégie privilégiée pour limiter les risques associés aux mises à jour logicielles.
Cette technique consiste généralement à déployer les mises à jour auprès d’un petit groupe contrôlé d’utilisateurs avant de les diffuser à l’ensemble de la base d’utilisateurs.

Les entreprises peuvent contrôler les performances de la mise à jour dans un environnement réel, identifier les problèmes éventuels et procéder à des ajustements avant que la mise à jour n’atteigne un public plus large.

Le principal avantage du déploiement canarien est qu’il permet aux entreprises de détecter les problèmes potentiels à un stade précoce, réduisant ainsi le risque d’une perturbation généralisée.
Si un problème survient pendant la phase canari, il peut être résolu sans affecter l’ensemble de la base d’utilisateurs, ce qui limite l’ampleur des dommages potentiels.

Le déploiement Canary fournit également des données précieuses sur la façon dont une mise à jour interagit avec les différentes configurations et environnements du système, offrant ainsi des informations qui pourraient ne pas être apparentes lors des tests initiaux.
En fin de compte, cela aide les organisations à prendre des décisions plus éclairées sur le moment et la manière de procéder à un déploiement à grande échelle.

Réponse de CrowdStrike après la panne

À la suite de cette panne, CrowdStrike a pris des mesures pour rétablir la confiance de ses clients et éviter que des incidents similaires ne se reproduisent à l’avenir.
L’entreprise a annoncé une série de mesures visant à renforcer ses processus d’assurance qualité et ses stratégies de déploiement.

L’une des principales initiatives consiste à ajouter des tests de validation plus rigoureux à leurs procédures de mise à jour, y compris des tests de résistance dans diverses conditions pour s’assurer qu’elles fonctionnent comme prévu dans des environnements réels.

CrowdStrike met également en œuvre une stratégie de déploiement échelonné, qui consiste à diffuser progressivement les mises à jour plutôt que de les envoyer simultanément à tous les utilisateurs, à l’image du modèle de déploiement canari, afin de limiter l’impact de tout problème imprévu.

La réponse de CrowdStrike renforce l’importance de la transparence et de la communication en temps de crise.
L’entreprise a reconnu ouvertement le problème et a détaillé les mesures prises pour y remédier, dans le but de rétablir la confiance avec ses clients – un modèle pour d’autres organisations qui peuvent faire face à des défis similaires.

Comment la panne de CrowdStrike façonne de nouvelles pratiques de gestion informatique

Les retombées de la panne de CrowdStrike ont incité à repenser plus largement les pratiques de gestion des technologies de l’information.
Les entreprises sont désormais plus conscientes des risques potentiels liés à l’automatisation rapide et adaptent leurs stratégies en conséquence, ce qui témoigne d’une prise de conscience croissante du fait que si l’automatisation est source d’efficacité, elle doit être équilibrée par la prudence et un contrôle approfondi.

Pourquoi il est plus important que jamais de tester minutieusement les mises à jour ?

L’incident de CrowdStrike a entraîné une augmentation considérable de la rigueur avec laquelle les organisations testent les mises à jour logicielles avant leur déploiement.
Par le passé, les entreprises s’en remettaient souvent aux garanties données par les fournisseurs ou ne procédaient qu’à des tests minimaux avant de déployer les mises à jour.

Aujourd’hui, l’accent est davantage mis sur des tests complets, de bout en bout, qui incluent des scénarios du monde réel et des cas limites.

Les organisations adoptent des méthodologies de test plus sophistiquées, notamment des environnements de test automatisés capables de simuler un large éventail de conditions d’exploitation, ce qui permet de s’assurer que les mises à jour sont compatibles avec les systèmes existants et n’introduisent pas de nouvelles vulnérabilités.
Cette évolution vers des tests plus rigoureux s’explique par le fait que les coûts d’une panne dépassent de loin le temps et les ressources nécessaires à des tests approfondis.

Les entreprises investissent également dans des outils de test avancés qui s’intègrent à leurs pipelines CI/CD, permettant des tests continus tout au long du cycle de développement, ce qui garantit que les problèmes potentiels sont identifiés et résolus bien avant que les mises à jour n’atteignent la production.

Les jumeaux numériques, les données synthétiques et l’avenir des mises à niveau informatiques sûres

Face à la complexité croissante des environnements informatiques, les entreprises se tournent vers les modèles de jumeaux numériques et les données synthétiques dans le cadre de leurs stratégies de test et de gestion des risques.

Un jumeau numérique est une réplique virtuelle d’un système physique, qui permet aux organisations de simuler et de tester les mises à jour dans un environnement contrôlé avant de les appliquer à des systèmes réels, offrant ainsi un espace sûr pour explorer les impacts potentiels des mises à jour sans risquer de compromettre les opérations réelles.

Les données synthétiques, quant à elles, sont des données générées artificiellement qui imitent les données du monde réel.
Elles sont utilisées pour tester les systèmes dans de nombreux scénarios différents, y compris ceux qui sont difficiles à reproduire avec des données réelles.

L’utilisation de données synthétiques permet aux entreprises de soumettre leurs systèmes à des tests de résistance à un large éventail de problèmes potentiels, y compris ceux qui ne se produisent que dans des conditions rares ou extrêmes.

Phil Fersht souligne l’importance de ces outils pour prévenir de futurs incidents tels que la panne de CrowdStrike.
Les organisations peuvent utiliser des jumeaux numériques et des données synthétiques pour mieux comprendre comment les mises à jour vont interagir avec leurs systèmes, réduisant ainsi la probabilité de problèmes imprévus.
Cela favorise également l’amélioration continue, car les connaissances acquises lors des tests peuvent éclairer les stratégies de développement et de déploiement futures.

Repenser votre approche des mises à jour logicielles après l’échec de CrowdStrike

La panne de CrowdStrike a également incité les dirigeants à reconsidérer la rapidité avec laquelle ils adoptent les mises à jour, en particulier celles proposées par des fournisseurs tiers.
Dans le passé, de nombreuses entreprises se sont empressées de mettre en œuvre les mises à jour dès leur publication, poussées par le désir de rester à jour et sécurisées.
Aujourd’hui, il est de plus en plus admis que l’adoption immédiate n’est pas toujours la meilleure solution.

Les dirigeants sont encouragés à adopter une approche plus mesurée, en évaluant les avantages des nouvelles mises à jour par rapport aux risques potentiels – ce qui peut impliquer de retarder les mises à jour jusqu’à ce qu’elles aient été testées de manière approfondie en interne ou d’opter pour un déploiement progressif qui reflète le modèle de déploiement du canari.

Les entreprises doivent privilégier la sécurité opérationnelle à la rapidité si elles veulent réduire le risque de pannes et mieux contrôler leurs environnements informatiques.

Ce changement de stratégie reflète une tendance plus large vers une gestion informatique plus délibérée et plus réfléchie.
Alors que les entreprises continuent à relever les défis d’un monde de plus en plus automatisé, les leçons tirées de la panne de CrowdStrike constitueront un point de référence solide pour façonner les pratiques futures.

Dernières réflexions

En réfléchissant aux leçons tirées de la panne de CrowdStrike, posez-vous la question : La poursuite de l’automatisation par votre marque compromet-elle votre résilience opérationnelle ?
Dans un monde où la rapidité et l’efficacité sont une priorité, avez-vous mis en place suffisamment de garde-fous pour protéger votre entreprise contre les risques invisibles ?

Il est temps de réévaluer et de renforcer vos stratégies, car la prochaine panne informatique pourrait n’être qu’une simple mise à jour.

Tim Boesen

août 12, 2024

14 Min