L’infrastructure technologique évolutive de Spotify

Spotify gère l’une des infrastructures numériques les plus avancées au monde. Au cœur de cette infrastructure se trouve une architecture microservicesLe système est divisé en parties indépendantes, chacune gérant une tâche spécifique. Cette conception donne à Spotify le contrôle. Les équipes peuvent créer, développer ou améliorer un service sans casser l’ensemble. Dans un environnement qui évolue rapidement, c’est ainsi que vous restez opérationnel et innovant sans vous encombrer de poids morts.

Java est leur principal langage de programmation. Il est fiable, fonctionne à grande échelle et dispose d’une prise en charge approfondie des cadres de travail. Spotify utilise le Spring Framework pour gérer les complexités des applications cloud. L’entreprise utilise également Scala, en particulier pour les parties du système où la programmation fonctionnelle facilite le traitement des données et le rend plus efficace. Node.js est utilisé pour des services plus légers où la concurrence est plus importante que les calculs lourds.

Les données circulent en temps réel. Apache Kafka rend cela possible. Il gère l’afflux constant d’actions des utilisateurs, qu’il s’agisse d’écouter une chanson, d’en sauter une ou d’aimer un album, sans délai. C’est ainsi que Spotify assure la fluidité de l’écoute lorsque 500 millions d’utilisateurs se connectent en même temps. Les données circulent rapidement entre les services et les utilisateurs obtiennent un retour d’information instantané. Derrière tout cela, Apache Cassandra assure le stockage des données à haute disponibilité. Il est conçu pour s’adapter à l’échelle, en particulier dans plusieurs régions. C’est important lorsque le monde s’attend à ce qu’il n’y ait pas de mise en mémoire tampon.

Sur le front-end, React gère l’apparence et l’interaction de Spotify. Redux et Sass le soutiennent, en équilibrant à la fois la gestion des états et le style. L’entreprise avait l’habitude de fonctionner sur Amazon Web Services, mais elle est passée à Google Cloud il y a une dizaine d’années. Cette transition a permis de centraliser la plateforme, d’en améliorer la cohérence et de la positionner pour l’informatique de pointe et l’analyse avancée des données.

Kubernetes s’occupe de tout, du déploiement de l’infrastructure à la gestion du cycle de vie. Grâce à la conteneurisation, Spotify s’assure que chaque microservice s’exécute là où il est le plus utile. Ils standardisent les déploiements dans tous les environnements sans avoir à se soucier de la configuration locale. Il s’agit d’une infrastructure capable de s’adapter à la pression et d’évoluer lorsque l’occasion se présente.

Toutes les plateformes utilisées par Spotify, Kafka, Cassandra, Kubernetes, ont été conçues pour fonctionner à grande échelle. Elles ont redéfini ce à quoi ressemble un backend de streaming en production. Et pour les dirigeants qui se concentrent sur la longévité des plateformes et la croissance du nombre d’utilisateurs, c’est un exemple clair de la manière dont les choix technologiques stratégiques permettent de dominer le marché.

Les migrations technologiques stratégiques ont permis une mise à l’échelle et une modernisation efficaces.

La mise à l’échelle est une décision opérationnelle. Spotify l’a bien compris en 2015 lorsqu’elle est passée de PostgreSQL à Cassandra. À l’époque, l’entreprise prenait en charge environ 35 millions d’utilisateurs. Un câble de données transatlantique reliant les centres de données de Londres et des États-Unis est tombé en panne. Certains ingénieurs ont soupçonné un requin. Ce qui importe, c’est la manière dont Spotify a réagi. Plutôt que de patcher un système fragile, l’entreprise a opté pour Cassandra, une architecture conçue pour s’adapter à l’échelle et à la fiabilité distribuée.

Cette migration n’était pas triviale. Mais leurs ingénieurs l’ont exécutée sans interruption de service à l’aide d’une méthode appelée « dark loading », où le nouveau système fonctionne en arrière-plan, reproduisant le trafic de production pour tester les fonctionnalités, tandis que la plateforme continue à fonctionner comme d’habitude. La transition a permis de gérer les demandes de données sans goulots d’étranglement et, plus important encore, a prouvé qu’ils étaient capables d’opérer des changements importants sous pression.

Leur approche des migrations est devenue systématique. Spotify ne voulait pas de temps d’arrêt ou de surprises. Au fil du temps, ils ont développé une méthodologie de migration formelle, identifié les priorités, produit le processus et l’a automatisé dans la mesure du possible. L’objectif était simple : aller vite, maintenir la stabilité et éviter de retarder les équipes chargées des produits. Depuis 2020, Spotify a franchi une étape supplémentaire en déplaçant des outils clés plus haut dans la pile logicielle, éliminant ainsi le besoin de migrations fastidieuses dans les couches inférieures de l’infrastructure.

En 2023, ils ont migré l’ensemble de leur système de construction iOS vers Bazel. Plus de 120 équipes étaient impliquées. Bazel offrait de meilleures performances et une plus grande cohérence entre les différentes versions. Cette migration était une question de contrôle. Le résultat est une plateforme mobile qui s’adapte mieux à la croissance des utilisateurs et aux cycles de développement internes.

Avant cela, en 2021, Spotify a reconstruit son application de bureau. Elle l’a alignée sur le lecteur Web afin d’unifier les deux équipes sous une même base de code. Cette décision a permis de réduire les cycles de développement, d’améliorer la cohérence du produit et de faciliter la gestion des améliorations multiplateformes. L’architecture de l’interface utilisateur basée sur des conteneurs a également permis à l’application de bureau et à l’application web de réutiliser les composants plus efficacement, ce qui a réduit les frais généraux et amélioré la vitesse de chargement.

Pour les équipes dirigeantes, c’est le modèle à suivre : les migrations doivent être stratégiques et non réactives. Spotify a mis en place un système dans lequel les mises à niveau de l’infrastructure ne paralysent pas l’organisation. Elle a intégré cette réflexion dans sa culture d’ingénierie. Elle a planifié la volatilité, s’est adaptée au changement et s’est concentrée sur les performances à fournir aux utilisateurs. C’est ainsi qu’ils ont continué à avancer, sans interruption.

L’architecture pilotée par les événements permet d’obtenir des recommandations personnalisées

Spotify propose l’une des expériences de contenu les plus personnalisées au monde. L’entreprise utilise des pipelines de données pilotés par les événements pour suivre chaque interaction de l’utilisateur en temps réel. Chaque lecture, saut ou création de liste de lecture est capturé comme un événement et traité par Apache Kafka. Cela signifie que Spotify n’attend pas d’analyser les données après coup, mais réagit au comportement de l’utilisateur au moment même où il se produit.

Ces événements sont diffusés en continu et stockés dans Apache Cassandra, une base de données distribuée conçue pour traiter des ensembles de données volumineux et simultanés. Cette infrastructure permet à Spotify de traiter simultanément d’énormes volumes de données d’interaction provenant de millions d’utilisateurs, sans latence ni problème d’intégrité des données. Grâce à cette configuration, Spotify ne saisit pas seulement les préférences des utilisateurs, mais aussi leurs intentions et l’évolution de leurs comportements.

Cette base en temps réel alimente ce que Spotify appelle en interne le « Profil de goût », un ensemble de données dynamique et spécifique à l’utilisateur, construit à partir de signaux comportementaux et de métadonnées provenant du contenu lui-même. Lorsqu’un utilisateur écoute des genres spécifiques, saute certaines pistes ou recherche de la musique d’un artiste moins connu, ces signaux sont enregistrés, pondérés et traduits en informations.

L’architecture supporte également les moteurs de recommandation adaptatifs de Spotify. Différentes fonctionnalités, comme Discover Weekly, Daily Mixes, ou AI DJ, puisent dans ce même ensemble de données événementielles mais appliquent des logiques de classement et de filtrage spécifiques. Discover Weekly se concentre davantage sur les nouvelles chansons qui correspondent au vecteur de goût de l’utilisateur. Daily Mix fait apparaître les préférences d’écoute établies, regroupées par genre. Le DJ IA tisse les préférences de l’utilisateur dans un flux régulier d’écoute contextuelle, qui s’adapte au fur et à mesure que les préférences sont mises à jour.

Pour les dirigeants qui s’intéressent à l’engagement envers les produits et à la fidélité des clients, c’est là que la valeur se construit. Les expériences personnalisées sont conçues à partir de systèmes fondamentaux qui capturent les comportements et les convertissent en recommandations. La conception technique de Spotify soutient la personnalisation et lui permet d’évoluer à grande échelle, ce qui lui confère un avantage concurrentiel certain dans l’économie de l’attention.

Des systèmes avancés d’analyse audio et de métadonnées améliorent la personnalisation de l’apprentissage automatique

Spotify ne s’appuie pas sur des suppositions pour comprendre la musique. Son système décompose les pistes en données mesurables, 12 mesures sonores distinctes qui capturent le rythme, la tonalité, l’énergie et d’autres caractéristiques audio clés. Il ne s’agit pas d’étiquettes superficielles. Ils sont générés par l’analyse du signal audio brut lui-même. C’est ainsi que Spotify transforme le son en données structurées.

Vient ensuite le langage. Spotify applique des modèles de traitement du langage naturel (NLP) pour analyser les paroles, extraire les signaux des titres des listes de lecture et évaluer le texte Web associé aux chansons et aux artistes. Cela signifie que Spotify peut comprendre les sentiments, les thèmes et les liens avec le public, au-delà des propriétés audio. Ensemble, les données sonores et les sorties NLP se fondent dans des couches de métadonnées riches attribuées à chaque élément de contenu.

Ces informations sur le contenu sont ensuite combinées avec les données d’interaction de l’utilisateur en temps réel, pour former ce que Spotify appelle un Profil gustatif. Ces profils ne sont pas statiques. Les modèles d’apprentissage automatique les mettent à jour en permanence en fonction des habitudes d’écoute, de la fréquence, de l’intensité de l’engagement et de l’évolution des préférences individuelles au fil du temps. Ce profil existe pour chaque utilisateur et sous-tend toutes les recommandations personnalisées sur la plateforme.

En 2024, Spotify est allé plus loin en créant un système d’annotation utilisant l’IA générative. Avec des millions de chansons, de vidéos et de podcasts sur la plateforme, l’étiquetage manuel n’est pas adapté. Ce système a automatisé l’étiquetage interne, augmentant la précision des métadonnées et accélérant l’entraînement des modèles d’apprentissage automatique en aval. Le résultat est une personnalisation plus intelligente et plus adaptative qui prend en charge l’ensemble des contenus de Spotify, non seulement la musique mais aussi tous les formats de streaming.

Pour les dirigeants, il s’agit d’une application directe de l’apprentissage automatique à l’échelle de l’infrastructure. Le système de Spotify ne se contente pas de filtrer en fonction des écoutes précédentes, il apprend comment les utilisateurs se connectent au contenu et s’adapte en temps quasi réel. L’investissement dans l’analyse audio, le NLP et les annotations basées sur l’IA crée un riche patrimoine de données qui alimente l’amélioration continue, et non la dépendance à l’égard d’algorithmes statiques. Cette approche soutient l’engagement de l’utilisateur et positionne l’entreprise à l’avant-garde de l’intelligence du contenu de nouvelle génération.

Spotify emballé comme une vitrine de l’innovation en matière de traitement et de visualisation des données à grande échelle

Spotify Wrapped est plus qu’une campagne destinée aux utilisateurs, c’est une démonstration d’échelle contrôlée dans les opérations de données. Chaque année, l’entreprise traite des milliards d’interactions avec les utilisateurs afin de générer un récapitulatif personnalisé pour chaque auditeur. En interne, ce processus est considéré comme le flux de travail analytique le plus gourmand en ressources de l’entreprise. Et pourtant, il est livré globalement sans interruption, à temps, à la fin de chaque année civile.

En 2020, Spotify a optimisé ce processus en adoptant la méthodologie Sort Merge Bucket (SMB). Il s’agit d’une technique de tri des données conçue pour gérer plus efficacement les grands ensembles de données, en particulier sur les plateformes informatiques distribuées. Au lieu de retraiter les données lues en double ou d’analyser à nouveau les journaux d’événements encombrés, la méthode SMB permet un regroupement trié et un partitionnement indexé. Les ingénieurs de Spotify l’ont intégré à Apache Beam via Scio, leur API Scala, afin de modulariser et de rationaliser l’exécution.

Le résultat final : une réduction significative des coûts de traitement et de l’utilisation des ressources, sans sacrifier le détail des résultats. Wrapped 2020 a prouvé que des résumés de données animés et personnalisés à l’échelle mondiale pouvaient être réalisés plus rapidement et de manière plus rentable. Ce succès a établi une nouvelle norme interne pour les travaux de traitement de données par lots à grande échelle et reste d’actualité pour les années suivantes.

Mais Spotify ne s’est pas arrêté aux données. Les développeurs ont conçu la couche de diffusion visuelle de Wrapped avec la même précision. En 2022, ils ont introduit les Personnalités d’écoute pour classer les utilisateurs dans l’un des seize segments comportementaux, des archétypes clairs et fondés sur des données dérivées de l’activité de l’utilisateur et des modèles musicaux. En 2023, ils ont fait progresser le pipeline de déploiement en incorporant Lottie pour gérer le rendu des animations sur toutes les plateformes. Lottie a permis une gestion des fichiers et une lecture des médias plus efficaces, favorisant des expériences visuelles plus riches sans compromettre les performances.

La personnalisation est encore plus poussée en 2023. Les animateurs et les développeurs frontaux ont travaillé en synchronisation pour construire des séquences d’introduction réutilisables, qui ont ensuite été dynamiquement associées à des animations spécifiques à l’utilisateur en fonction des données d’écoute individuelles. Cette architecture a permis à Spotify d’offrir une personnalisation massive avec une stabilité de niveau production sur iOS, Android et le web.

Pour les dirigeants de C-suite, ce que Spotify Wrapped prouve, c’est que l’engagement des clients à grande échelle ne provient pas du volume de données brutes, mais d’une clarté technique et d’un déploiement précis. La visibilité et la portée de Wrapped ne sont possibles que parce que chaque couche du système, du traitement par lots à la diffusion de l’interface utilisateur, est étroitement calibrée. Cet alignement entre l’infrastructure et la connexion avec le public est ce qui transforme la performance du backend en valeur marchande mesurable.

Les contributions des développeurs font partie intégrante des opérations de base et des innovations destinées aux utilisateurs.

Chez Spotify, les ingénieurs façonnent les expériences les plus visibles. Leur rôle va bien au-delà de la maintenance de l’infrastructure. Les développeurs contribuent directement à la façon dont les fonctionnalités sont conceptualisées, construites et fournies aux utilisateurs à grande échelle. La capacité de Spotify à unifier les performances du back-end avec la conception du front-end découle de cette structure interne, où l’ingénierie contribue à la fois à l’efficacité du système et à l’engagement des utilisateurs.

Cela est apparu clairement lors de la refonte de l’application de bureau en 2021. Les ingénieurs de Spotify ne se sont pas contentés de remanier le code, ils ont réuni le web et le bureau dans un même cadre technique et organisationnel. Ils ont établi une base de code commune qui permet aux deux plateformes de partager des composants, ce qui accélère les déploiements et réduit la fragmentation. Les modules d’interface utilisateur conteneurisés permettent aux développeurs d’envoyer des mises à jour plus rapidement, avec moins de frais généraux, ce qui améliore l’application des règles en termes de performances et de cohérence entre les plateformes.

Les équipes d’ingénieurs ont également été directement impliquées dans la livraison des visuels Spotify Wrapped en 2023. Elles ont travaillé avec les animateurs pour mettre en œuvre les animations Lottie, un format de fichier efficace qui permet une lecture évolutive et performante sur tous les appareils. Ces capacités techniques ont permis à la plateforme de fournir des animations partagées et spécifiques à l’utilisateur sans nécessiter de développement personnalisé pour chaque utilisateur. Cela a permis d’améliorer les délais de livraison et de réduire la pression exercée sur la plateforme lors du déploiement.

Ces contributions mettent en évidence l’intérêt de confier aux ingénieurs la responsabilité de la prise de décision sur les fonctionnalités essentielles du produit. Leur travail sur l’infrastructure d’apprentissage automatique, l’architecture pilotée par les événements, les outils d’interface utilisateur et l’analyse en temps réel donne à Spotify un avantage complet. Cette implication verticale, de l’ingestion de données à la narration visuelle, permet de s’assurer que les fonctionnalités de Spotify sont à la fois techniquement solides et émotionnellement pertinentes.

Pour les dirigeants qui se concentrent sur la vélocité des produits et la capacité des plateformes, le modèle de Spotify montre ce qu’il est possible de faire lorsque les ingénieurs sont intégrés à chaque couche de l’exécution. Leur impact va bien au-delà de la livraison de code – ils définissent l’avantage concurrentiel en construisant des systèmes qui répondent en temps réel, personnalisent en profondeur et se connectent à travers les plateformes sans friction. C’est ce qui permet à Spotify de rester pertinent, évolutif et différencié.

Principaux enseignements pour les décideurs

  • Construisez pour passer à l’échelle à partir du cœur : L’architecture modulaire des microservices de Spotify, alimentée par des technologies telles que Kafka, Cassandra et Kubernetes, permet une diffusion en continu à l’échelle mondiale avec une faible latence. Les dirigeants qui supervisent l’infrastructure de la plateforme devraient investir très tôt dans la conception d’un backend prêt pour l’échelle afin de réduire la fragmentation et d’améliorer le temps de fonctionnement.
  • Faites des migrations une compétence de base : Les migrations proactives de Spotify – de PostgreSQL à Cassandra et Bazel – ont permis de réduire les temps d’arrêt et de débloquer l’évolutivité future. Les directeurs techniques doivent intégrer des pratiques de migration structurées et peu contraignantes pour maintenir l’agilité et la viabilité technologique à long terme.
  • Exploitez les données en temps réel pour favoriser la personnalisation : Spotify capture les événements des utilisateurs en temps réel via Kafka pour mettre à jour les profils de goût individuels en continu. Les décideurs devraient donner la priorité aux architectures pilotées par les événements pour permettre une personnalisation adaptative et accroître l’engagement des utilisateurs.
  • Utilisez des systèmes de ML qui évoluent avec le comportement de l’utilisateur : En combinant des mesures audio granulaires, du NLP et des modèles d’utilisation, Spotify personnalise le contenu avec une profondeur sans précédent. Les chefs de produit doivent s’assurer que leurs entrées de ML couvrent à la fois les données de l’utilisateur et les métadonnées du contenu pour améliorer la pertinence des recommandations.
  • Traitez le traitement et la diffusion des données comme une expérience unifiée: Spotify Wrapped réussit non seulement grâce à l’analyse, mais aussi grâce à un flux de données optimisé (SMB) et à des visuels multiplateformes (animations Lottie). Les dirigeants devraient aligner étroitement les pipelines de données de backend avec les couches de présentation orientées client pour des campagnes à fort impact.
  • Donnez aux ingénieurs les moyens de s’approprier l’impact interfonctionnel : Les développeurs de Spotify façonnent l’infrastructure du minerai et les expériences utilisateur clés telles que Wrapped et les améliorations de l’interface utilisateur. Les dirigeants devraient structurer les équipes pour qu’elles s’approprient à la fois les systèmes dorsaux et les résultats des produits, afin d’accélérer l’innovation et l’alignement des produits.

Alexander Procter

avril 11, 2025

17 Min