Transition de Ruby on Rails vers Java et Scala
Twitter n’a pas été conçu pour rester petit. Il a été lancé sur Ruby on Rails parce qu’il lui permettait d’accéder rapidement au marché. Au début, il était efficace. Mais en 2009, l’utilisation est montée en flèche et la croissance a augmenté de 1 444 % en un an. Le temps moyen passé par les utilisateurs a augmenté de 175 %.
Rails ne pouvait pas évoluer dans la mesure nécessaire. L’architecture entraînait des temps d’arrêt et les utilisateurs voyaient davantage la « baleine de l’échec » que les tweets. Twitter devait agir rapidement. L’entreprise a donc migré le cœur de sa plateforme hors de Ruby. Ils ont construit de nouveaux composants en Java, puis en Scala, fonctionnant sur la machine virtuelle Java (JVM). Cela leur a permis de pousser les performances bien au-delà des limites de Rails.
Qu’est-ce qui a changé ? Le débit des requêtes a été déterminant. Avant la reconstruction, Twitter traitait 200 à 300 requêtes par seconde et par serveur. Avec la migration Java, ce chiffre est passé à 10 000-20 000 requêtes par seconde. Vous ne pouvez pas obtenir ce type de performances sans modifier sérieusement l’architecture.
Il a fallu une équipe très disciplinée pour y parvenir. Twitter a également fait appel à Apache Mesos pour une meilleure gestion des ressources. Et oui, cela a fonctionné. La « baleine de l’échec » a fini par disparaître. Twitter l’a officiellement retirée en 2015.
Si vous dirigez une entreprise technologique axée sur la croissance, posez-vous la question suivante : votre pile est-elle réellement prête à évoluer ? Si la demande des utilisateurs augmentait ne serait-ce que de 200 %, vos systèmes tiendraient-ils le coup ? Pour Twitter, la réécriture du backend dans un langage plus efficace n’en valait pas seulement la peine, elle était nécessaire à sa survie.
C’est simple. Si votre infrastructure ne peut pas répondre à la demande, la pertinence de votre entreprise a une courte durée de vie.
Traitement des données en temps réel avec des outils spécialisés
La vitesse est importante, surtout lorsque vous traitez des millions d’actions par seconde. Après avoir restructuré le cœur de la plateforme en utilisant Java et Scala, Twitter s’est concentré sur le traitement des données en temps réel. Le volume des tweets ne connaît pas de pause. Il connaît des pics imprévisibles et doit être traité instantanément. Tout ralentissement réduit la visibilité et tout retard est synonyme d’engagement manqué.
Pour y faire face, Twitter a mis en œuvre Apache Storm. Il s’agit d’un système de calcul distribué en temps réel. Concrètement, cela signifie que les tweets sont traités en direct, quelques millisecondes après leur arrivée sur la plateforme. Storm exécute des requêtes en continu qui traitent les données au fur et à mesure qu’elles entrent dans le système, ce qui leur permet d’avoir une vision immédiate et un temps de réaction sur l’ensemble du trafic mondial. Le résultat est une plateforme qui reste réactive quelle que soit la quantité d’activité simultanée.
Twitter l’a complété avec Python pour construire des pipelines de données plus efficaces et former des modèles d’apprentissage automatique qui prennent en charge la pertinence des tweets et les systèmes de recommandation. Ces modèles permettent de déterminer ce que les utilisateurs devraient voir à chaque instant, en fonction non seulement de leur comportement, mais aussi de ce qui est tendance sur l’ensemble du réseau en temps réel.
Les opérations à cette échelle s’interrompent si votre base de données ne peut pas suivre. Les systèmes en temps réel nécessitent un traitement à faible latence sur une infrastructure distribuée, et non des analyses par lots ou des pipelines retardés. Apache Storm leur a permis de le faire. Python leur a permis d’itérer plus rapidement et de relier les informations directement aux caractéristiques des produits.
Pour tout dirigeant qui évalue les capacités de son système, la question n’est pas de savoir si vous avez besoin d’analyses en temps réel, mais à quelle vitesse votre système actuel peut évoluer pour rendre les données exploitables dès qu’elles sont créées. Sur les marchés où l’attention est monnaie courante, être réactif n’est pas facultatif, c’est le modèle d’entreprise.
Développement d’une infrastructure de données
En 2014, le volume de données sur Twitter a dépassé ce que les systèmes traditionnels pouvaient gérer efficacement. Des millions de tweets étaient envoyés chaque jour par des utilisateurs du monde entier. Le stockage et la récupération de ces données en temps réel sont devenus une priorité opérationnelle essentielle. À cette échelle, les solutions prêtes à l’emploi introduisaient des temps de latence, des limitations et des risques opérationnels. Twitter a donc créé sa propre base de données distribuée : Manhattan.
Manhattan leur a permis de contrôler la couche d’infrastructure. Il a remplacé Apache Cassandra, qui présentait des plafonds de performance que Twitter ne pouvait ignorer. Manhattan leur a permis de faire évoluer le stockage horizontalement sans dégrader les temps de réponse. Il est conçu pour gérer des milliards de tweets et d’enregistrements de métadonnées tout en maintenant une latence suffisamment faible pour alimenter les fonctions qui dépendent d’un accès aux données à la seconde près.
Pour les traitements et les analyses plus importants, Twitter s’est appuyé sur des clusters Hadoop. Ceux-ci lui ont permis d’analyser les tendances à grande échelle et d’élaborer des mécanismes de classement, de personnalisation et de sécurité plus intelligents. Mais l’infrastructure de données dépend de l’emplacement et de l’échelle. En 2022, Twitter a migré vers Google Cloud. Le déplacement des systèmes critiques vers un cloud public leur a donné de la flexibilité, un provisionnement dynamique et des intégrations plus faciles au niveau de l’API à travers les pipelines d’apprentissage automatique et les plateformes d’analyse.
Twitter a également commencé à mettre en place des systèmes automatisés pour améliorer la précision et la fiabilité de ses données. Ces outils vérifient la qualité des données en temps réel, ce qui permet de s’assurer que les services reposant sur de vastes ensembles de données ne tombent pas en panne en cas d’anomalie.
Si vous dirigez une entreprise qui dépend des données pour prendre des décisions en temps réel, vous allez atteindre les limites de l’échelle. La seule question est de savoir quand. Bases de données distribuées, migrations vers le cloudet les systèmes intelligents de qualité des données sont des conditions préalables pour toute entreprise qui envisage d’être compétitive au niveau mondial avec un nombre élevé d’utilisateurs.
Plus vous repoussez la mise en place d’une infrastructure qui s’adapte à votre courbe de croissance, plus votre dette technique s’alourdit. Cela finit par se traduire par des coûts, des temps d’arrêt et une perte de confiance de la part des utilisateurs. Twitter a investi très tôt, et cela a porté ses fruits.
Évolution de la fonctionnalité de recherche pour traiter les requêtes volumineuses
La recherche est l’une des fonctions les plus gourmandes en ressources sur toute plateforme utilisée à l’échelle mondiale. Des millions d’utilisateurs saisissent des requêtes 24 heures sur 24, souvent pendant des périodes de forte pression, comme les dernières nouvelles ou les événements mondiaux. Pour Twitter, gérer ce volume à grande vitesse impliquait de repenser le fonctionnement de son infrastructure de recherche.
En 2022, l’équipe d’ingénieurs de Twitter a mis en place Elasticsearch comme élément central de la pile de recherche. Il s’agit d’un outil open-source qui permet d’indexer et de récupérer rapidement d’énormes ensembles de données. Twitter l’a étendu avec un proxy inverse qui a séparé le trafic de lecture et d’écriture. Cette séparation du trafic était essentielle. Elle a permis d’optimiser les mesures de performance pour les requêtes de recherche et l’indexation sans que l’une n’engorge l’autre.
Twitter a également mis en place des services d’ingestion pour gérer les pics intenses de trafic de recherche qui frappent la plateforme de manière imprévisible. Ces services ont essentiellement permis de lisser le flux de données, évitant ainsi les surcharges sur les clusters de recherche. En outre, un service de remplissage personnalisé a permis d’alimenter les index de recherche plus efficacement, sans perte de précision ou de fraîcheur de la recherche, même lorsque les volumes de données ont explosé.
Cette structure a été conçue pour maintenir une faible latence, quelle que soit la volatilité du trafic. Des performances de recherche constantes améliorent la confiance des utilisateurs et renforcent la fiabilité de la plateforme, en particulier lors d’événements à fort taux d’attention.
Si vous gérez une plateforme technologique avec du contenu généré par l’utilisateur, la recherche est plus qu’une fonctionnalité, c’est une infrastructure. Elle doit évoluer de manière indépendante et fonctionner sous pression. Attendre qu’elle tombe en panne n’est pas une stratégie. Construisez en fonction des pics de charge, et non d’une utilisation moyenne. C’est le seul moyen de rester en phase avec les attentes du public et le coût du système.
Intégration de la diffusion de contenu algorithmique et pilotée par l’IA
Après avoir acquis Twitter (aujourd’hui X) à la fin de 2022, l’entreprise s’est empressée de transformer la plateforme en un système plus intelligent et personnalisé. La découverte, la pertinence et la rétention du contenu ne sont pas aléatoires, elles dépendent d’algorithmes qui apprennent activement ce que chaque utilisateur souhaite voir. C’est ce qui a guidé le déploiement du flux « Pour vous », conçu pour servir dynamiquement un contenu individualisé basé sur des données comportementales en direct.
Le processus de diffusion comporte trois étapes : la recherche, le classement et le filtrage des candidats. Tout d’abord, X a identifié des tweets provenant de diverses sources, d’utilisateurs que vous suivez, d’utilisateurs que vous ne suivez pas et de vecteurs construits à partir d’interactions entre l’utilisateur et le contenu. À l’aide d’Apache Thrift, X calcule ensuite des scores de classement en temps réel pour chaque tweet. Ces scores donnent la priorité à la récence, au contexte social, au potentiel d’engagement et à la pertinence du sujet.
X affine le tout dans la dernière phase à l’aide de filtres spécifiques : il veille à l’équilibre du contenu, évite les répétitions, met en valeur le matériel de haute qualité ou à la mode et réduit le bruit. Le résultat pour les utilisateurs est un flux qui s’adapte rapidement à leur comportement et aux changements d’intérêt de surface, même si ceux-ci changent d’heure en heure.
Ce système ne se contente pas d’améliorer l’engagement. Il améliore la découvrabilité des créateurs, aide les utilisateurs à trouver plus rapidement des conversations pertinentes et permet aux annonceurs d’insérer des messages là où l’attention est la plus forte. Pour les dirigeants qui se concentrent sur la croissance et la monétisation des plateformes, la curation algorithmique n’est pas facultative. Il s’agit d’une intelligence au niveau de l’infrastructure, qui permet de gérer l’ensemble de l’expérience produit.
Il est important de construire des systèmes de classement qui produisent des résultats réellement souhaités par les utilisateurs. L’optimisation des clics ne suffit pas à garantir une satisfaction à long terme. Notre approche combine un grand nombre de données avec un classement précis pour s’assurer que le contenu correspond à l’intention de l’utilisateur, moment après moment.
Faire de l’intégration de l’IA une composante essentielle
En 2023, X a lancé GrokAI, un modèle de langage de base à grande échelle. grand modèle linguistiqueGrokAI a été développé en partenariat avec xAI, une société fondée pour accélérer l’application de l’IA dans le monde réel. Grok a été intégré directement dans X en tant que couche fonctionnelle et intégrée à l’expérience utilisateur, et non en tant que produit autonome. Il aide les utilisateurs à interagir avec l’information de manière plus fluide, qu’ils explorent le contenu, posent des questions ou naviguent dans les fonctionnalités de la plateforme.
Depuis son lancement, Grok a évolué rapidement. Depuis février 2025, Grok 3 alimente plusieurs fonctionnalités clés de la plateforme. Il établit la pertinence non seulement à partir des entrées de texte, mais aussi à partir de l’historique des interactions avec l’utilisateur et des données tendancielles de la plateforme. C’est ainsi que X propose des expériences qui vont au-delà des recommandations statiques et s’orientent vers une communication prédictive et assistée.
Grok apporte une capacité de conversation à l’interface. Et son intégration dans les flux de travail de base leur permet de proposer des fonctions plus personnalisées, plus réactives et plus évolutives. Qu’il s’agisse de résumer des discussions ou d’améliorer les recommandations de contenu, Grok agit comme une couche cognitive au-dessus de la plateforme X.
Pour les entreprises qui évaluent leur stratégie en matière d’IA, il s’agit de placer des modèles de traitement du langage, d’inférence et d’apprentissage dans les interfaces des produits, là où ils génèrent une valeur mesurable. Lorsque ces systèmes font partie de l’interaction avec l’utilisateur dès le premier jour, l’adoption est naturelle et les avantages s’accumulent rapidement.
Priorité à l’efficacité des coûts et à l’optimisation des systèmes
À grande échelle, la performance sans contrôle des coûts n’est pas viable. Après l’acquisition, la nouvelle équipe s’est fixé comme priorité d’auditer chaque partie de l’infrastructure de X, jusqu’aux clusters de traitement effectuant des calculs lourds en arrière-plan. L’une des mesures à fort impact a été l’optimisation de l’infrastructure Hadoop par la mise en œuvre de l’authentification Kerberos.
La kerberisation des clusters a permis d’améliorer à la fois la sécurité et l’efficacité opérationnelle. En gérant de manière sécurisée la façon dont les services s’authentifient les uns les autres, X a réduit le risque d’échecs d’accès aux données et de goulots d’étranglement causés par des configurations erronées ou des identifications manuelles. Elle a également permis à l’automatisation de fonctionner de manière plus sûre sur les systèmes sensibles, ce qui a permis d’améliorer le temps de fonctionnement du système et de réduire les escalades techniques.
Il est important de noter que ce changement a eu des conséquences financières. Ces optimisations se sont traduites par des économies mesurables. X a consolidé les charges de travail, réduit les processus redondants et amélioré les performances de la planification des tâches du côté des données. Comme davantage de services sont exécutés de manière sûre et fiable, les frais généraux diminuent, sans sacrifier la puissance de calcul ou les fonctionnalités.
Si vous dirigez une entreprise technologique dont les dépenses d’infrastructure sont élevées, ce type d’optimisation au niveau des systèmes devrait figurer sur votre feuille de route. Les économies réalisées au niveau de l’infrastructure ne proviennent pas de la renégociation des contrats avec les fournisseurs, mais de l’amélioration des systèmes qui tournent sous le capot. C’est là que se trouve l’amélioration durable des marges.
L’équilibre entre l’innovation et l’efficacité économique à long terme est un défi de leadership qui mérite d’être pris au sérieux. Une optimisation intelligente permet de libérer du budget pour l’innovation future, sans compromettre ce qui soutient le produit aujourd’hui.
Réflexions finales
Les systèmes ne s’adaptent pas d’eux-mêmes. La transition de Twitter à X a été structurelle. Chaque décision, qu’il s’agisse de reconstruire le backend, de modifier l’infrastructure de recherche ou d’intégrer l’IA, a été motivée par un seul objectif : construire une plateforme qui ne se brise pas sous la pression.
L’exécution est plus importante que l’intention. X a révisé les systèmes clés lorsqu’ils ne servaient plus l’échelle, la vitesse ou l’impact sur l’utilisateur. Cela signifiait la mise hors service des piles existantes, la réécriture des services de base et l’investissement précoce dans des technologies telles que Manhattan, Elasticsearch et GrokAI. Rien de tout cela ne s’est produit en attendant un consensus.
Pour tout dirigeant confronté à une croissance rapide ou à une dette technique, la conclusion est simple : mettez votre système à niveau avant qu’il ne vous y oblige. Prenez de l’avance sur l’échelle, et non du retard. Si votre infrastructure se plie maintenant, elle se rompra plus tard, souvent au moment le plus important.
L’avenir n’appartient pas aux plus prudents ou aux plus conformistes. Il appartient à ceux qui résolvent les problèmes de performance, de pertinence et de coût simultanément et de toute urgence.