Mistral, la startup française innovante dans le domaine de l’IA, a récemment lancé deux grands modèles de langage (LLM) révolutionnaires : Codestral Mamba et Mathstral.

Codestral Mamba et Mathstral sont construits à partir d’une nouvelle architecture connue sous le nom de Mamba, qui a été développée par d’autres chercheurs à la fin de l’année dernière.
Ce lancement témoigne de l’engagement de Mistral à repousser les limites des capacités de l’IA, en particulier dans les domaines de la génération de code et du raisonnement mathématique.

Architecture Mamba

L’architecture Mamba est conçue pour améliorer considérablement les performances des modèles d’IA par rapport à l’architecture traditionnelle des transformateurs.

La simplification des mécanismes d’attention qui sont cruciaux pour le traitement et la génération de texte signifie que les modèles basés sur Mamba peuvent atteindre des temps d’inférence plus rapides et gérer des fenêtres de contexte plus longues.
Ces améliorations se traduisent par un traitement plus efficace et la possibilité de traiter des entrées plus importantes sans baisse de performance.

Des entreprises comme AI21 ont également commencé à adopter cette architecture, reconnaissant son potentiel à établir de nouvelles normes dans ce domaine.

Codestral Mamba 7B

Codestral Mamba 7B est conçu spécifiquement pour la génération de code, ce qui en fait un outil précieux pour les développeurs travaillant sur des projets de codage locaux. Il excelle à fournir des réponses rapides même lorsqu’il s’agit de textes d’entrée volumineux, pouvant traiter jusqu’à 256 000 jetons – un exploit impressionnant si l’on considère que c’est le double de la capacité du GPT-4o d’OpenAI.

Lors de tests d’évaluation rigoureux, Codestral Mamba 7B a démontré des performances supérieures à celles de modèles concurrents à code source ouvert tels que CodeLlama 7B, CodeGemma-1.17B et DeepSeek dans les tests HumanEval.

Les versions précédentes de Codestral se sont également révélées plus performantes que des modèles plus importants tels que CodeLlama 70B et DeepSeek Coder 33B, soulignant ainsi son efficacité et ses capacités.

Les développeurs peuvent facilement modifier et déployer Codestral Mamba via son dépôt GitHub ou HuggingFace, et il est disponible sous la licence open-source Apache 2.0, favorisant un environnement collaboratif où les améliorations et les adaptations peuvent être rapidement partagées et mises en œuvre.

La montée en puissance des outils de génération de code alimentés par l’IA, tels que Copilot de GitHub, CodeWhisperer d’Amazon et Codenium, indique une tendance croissante à l’intégration de l’IA dans les flux de travail de développement logiciel.
Codestral Mamba 7B se distingue dans ce paysage concurrentiel en offrant une solution complète pour améliorer la productivité et la précision des tâches de codage.

Mathstral 7B

Mathstral 7B est méticuleusement conçu pour exceller dans le raisonnement mathématique et la découverte scientifique, ce qui en fait un outil essentiel pour les professionnels des domaines STEM.
Il a été développé en collaboration avec le projet Numina, dans le cadre d’un partenariat stratégique visant à résoudre des problèmes mathématiques complexes à l’aide de l’IA.

L’une des caractéristiques les plus remarquables de Mathstral 7B est sa fenêtre contextuelle de 32K, qui lui permet de gérer des entrées importantes et de fournir des réponses détaillées et adaptées au contexte.

Les capacités étendues sont essentielles pour résoudre les équations mathématiques complexes et les calculs scientifiques qui nécessitent une compréhension approfondie d’ensembles de données étendus.

Fonctionnant sous la licence open source Apache 2.0, Mathstral 7B est accessible à un large éventail d’utilisateurs, ce qui favorise la transparence et la collaboration dans le développement de l’IA.
Cette approche open-source s’aligne sur l’engagement de Mistral à encourager l’innovation au sein de la communauté de l’IA.

Les tests de référence révèlent que Mathstral 7B surpasse tous les autres modèles spécifiquement conçus pour le raisonnement mathématique.
Il fournit des résultats supérieurs aux tests de référence, en particulier ceux qui nécessitent des calculs intensifs pendant le temps d’inférence.
Ces performances en font un choix fiable pour les utilisateurs à la recherche d’une grande précision et d’une grande efficacité dans leurs calculs.

Mathstral 7B est polyvalent ; les utilisateurs peuvent l’utiliser tel quel ou opter pour un réglage fin afin de mieux répondre à des applications spécifiques.
Cette flexibilité en fait une ressource inestimable pour les chercheurs, les éducateurs et les développeurs de projets scientifiques et mathématiques.

Stratégie et position de Mistral sur le marché

Mistral adopte une approche stratégique de modèle open-source, se positionnant comme un concurrent redoutable des géants de l’IA tels qu’OpenAI et Anthropic.
Cette stratégie favorise non seulement un environnement collaboratif, mais aussi une innovation et une adaptation rapides des technologies de l’IA.

Mistral a récemment obtenu un financement de série B de 640 millions de dollars, ce qui constitue une étape financière importante.
Cet investissement substantiel a propulsé l’évaluation de la société à près de 6 milliards de dollars, soulignant la confiance des investisseurs dans la vision et les capacités de Mistral.

Ce tour de table a notamment attiré des investissements de géants de la technologie tels que Microsoft et IBM, ce qui montre que l’industrie reconnaît le potentiel de Mistral à influencer l’avenir du développement de l’IA.

L’accent mis par Mistral sur les solutions à code source ouvert lui permet de se démarquer dans le paysage concurrentiel de l’IA.
En fournissant des modèles tels que Codestral Mamba et Mathstral 7B sous licence ouverte, Mistral encourage l’adoption à grande échelle et l’amélioration continue grâce à la collaboration de la communauté.

Grâce à ces initiatives stratégiques, Mistral entend s’imposer comme un leader dans le domaine de l’IA, en réalisant des avancées qui répondent à des cas d’utilisation à la fois spécialisés et généraux.

Grâce à son portefeuille croissant de modèles très performants et à son important soutien financier, Minstrel est bien placé pour défier les acteurs établis et façonner la trajectoire future de la technologie de l’IA.

Alexander Procter

juillet 30, 2024

5 Min