Mistral, une startup spécialisée dans l’IA et basée à Paris, a obtenu il y a un an le plus important financement d’amorçage jamais obtenu en Europe, se positionnant ainsi comme un acteur majeur dans la course mondiale à l’IA. Cet investissement témoigne de la confiance que les investisseurs accordent à Mistral et souligne l’importance stratégique croissante des technologies d’IA avancées dans l’écosystème technologique européen.

Mistral s’est récemment étendu au secteur de la programmation et du développement avec l’introduction de Codestral, un grand modèle de langage (LLM) centré sur le code.

Codestral se distingue par le fait qu’il est disponible sous une licence non commerciale, offrant aux développeurs et aux chercheurs un outil puissant sans la pression immédiate d’une application commerciale. Cette initiative vise à encourager l’innovation et à permettre à la communauté technologique d’explorer et d’étendre les capacités de l’IA dans le domaine du codage.

Spécifications techniques et support linguistique de Codestral

Caractéristiques principales et spécifications

Codestral est un modèle d’IA de pointe avec 22 milliards de paramètres, classé comme modèle génératif à poids ouvert. Il est conçu pour gérer une gamme complète de tâches de codage, depuis la génération initiale jusqu’aux étapes finales.

L’une des caractéristiques les plus remarquables de Codestral est sa longueur de contexte substantielle de 32K, qui aide les développeurs à travailler dans différents environnements de codage. La longueur du contexte est essentielle pour comprendre les blocs de code plus longs, ce qui permet une génération de code plus précise et tenant compte du contexte.

Formation et langages de programmation pris en charge

Mistral a formé Codestral sur un ensemble de données diversifié comprenant plus de 80 langages de programmation, ce qui le rend exceptionnellement polyvalent. La capacité du modèle à générer du code, à compléter des fonctions partielles et à effectuer des tests robustes en fait un outil complet pour les développeurs.

Codestral supporte à la fois des langages de programmation très répandus comme SQL, Python, Java, C et C++ et des langages plus spécialisés comme Swift et Fortran. La prise en charge d’un grand nombre de langues permet à Codestral de répondre aux besoins d’une base de développeurs diversifiée, répondant à la fois aux exigences de la programmation courante et de la programmation spécialisée.

Mesures de performance et avantages pour les développeurs

Accroître la productivité des développeurs

Codestral est conçu pour augmenter la productivité des développeurs en optimisant les flux de travail. Grâce à ses fonctionnalités avancées, Codestral réduit le temps et les efforts que les développeurs consacrent à la création d’applications.

Le modèle permet de minimiser les erreurs de codage et les bogues, qui sont souvent coûteux et longs à corriger. Le travail proactif sur la réduction des erreurs est essentiel dans le développement de logiciels, où la détection et la résolution précoces des problèmes peuvent considérablement accélérer les délais de production et améliorer la fiabilité des logiciels.

Performances comparées

Codestral se positionne comme une option supérieure par rapport à d’autres modèles centrés sur le code comme CodeLlama 70B, Deepseek Coder 33B et Llama 3 70B. L’accent stratégique mis par Mistral sur le développement d’un modèle qui excelle dans un large éventail de tâches de programmation souligne sa volonté d’être à la pointe de l’industrie dans le domaine du codage génératif.

Voici un aperçu des statistiques de performance de Codestral :

  • Performance RepoBench: Codestral montre ses capacités robustes dans la complétion de code Python avec une précision de 34%. Ce critère de référence est particulièrement difficile et la performance de Codestral a été remarquable.
  • Scores HumanEval et CruxEval: Codestral obtient des résultats impressionnants dans le test HumanEval avec un taux de réussite de 81,1% pour la génération de code Python. Il obtient également une note de 51,3 % sur CruxEval pour la prédiction des sorties Python. Ces scores sont importants car ils montrent la capacité du modèle à comprendre et à prédire avec précision le comportement du code, ce qui est essentiel pour développer des applications logicielles fonctionnelles et fiables.
  • Compétence multilingue: Lors d’une évaluation complète impliquant plusieurs langages de programmation tels que Bash, Java, PHP, C++, C et TypeScript, Codestral arrive en tête avec un score moyen de 61,5 %. La polyvalence est une priorité pour les développeurs qui travaillent dans des environnements multilingues et garantit que Codestral est applicable dans divers scénarios de développement de logiciels.
  • Performance SQL sur Spider: Codestral obtient la deuxième position dans l’évaluation Spider pour la performance SQL avec un score de 63,5%. Cette performance est révélatrice de ses fortes capacités en matière de script de base de données, un domaine clé du développement de logiciels qui exige précision et efficacité.

Accessibilité, octroi de licences et adoption initiale par le marché

Disponibilité et options de licence

Mistral propose le Codestral sur Hugging Face avec une licence de non-production qui limite l’utilisation à des fins non commerciales. Les licences stratégiques permettent aux développeurs, aux chercheurs et aux passionnés d’explorer les capacités de Codestral sans engagement financier, ce qui favorise une large base d’utilisateurs dès le départ.

Mistral fournit un accès à Codestral par le biais de deux points d’accès API distincts :

  • codestral.mistral.ai : Conçu spécifiquement pour être utilisé dans les environnements de développement intégré (IDE), ce point d’accès s’adresse aux développeurs qui souhaitent intégrer les capacités de Codestral directement dans leur flux de travail. Il se distingue par un système de gestion des clés API personnelles, sans les limites de taux typiques des organisations.
  • api.mistral.ai : Ce point d’accès vise un plus large éventail d’utilisations, y compris des activités de recherche plus vastes et le développement d’applications tierces, l’utilisation étant facturée par jeton. Cette flexibilité le rend adapté aux projets à grande échelle qui peuvent nécessiter de nombreux appels à l’API.

Au cours d’une période bêta initiale de huit semaines, le point final spécifique à l’IDE est disponible gratuitement, ce qui constitue une incitation importante pour les premiers utilisateurs à intégrer et à tester Codestral dans des scénarios réels.

Outils pour les développeurs et retour d’information

Plusieurs outils et plateformes de développement de premier plan testent actuellement Codestral. Il s’agit notamment de LlamaIndex, LangChain, Continue.dev, Tabnine et JetBrains, tous leaders dans les secteurs du développement de logiciels et de l’IA. Les tests effectués par ces entités valident le potentiel de Codestral et accélèrent son intégration dans les processus de développement courants.

Les premiers résultats de ces tests mettent en évidence la rapidité d’exécution de Codestral et l’étendue de sa fenêtre contextuelle.

Par exemple, l’utilisation réussie de Codestral dans la génération de codes autocorrectifs, testée avec LangGraph, montre son utilité pratique et son applicabilité immédiate dans l’amélioration de la qualité et de l’efficacité des codes.

Paysage concurrentiel et perspectives d’avenir

Codestral entre sur un marché très concurrentiel, où il fait face à des modèles établis tels que StarCoder2, Codex et GPT-4 Turbo d’OpenAI, CodeWhisper d’Amazon, et des modèles plus petits mais agiles de Replit. Chaque concurrent apporte des capacités et des approches de marché distinctes, mettant Mistral au défi d’innover et d’améliorer en permanence Codestral.

Codenium, un autre concurrent majeur, a récemment obtenu 65 millions de dollars en financement de série B, atteignant une évaluation de 500 millions de dollars. Cet investissement témoigne de la confiance des investisseurs dans les solutions de codage pilotées par l’IA et souligne la nature lucrative de ce segment de marché.

Dans ce domaine dynamique et en pleine évolution, le succès de Codestral dépendra de ses prouesses technologiques et de la capacité de Mistral à s’adapter aux besoins du marché, à répondre aux commentaires des développeurs et à faire évoluer ses offres de manière efficace.

Les décisions stratégiques prises en matière d’accessibilité et de licences devraient permettre à Codestral de se positionner comme un concurrent de premier plan dans la course aux outils de codage augmentés par l’IA, ce qui promet un avenir passionnant au fur et à mesure de l’évolution de la technologie.

Tim Boesen

juin 10, 2024

7 Min