Meta a lancé Llama 3.1, un modèle d’IA à code source ouvert comportant 405 milliards de paramètres, qui vise à remettre en question la domination des principaux modèles d’IA tels que GPT-4 d’OpenAI, Gemini de Google et Claude 3.5 d’Anthropic.
Meta a fourni un accès « open source » au modèle, dans le but de démocratiser la technologie de l’IA et de favoriser l’innovation et la collaboration au sein de l’industrie.

Llama 3.1 : des fonctionnalités d’avant-garde

Plus de paramètres, plus de précision

Les 405 milliards de paramètres de Llama 3.1 représentent une amélioration considérable par rapport aux 70 milliards de paramètres de Llama 2, ce qui permet au modèle de générer des textes plus précis et plus cohérents, en imitant au plus près les schémas du langage humain.

L’échelle du modèle augmente la qualité des résultats tout en améliorant sa capacité à traiter des tâches linguistiques complexes, ce qui en fait un concurrent de taille face au GPT-4 d’OpenAI, qui fonctionne sur un nombre de paramètres estimé à 1,76 trillion, tout en étant open source.

Une fenêtre contextuelle élargie et une compréhension du contexte

La fenêtre contextuelle de Llama 3.1 a été étendue de 8k tokens à 128k tokens, ce qui améliore considérablement la façon dont le modèle comprend et génère du texte sur des passages beaucoup plus longs, tout en restant cohérent et pertinent tout au long du processus.

Une fenêtre contextuelle plus grande est particulièrement bénéfique pour les applications qui nécessitent des interactions prolongées ou un traitement détaillé des documents, des bases de code plus importantes, etc.
En outre, Llama 3.1 prend mieux en charge les langues autres que l’anglais, ce qui élargit son potentiel d’utilisation dans différents contextes linguistiques.

L’utilisation de logiciels libres est un avantage

Llama 3.1 se distingue par sa nature open-source, une caractéristique de plus en plus rare parmi les modèles d’IA de premier plan.
Meta a mis Llama 3.1 à la disposition du public dans le but de stimuler l’innovation et la collaboration au sein de la communauté de l’IA.

Les chercheurs, les développeurs et les organisations peuvent télécharger et utiliser librement le modèle, en contournant les contraintes généralement imposées par les plateformes d’IA propriétaires.
L’ouverture encourage un plus large éventail d’applications et de personnalisations, ce qui, en fin de compte, fait progresser la recherche sur l’IA et ses futures mises en œuvre pratiques.

Formation avancée derrière Llama 3.1

Llama 3.1 a été entraîné à l’aide de 16 000 GPU Nvidia H100, ce qui met en évidence les ressources informatiques considérables – et incroyablement coûteuses – investies dans son développement.
Le modèle est bien équipé pour traiter de nombreux types de tâches avec une efficacité et une précision relativement élevées, même si les tests de référence ne sont pas le meilleur indicateur des performances dans le monde réel.

L’ensemble de données d’entraînement pour Llama 3.1 comprenait un large éventail de contextes, de langues et de domaines d’information, ce qui a permis d’améliorer considérablement les performances pour différents types de requêtes, des questions de base à la création de contenu complexe (en particulier par rapport aux précédents modèles Llama de Meta).

L’entraînement sur de vastes ensembles de données permet de s’assurer que Llama 3.1 est relativement polyvalent et capable de générer des réponses contextuelles pertinentes et précises dans un grand nombre de scénarios différents.

Une meilleure compréhension du contexte

Llama 3.1 a amélioré sa compréhension du contexte et est capable de maintenir la cohérence sur des textes plus longs.
Il s’agit là d’une limitation majeure des modèles d’IA antérieurs, qui avaient du mal à rester pertinents, voire cohérents, dans des communications de longue durée.

Avec une fenêtre contextuelle de 128k tokens, Llama 3.1 est particulièrement bien adapté à des tâches telles que l’analyse détaillée de documents, la génération de rapports complets et les longues interactions conversationnelles.

La capacité du modèle à gérer des interactions complexes a également été considérablement améliorée.

Llama 3.1 peut gérer des dialogues à plusieurs tours avec une plus grande précision, en comprenant les nuances et le contexte de la conversation au fur et à mesure qu’elle progresse, ce qui est indispensable pour les applications de service à la clientèle, d’assistance technique et tout scénario dans lequel une interaction continue et dynamique est vitale.

Les langues autres que l’anglais ont également bénéficié d’une meilleure compréhension du contexte, ce qui a permis d’élargir les possibilités d’utilisation dans un contexte mondial, même si ce n’est pas de manière aussi complète que pour les interactions avec l’anglais.
Il s’agit d’un élément clé pour les entreprises multinationales et les organisations opérant dans des environnements linguistiques divers.

Disponibilité générale et applications de Llama 3.1

Disponibilité de la plate-forme

Llama 3.1 est désormais généralement disponible sur plusieurs plateformes cloud, notamment Azure, AWS et Google Cloud.
Les entreprises et les développeurs peuvent désormais intégrer le modèle dans leurs flux de travail et leur infrastructure existants avec une relative facilité.

Les utilisateurs peuvent s’appuyer sur des services cloud établis pour bénéficier de capacités d’IA évolutives et fiables sans avoir besoin d’investissements importants en matériel ou en infrastructure.

Outre les plateformes cloud, Llama 3.1 est également mis en œuvre dans WhatsApp et Meta.ai pour les utilisateurs aux États-Unis – ce qui s’aligne sur la stratégie de Meta visant à intégrer des fonctionnalités d’IA avancées dans ses applications populaires orientées vers le consommateur pour des interactions plus intelligentes et plus réactives.

Capacités fonctionnelles

Malgré ses capacités nettement améliorées, Llama 3.1 est actuellement limité à des fonctionnalités textuelles, ce qui signifie que s’il excelle dans le traitement et la génération de texte, il ne peut pas encore répondre à des questions concernant des images ou des vidéos.

Néanmoins, Llama 3.1 peut toujours exécuter une série de fonctions différentes telles que le codage, la réponse à des questions mathématiques de base et le résumé de documents.
Il est encore largement considéré comme un outil polyvalent pour les développeurs, les éducateurs et les professionnels qui cherchent à automatiser et à rationaliser les processus centrés sur le texte.

Comparaisons avec d’autres modèles d’IA de premier plan

GPT-4 d’OpenAI

Le GPT-4 d’OpenAI se situe au sommet de la colline de l’industrie de l’IA avec ses 1,76 trillion de paramètres.
Cette échelle considérable donne à GPT-4 un avantage considérable dans la gestion de tâches très complexes et dans la génération de réponses détaillées et nuancées.

Cela dit, le GPT-4 reste un modèle « fermé », dont l’accès est limité à ceux qui peuvent payer (ou sont prêts à payer) les frais d’abonnement à OpenAI.

Cela contraste fortement avec la nature open-source de Llama 3.1, qui vise à mettre l’IA avancée à la portée d’un public plus large – un fait qui sera certainement célébré par les développeurs du monde entier.
Si les 405 milliards de paramètres de Llama 3.1 peuvent limiter sa capacité à égaler GPT-4 dans certains scénarios complexes, ses performances pratiques (et pas seulement les performances de référence) dans toute une série d’applications restent robustes et compétitives.

Gemini de Google

Gemini de Google est réputé pour son intégration harmonieuse dans l’écosystème Google, offrant de solides performances et un alignement étroit avec la vaste gamme de produits de Google.
Cela permet aux utilisateurs profondément ancrés dans l’environnement Google de bénéficier d’une expérience rationalisée.

En revanche, le cadre open-source de Llama 3.1 offre une plus grande flexibilité et de meilleures possibilités de personnalisation.
Les utilisateurs et les développeurs peuvent adapter et peaufiner Llama 3.1 pour répondre à leurs besoins spécifiques, sans être contraints par les limites propriétaires qui caractérisent généralement les modèles comme Gemini.

Claude d’Anthropic 3.5

Le Claude 3.5 d’Anthropic met l’accent sur la sécurité et l’alignement, en se concentrant sur les considérations éthiques de l’IA.
Il donne la priorité à la transparence et à l’interprétabilité, dans le but de créer des systèmes d’IA alignés sur les « valeurs humaines ».

Si les fonctionnalités de Claude 3.5 sont louables, l’échelle plus grande de Llama 3.1 peut offrir des avantages spécifiques en termes de performances brutes et de traitement de tâches linguistiques plus complexes.

L’équilibre entre les considérations éthiques et les capacités techniques est un sujet brûlant en ce moment, en particulier si l’on considère les réactions négatives récentes à l’égard de certains modèles de premier plan qui ont fait l’objet d’une censure sévère et de garde-fous très stricts.

Influence et adoption attendues

Meta ouvre la voie à une adoption généralisée et à l’innovation grâce à son approche open-source.
La disponibilité de versions moins puissantes, telles que celles comportant 70 milliards et 8 milliards de paramètres, s’adresse à des applications générales, ce qui contribue à rendre l’IA avancée accessible à un plus large éventail d’utilisateurs et de cas d’utilisation.

La nature open-source de Llama 3.1 est susceptible de stimuler l’innovation au sein de la communauté de l’IA, les chercheurs, les développeurs et les organisations étant libres d’expérimenter, de modifier et d’améliorer le modèle.

Dernières réflexions

Le modèle d’IA Llama 3.1 de Meta constitue une avancée majeure sur le marché de l’IA open-source.
En continuant à défier les géants de l’industrie comme Google et OpenAI, Llama 3.1 ouvre de nouvelles portes à la collaboration et aux applications pratiques, annonçant un avenir plus radieux pour le développement de l’IA.

Tim Boesen

août 2, 2024

8 Min