AWS lance le routage intelligent des invites pour réduire les coûts des modèles d’IA.

L’exécution de modèles d’IA est coûteuse, et toutes les questions ne nécessitent pas un calcul lourd pour trouver une réponse. AWS a relevé ce défi avec sa fonction Intelligent Prompt Routing sur Bedrock. C’est une façon intelligente de simplifier les opérations, de réduire les coûts et de rendre les applications d’IA plus pratiques.

Voici comment cela fonctionne : Imaginez que vous exploitiez une IA de service à la clientèle. Une simple demande de type « oui ou non », comme « Avez-vous une réservation ? », ne nécessite pas un modèle massif et gourmand en énergie. Cette tâche peut être parfaitement gérée par un modèle plus petit et plus léger. En revanche, les questions complexes telles que « Quelles sont les options végétaliennes disponibles ? » peuvent être acheminées vers un modèle plus grand et plus puissant, capable de traiter les nuances. Il s’agit d’un système sur mesure qui permet d’affecter les bonnes ressources à la bonne tâche.

Argo Labs, un client d’AWS, en a déjà vu les avantages. Il utilise cette fonction pour allouer ses ressources de manière dynamique, ce qui lui permet d’économiser du temps et de l’argent. AWS estime que cette méthode permet de réduire les coûts de 30 %, sans sacrifier la précision. C’est une bonne chose pour les entreprises qui tentent de développer l’utilisation de l’IA tout en maîtrisant leur budget.

AWS offre une mise en cache rapide sur Bedrock pour réduire les coûts et la latence

La génération de jetons est le tueur silencieux des budgets d’IA. Chaque fois que vous demandez à une IA de traiter une requête, elle génère des jetons, et ce processus n’est pas gratuit. Pour les entreprises qui traitent des milliers, voire des millions, de requêtes similaires, ce coût s’additionne rapidement. AWS a également une solution à ce problème : la mise en cache rapide.

La mise en cache des invites fait exactement ce qu’elle semble faire : elle conserve les invites fréquemment utilisées afin que le système n’ait pas à générer de nouveaux jetons à chaque fois. Par exemple, si votre assistant IA reçoit souvent des questions telles que « Quel temps fait-il aujourd’hui ? » Bedrock mettra cette requête en cache et vous éviterez ainsi l’étape de régénération des jetons. C’est une solution intelligente qui maintient les coûts bas et les temps de réponse rapides.

AWS indique que la mise en cache rapide réduit les coûts jusqu’à 90 % et la latence jusqu’à 85 %. Ces résultats sont incomparables pour les entreprises qui tentent d’optimiser les opérations d’IA. Les entreprises n’ont plus besoin de choisir entre l’évolutivité et l’accessibilité financière, elles peuvent avoir les deux.

AWS élargit la bibliothèque de modèles d’IA de Bedrock pour augmenter les options des développeurs

L’écosystème de l’IA se nourrit de diversité, et AWS s’appuie sur cette philosophie avec sa bibliothèque croissante de modèles sur Bedrock. Des modèles propriétaires Nova aux puissances open-source telles que Stability AI’s Stable Diffusion 3.5 Large et Luma’s Ray 2, il existe désormais un ensemble plus large d’outils pour répondre aux besoins uniques des entreprises.

Amit Jain, CEO de Luma, a partagé une anecdote intéressante sur la collaboration de son équipe avec AWS. Grâce à SageMaker HyperPod, Luma a pu déployer son modèle Ray 2 en quelques semaines seulement. Une telle rapidité est un avantage concurrentiel. Grâce à l’assistance pratique d’AWS, nous n’avons pas eu l’impression d’être dans une relation vendeur-client, mais plutôt dans un véritable partenariat.

Pour les développeurs, une bibliothèque élargie signifie une plus grande flexibilité. Que vous souhaitiez créer des images de haute fidélité ou plonger dans des modèles de langage profonds, la variété de Bedrock vous permet de choisir l’outil qui convient le mieux à votre travail.

Les coûts élevés d’utilisation de l’IA restent un obstacle pour les entreprises

Si les innovations d’AWS repoussent les limites du possible, il ne faut pas ignorer l’éléphant dans la pièce : L’IA reste coûteuse. Former des modèles est une chose, mais le coût permanent de leur fonctionnement, en particulier avec des appels d’API fréquents, continue de peser sur les budgets. Pour les entreprises qui explorent les cas d’utilisation de l’IA agentique, ces coûts constituent un obstacle à l’adoption généralisée.

Cela dit, il y a de l’espoir à l’horizon. Les leaders du secteur, comme OpenAI, ont laissé entendre que les coûts de l’IA diminueront à mesure que l’adoption se généralisera et que la technologie arrivera à maturité.

En attendant, des outils tels que la mise en cache rapide et le routage intelligent constituent des avancées pratiques. Ils n’éliminent peut-être pas complètement l’obstacle du coût, mais ils atténuent le choc, rendant l’IA plus accessible aux entreprises qui pourraient autrement hésiter. Il s’agit d’un jeu de longue haleine, et ces outils aident les entreprises à y rester.

Alexander Procter

décembre 17, 2024

4 Min