Découvrez la nouvelle fonction de mise en cache de Claude

Claude API a introduit une fonctionnalité permettant de rationaliser le traitement des invites longues grâce à la mise en cache des invites.
Cette fonction est particulièrement utile pour les utilisateurs qui réutilisent fréquemment des segments spécifiques d’une longue invite, comme dans le cas de documents volumineux ou d’ensembles de données étendus.

Lorsque des sections sont marquées pour la mise en cache, l’API les stocke temporairement, de sorte que les demandes ultérieures dans un délai donné ne nécessitent pas le retraitement des mêmes données.

Les utilisateurs peuvent marquer ces parties réutilisables pour maintenir l’efficacité des opérations qui impliquent des entrées de données complexes ou à grande échelle, ce qui est idéal pour les applications qui nécessitent une référence cohérente et répétée aux mêmes données, telles que l’analyse de documents juridiques, les rapports financiers ou la gestion de projets en cours.

En réduisant la nécessité de retraiter de grandes quantités de données, la mise en cache rapide de Claude optimise à la fois le temps et les ressources informatiques.

Cinq minutes pour des messages plus rapides et moins chers

Claude conserve les invites mises en cache pendant une durée maximale de cinq minutes.
Pendant cette période, toute invite qui réutilise les données mises en cache est traitée à une vitesse bien plus élevée que si elle n’était pas mise en cache.
Cela se traduit directement par une efficacité opérationnelle, en particulier dans les environnements où le traitement des données en temps réel ou quasi réel est important.

Il y a également un avantage financier.
Les invites qui exploitent les données mises en cache sont facturées à environ 10 % du coût d’envoi des jetons non mis en cache, ce qui représente une réduction importante particulièrement utile pour les organisations qui traitent d’importants volumes de données.

Comment activer la mise en cache de l’invite de Claude

L’activation de la fonction de mise en cache des messages de Claude est simple, mais nécessite le passage d’un en-tête HTTP spécifique lors des appels à l’API.
Les utilisateurs doivent inclure l’en-tête « anthropic-beta : prompt-caching-2024-07-31 » pour activer la fonctionnalité de mise en cache.

Il est essentiel de s’assurer que cet en-tête est correctement mis en œuvre, afin de permettre aux entreprises de tirer pleinement parti de la fonction de mise en cache dès qu’elles commencent à utiliser Claude.

Maximiser les économies ou risquer les coûts ?
Comprendre les dépenses de mise en cache rapide

Coût de l’utilisation de la cache de Claude

Si la mise en cache rapide offre des avantages évidents en termes de rapidité et de coût, il est important de reconnaître que ces avantages s’accompagnent de leurs propres coûts.
L’écriture des données dans le cache n’est pas gratuite ; elle entraîne un coût que les utilisateurs doivent prendre en compte dans leur budget et leur planification opérationnelle.
Ce coût supplémentaire doit ensuite être mis en balance avec les économies potentielles résultant de la réduction des temps de traitement et des coûts des jetons.

Les entreprises doivent évaluer la fréquence et l’ampleur de leur utilisation rapide pour déterminer si la mise en cache leur apportera un avantage net.
Pour les cas d’utilisation fréquents, l’investissement dans la mise en cache peut être rapidement rentabilisé par la réduction des coûts opérationnels.

Toutefois, dans les cas où les messages sont peu fréquents, le coût de l’écriture dans le cache peut être supérieur aux avantages, ce qui entraîne une augmentation des dépenses globales.

Comment les invites fréquentes peuvent vous faire économiser beaucoup d’argent

Le délai de vie (TTL) d’un cache est réinitialisé chaque fois qu’une invite mise en cache est réutilisée dans la fenêtre de cinq minutes.
Tant qu’une invite arrive dans le cache pendant cette période, le TTL est prolongé, ce qui permet de maintenir les données mises en cache en vie et prêtes à être réutilisées.

Les applications qui sont sollicitées plus d’une fois toutes les cinq minutes peuvent réaliser d’importantes économies, car elles bénéficient à plusieurs reprises de la rapidité et de la rentabilité des données mises en cache.

D’autre part, si une application demande moins souvent, les données mises en cache expirent et les avantages de la mise en cache sont perdus, ce qui peut entraîner une augmentation des coûts, car l’application continue d’encourir des frais pour l’écriture de nouvelles données dans le cache sans profiter pleinement des réductions de coûts que des accès fréquents au cache permettraient d’obtenir.

Les entreprises doivent évaluer soigneusement leurs habitudes d’utilisation si elles veulent optimiser leur stratégie de mise en cache et éviter des dépenses inutiles.

Comment les coûts de mise en cache diffèrent-ils entre Claude et Google Gemini ?

Google Gemini offre une fonction similaire de mise en cache du contexte, mais les deux systèmes présentent des différences essentielles qui peuvent influencer le choix d’une entreprise.
Les deux systèmes permettent de mettre en cache des segments de données réutilisés, ce qui contribue à accélérer le traitement et à réduire les coûts.

La tarification de la mise en cache de Google Gemini est échelonnée en fonction de la version utilisée.
Pour Gemini 1.5 Pro, le coût est de 4,50 $ par million de jetons par heure, tandis que Gemini 1.5 Flash offre un tarif inférieur de 1 $ par million de jetons par heure.
Ces niveaux de prix s’accompagnent d’une réduction d’un quart du prix des jetons d’entrée, ce qui constitue une incitation financière claire pour les utilisateurs de gros volumes à tirer parti de la mise en cache.

En revanche, l’approche de Claude en matière de mise en cache fait payer environ 10 % du coût des jetons non mis en cache pour les invites mises en cache dans la fenêtre de cinq minutes.
Les entreprises doivent tenir compte de leurs cas d’utilisation spécifiques, de leurs volumes de données et de la fréquence des messages lorsqu’elles décident quel système offre la solution la plus rentable.

La mise en cache de Claude ne réduira pas votre trafic HTTP

Malgré les gains d’efficacité apportés par la mise en cache des invites, le trafic HTTP est un domaine dans lequel l’implémentation de Claude ne réduit pas les frais généraux.
Même avec des invites mises en cache, le contexte complet doit toujours être transmis lors de chaque appel à l’API.
Par exemple, si un contexte de 1 Mo est mis en cache, l’application doit toujours envoyer une requête HTTP de 1 Mo chaque fois que l’invite est appelée.

Si la mise en cache rapide réduit les coûts de calcul, elle n’allège pas la charge du réseau, et toute considération liée à la bande passante ou aux limites de transfert de données doit continuer à faire partie du processus de planification.

L’impact est minime par rapport à la surcharge de traitement économisée grâce à l’utilisation d’invites mises en cache.
Les entreprises qui utilisent beaucoup l’API doivent toutefois savoir que la charge de trafic HTTP restera constante, même si les temps de traitement diminuent.

Ce que le réglage fin signifie réellement pour Claude

L’un des aspects les plus déroutants de l’annonce concernant la mise en cache rapide de Claude est la terminologie utilisée, en particulier le terme « fine-tune ».
Dans le domaine de l’apprentissage automatique, le réglage fin fait généralement référence au processus d’ajustement des paramètres d’un modèle afin d’améliorer ses performances pour une tâche spécifique.
Claude offre cette fonctionnalité par le biais d’AWS Bedrock, où les utilisateurs peuvent affiner le modèle en fonction de leurs ensembles de données et de leurs besoins spécifiques.

La mise en cache des invites, en revanche, est tout à fait différente. Elle consiste généralement à stocker et à réutiliser des données d’invite spécifiques afin d’économiser du temps et des coûts de traitement, et non à modifier le modèle lui-même.
Le terme « fine-tune » (réglage fin) dans le contexte de la mise en cache d’invites a suscité une certaine confusion, car il peut induire les utilisateurs en erreur en leur faisant croire qu’ils ajustent directement le comportement du modèle.

Tim Boesen

août 22, 2024

7 Min