
AWS améliore son service Bedrock LLM avec routage et caching
Alors que de plus en plus d'entreprises passent des prototypes limités d'IA générative à une mise en production à grande échelle, la question des coûts devient cruciale. L'utilisation de grands modèles de langage (LLM) a en effet un prix. Lors de sa conférence re:Invent à Las Vegas, AWS a dévoilé deux nouvelles fonctionnalités pour son service d'hébergement de LLM Bedrock afin d'aider ses clients à optimiser leurs dépenses : le routage intelligent des requêtes et le caching.
Le caching pour éviter un travail redondant aux modèles
Avec le caching, plus besoin de payer le modèle pour retraiter encore et encore des requêtes similaires. "Imaginez qu'il y ait un document, et que plusieurs personnes posent des questions sur ce même document. À chaque fois, vous payez", explique Atul Deo, directeur produit de Bedrock. Grâce au caching, AWS assure pouvoir réduire les coûts jusqu'à 90%, mais aussi diminuer la latence pour obtenir une réponse du modèle de 85%. Adobe, qui a testé le caching sur Bedrock, a constaté un temps de réponse réduit de 72%.
Un routage intelligent des requêtes
L'autre grande nouveauté est le routage intelligent des requêtes. Bedrock peut désormais aiguiller automatiquement les prompts vers différents modèles d'une même famille, en fonction de leur complexité. Un petit modèle de langage prédit les performances de chaque modèle pour une requête donnée. Cela permet aux entreprises de trouver le bon équilibre entre performance et coût.
Parfois, ma requête peut être très simple. Ai-je vraiment besoin de l'envoyer au modèle le plus puissant, qui est extrêmement cher et lent ? Probablement pas.
– Atul Deo, directeur produit de Bedrock
Pour l'instant, le routage est limité aux modèles d'une même famille. Mais à terme, AWS compte étendre ce système et laisser plus de flexibilité aux utilisateurs.
Un marketplace pour les modèles spécialisés
Enfin, AWS lance un nouveau marketplace pour Bedrock. L'idée est de pouvoir héberger les centaines de modèles spécialisés qui émergent, même s'ils n'ont que quelques utilisateurs dédiés. Au total, une centaine de ces modèles "de niche" seront proposés dans un premier temps. La principale différence est que les clients devront provisionner et gérer eux-mêmes la capacité de leur infrastructure, là où Bedrock s'en charge normalement de façon automatique.
Avec ces annonces, AWS consolide sa position sur le marché très concurrentiel des services d'hébergement et d'optimisation de modèles de langage. Des fonctionnalités qui tombent à pic, à l'heure où les entreprises cherchent à industrialiser l'IA générative de la façon la plus rentable possible.