Tarification d’Amazon Bedrock
Vue d’ensemble des tarifs
Amazon Bedrock est un service entièrement géré qui propose un choix de modèles de fondation (FM) performants via une API unique, ainsi qu’un large éventail de capacités permettant de créer des applications d’IA génératives alliant sécurité, confidentialité et IA responsable.
Amazon Bedrock propose des options tarifaires flexibles pour aider les clients à chaque étape de leur parcours vers l’IA générative. Les clients peuvent choisir entre une tarification à la demande pour une utilisation avec paiement à l’usage sans engagement initial, ou le mode lot pour le traitement rentable de gros volumes d’entrées. Pour les charges de travail prévisibles et à volume élevé, le débit provisionné propose une capacité de modèle dédiée à des prix réduits. Ces options permettent d’optimiser les coûts tout en équilibrant les besoins de vitesse, de capacité de mise à l’échelle et de modélisation de l’accès.
Modèles de tarification
À la demande et par lot
Avec le mode à la demande, vous ne payez que ce que vous consommez, sans engagement de durée. Pour les modèles de génération de texte, vous êtes facturé pour chaque jeton d’entrée traité et chaque jeton de sortie généré. Pour les modèles d’intégration, vous êtes facturé pour chaque jeton d’entrée traité. Un jeton est composé de quelques caractères et se réfère à l’unité de base du texte qu’un modèle apprend pour comprendre la saisie et l’invite de l’utilisateur. Pour les modèles de génération d’images, vous êtes facturé pour chaque image générée. Les modèles personnalisés à la demande sont désormais disponibles. En savoir plus sur l’inférence à la demande et les modèles personnalisés.
Inférence entre régions : le mode à la demande prend également en charge l’inférence entre régions pour certains modèles. Il permet aux développeurs de gérer de manière fluide les pics de trafic en utilisant le calcul dans différentes Régions AWS et d’obtenir des limites de débit plus élevées et une résilience accrue. L’utilisation de l’inférence entre régions n’entraîne aucun coût supplémentaire et le prix est calculé sur la base de la Région dans laquelle vous avez fait la demande (région source).
Avec le mode par lots, vous pouvez fournir un ensemble d’invites dans un seul fichier d’entrée et recevoir les réponses dans un seul fichier de sortie, ce qui vous permet d’obtenir des prédictions simultanées à grande échelle. Les réponses sont traitées et stockées dans votre compartiment Amazon S3 afin que vous puissiez y accéder ultérieurement. Amazon Bedrock propose certains modèles de fondation (FM) provenant des principaux fournisseurs d’IA tels qu’Anthropic, Meta, Mistral AI et Amazon pour l’inférence par lots à un prix 50 % inférieur à celui de la tarification d’inférence à la demande. Consultez la liste des modèles ici.
Latence optimisée (prévisualisation publique)
L’inférence à latence optimisée pour les modèles de fondation dans Amazon Bedrock permet d’accélérer les temps de réponse des modèles et d’améliorer la réactivité de vos applications d’IA générative. Vous pouvez utiliser l’inférence à latence optimisée pour Amazon Nova Pro, le modèle Claude 3.5 Haiku d’Anthropic et les modèles Llama 3.1 405B et 70B de Meta. Après analyse, Anthropic a pu constater que, grâce à l’inférence à latence optimisée sur Amazon Bedrock, Claude 3.5 Haiku s’exécute plus rapidement sur AWS que sur n’importe quelle autre solution. En outre, grâce à l’inférence optimisée en matière de latence dans Bedrock, Llama 3.1 405B et 70B s’exécutent plus rapidement sur AWS que tout autre fournisseur de cloud majeur. En savoir plus ici.
Débit alloué
Avec le mode de débit provisionné, vous pouvez acheter des unités de modèle pour un modèle de base ou un modèle personnalisé spécifique. Le mode de débit provisionné est principalement conçu pour les charges de travail d’inférence cohérentes importantes qui nécessitent un débit garanti. Une unité modèle fournit un certain débit, qui est mesuré par le nombre maximum de jetons d’entrée ou de sortie traités par minute. Avec la tarification du débit provisionné, vous êtes facturé à l’heure, vous avez la possibilité de choisir entre des conditions d’engagement d’un mois ou de six mois.
Importation de modèles personnalisés
L’importation de modèles personnalisés vous permet de tirer parti de vos investissements antérieurs en matière de personnalisation de modèles dans Amazon Bedrock et de les utiliser de la même manière entièrement gérée que les modèles de base hébergés existants de Bedrock. Vous pouvez importer des pondérations personnalisées pour les architectures de modèles prises en charge et diffuser le modèle personnalisé en mode à la demande. L’importation d’un modèle personnalisé dans Bedrock est gratuite. Une fois que vous avez importé un modèle, vous pouvez y accéder à la demande sans avoir à effectuer aucune action sur le plan de contrôle. L’inférence de modèle ne vous est facturée que sur la base du nombre de copies de votre modèle personnalisé nécessaires pour gérer votre volume d'inférence et de la durée pendant laquelle chaque copie de modèle est active, facturée par périodes de 5 minutes. Une copie de modèle est une instance unique d’un modèle importé prête à répondre aux demandes d’inférence. Le prix par copie de modèle par minute dépend de facteurs tels que l’architecture, la longueur du contexte, la Région AWS, la version de l’unité de calcul (génération de matériel) et est hiérarchisé en fonction de la taille de copie du modèle.
Modèles Marketplace
Amazon Bedrock Marketplace vous permet de découvrir, de tester et d’utiliser plus de 100 modèles de fondations populaires, émergents et spécialisés dans Bedrock. Les modèles Amazon Bedrock Marketplace sont déployés sur des points de terminaison où vous pouvez sélectionner le nombre d’instances et les types d’instances que vous souhaitez, ainsi que configurer vos politiques de mise à l’échelle automatique pour répondre aux exigences de votre charge de travail. Pour les modèles propriétaires, le prix du logiciel défini par le fournisseur du modèle (par heure, facturable par incréments d’une seconde ou selon la demande) et un prix d’infrastructure basé sur l’instance que vous sélectionnez vous sont facturés. Vous pouvez consulter ces prix avant de souscrire au modèle de fournisseur et également consulter l’annonce du modèle sur AWS Marketplace. Pour les modèles accessibles au public, seul le prix de l’infrastructure vous est facturé en fonction de l’instance que vous sélectionnez. En savoir plus ici.
Personnalisation et optimisation
Personnalisation du modèle
Distillation de modèles
Avec la distillation de modèles Amazon Bedrock, les clients peuvent transférer des connaissances d’un modèle plus performant (connu sous le nom de « modèle enseignant ») vers un modèle plus petit, plus rapide et rentable (appelé « modèle étudiant »), de sorte que le modèle étudiant puisse devenir aussi performant que l’enseignant dans des cas d’utilisation spécifiques. Avec la distillation de modèles Amazon Bedrock, vous payez en fonction de votre utilisation. La distillation est un processus en deux étapes dans lequel des données synthétiques sont d’abord générées à partir du modèle enseignant et ensuite, le modèle étudiant est entraîné. La génération de données synthétiques est facturée au tarif à la demande du modèle enseignant sélectionné. Le peaufinage du modèle étudiant est facturée aux tarifs de personnalisation du modèle. Vous pouvez configurer l’inférence sur un modèle personnalisé en créant un modèle personnalisé de déploiement à la demande ou en achetant le débit provisionné en fonction de vos exigences de charge de travail spécifiques et de vos objectifs de coûts. L’option d’inférence à la demande comprend un modèle de tarification basé sur des jetons qui facture en fonction du nombre de jetons traités lors de l’inférence.
Réglage fin/Entraînement préalable continu
Avec Amazon Bedrock, vous pouvez personnaliser les FM en fonction de vos données afin de fournir des réponses adaptées à des tâches spécifiques et à votre contexte commercial. Vous pouvez affiner les modèles à l’aide de données étiquetées ou utiliser un pré-entraînement continu avec des données non étiquetées. Pour la personnalisation d’un modèle de génération de texte, vous êtes facturé pour l’entraînement du modèle en fonction du nombre total de jetons traités par le modèle (nombre de jetons dans le corpus de données d’entraînement multiplié par le nombre d’époques) et pour le stockage du modèle facturé par mois et par modèle. Une époque correspond à un passage complet dans votre jeu de données d’entraînement lors d’un peaufinage ou d’un pré-entraînement continu.
Vous pouvez configurer l’inférence sur un modèle personnalisé en créant un modèle personnalisé de déploiement à la demande ou en achetant le débit provisionné en fonction de vos exigences de charge de travail spécifiques et de vos objectifs de coûts. L’option d’inférence à la demande comprend un modèle de tarification basé sur des jetons qui facture en fonction du nombre de jetons traités lors de l’inférence. Si vous achetez le débit provisionné, une unité de modèle est mise à disposition sans engagement de durée pour l’inférence sur un modèle personnalisé. Vous serez facturé pour le nombre d’heures que vous utilisez dans la première unité du modèle pour l’inférence de modèle personnalisé. Si vous voulez augmenter votre débit au-delà d’une unité de modèle, vous devez souscrire un engagement d’un mois ou de six mois.
Mise en cache des invites
Grâce à la mise en cache des invites sur Amazon Bedrock, vous pouvez mettre en cache le contexte répété entre les appels d’API afin de réduire vos coûts et les temps de latence des réponses. Les invites contiennent souvent un contexte ou des préfixes communs, tels que de longues conversations à plusieurs tours, des exemples variés et des instructions détaillées qui affinent le comportement du modèle. À l’aide des API Amazon Bedrock existantes, vous pouvez spécifier les préfixes d’invite que vous souhaitez mettre en cache pendant cinq minutes dans un cache propre à un compte AWS. Pendant cette période, toutes les demandes comportant des préfixes correspondants bénéficient d’une réduction allant jusqu’à 90 % sur les jetons mis en cache et d’une amélioration de la latence allant jusqu’à 85 %. Les prix et les améliorations de performances varient en fonction du modèle et de la longueur de l’invite, mais vos caches sont toujours isolés de votre compte AWS.
Prompt Management et Prompt Optimization
Amazon Bedrock Prompt Management accélère la création, le test et l’exécution des invites grâce à une interface utilisateur intuitive et à un ensemble d’API. Vous pouvez facilement tester et modifier les versions de vos invites, comparer différentes variantes et les exécuter dans une infrastructure sans serveur sécurisée.
Prompt Optimization dans Amazon Bedrock réécrit automatiquement les invites pour de meilleures performances et des réponses plus concises pour les modèles de fondation. La solution s’intègre à Prompt Management pour comparer côte à côte les versions originales et optimisées, et permettre la gestion du cycle de vie des invites. Vous pouvez également utiliser Prompt Optimization dans un terrain de jeu Bedrock ou directement via l’API.
Outils
Barrières de protection
Les barrières de protection Amazon Bedrock représentent la seule fonctionnalité d’IA responsable proposée par un important fournisseur de cloud qui vous aide à créer et à personnaliser des garanties de sécurité, de confidentialité et de conformité pour vos applications d’IA générative. Cette fonctionnalité évalue les entrées des utilisateurs et modélise les réponses en fonction de politiques spécifiques aux cas d’utilisation, fournissant ainsi un niveau de protection supplémentaire au-delà de ce qui est disponible en mode natif. Les mesures de protection des barrières de protection peuvent être appliquées aux modèles hébergés sur Amazon Bedrock ou à tout autre modèle tiers (comme OpenAI ou Google Gemini) via l’API ApplyGuardrail. Vous pouvez également utiliser les barrières de protection avec un framework d’agent comme Strands Agents, y compris les agents déployés avec Amazon Bedrock AgentCore. Les barrières de protection vous aident à filtrer les hallucinations et à améliorer la précision factuelle grâce à des vérifications contextuelles par rapport au contenu RAG et à des vérifications du raisonnement automatisé pour fournir des réponses véridiques et prouvables.
Bases de connaissances et Data Automation
Les bases de connaissances d’Amazon Bedrock sont un flux de travail de génération à enrichissement contextuel (RAG) entièrement géré, qui permet aux clients de créer des applications d’IA générative hautement précises, à faible latence, sécurisées et personnalisées en incorporant des informations contextuelles provenant de leurs propres sources de données. Il prend en charge diverses sources de données, notamment S3, ainsi que Confluence, Salesforce et SharePoint, en version préliminaire. Il permet également l’ingestion de documents pour les données de streaming. Les bases de connaissances Bedrock convertissent les données non structurées en vectorisations, les stockent dans des bases de données vectorielles et permettent de les extraire de divers magasins de données. Il s’intègre également à Kendra pour la récupération gérée et prend en charge la récupération de données structurées à l’aide du langage naturel vers SQL.
Amazon Bedrock Data Automation transforme le contenu multimodal non structuré en formats de données structurés pour des cas d’utilisation tels que le traitement intelligent des documents, l’analyse vidéo et la génération à enrichissement contextuel (RAG). Bedrock Data Automation peut générer du contenu de sortie standard à l’aide de valeurs par défaut prédéfinies qui sont spécifiques à la modalité, comme des descriptions scène par scène de vidéos, des transcriptions audio ou une analyse automatique de documents. Les clients peuvent également créer des sorties personnalisées en spécifiant leurs exigences de sortie dans des plans en fonction de leur propre schéma de données, qu’ils peuvent ensuite facilement charger dans une base de données ou un entrepôt de données existant. Grâce à une intégration avec les bases de connaissances, Bedrock Data Automation peut également servir à analyser le contenu des applications de RAG, pour ainsi améliorer la précision et la pertinence des résultats en incluant des informations intégrées à la fois dans les images et le texte.
Agents
Les agents Amazon Bedrock vous permettent de créer et de configurer des agents autonomes au sein de votre application. Ces agents se connectent en toute sécurité aux sources de données de votre entreprise et répondent aux demandes des utilisateurs avec les bonnes informations afin de générer des réponses précises. Vous pouvez créer une application à agent unique ou multi-agents en quelques étapes rapides, ce qui accélère le temps nécessaire à la création d’applications d’IA générative. Ces agents prennent en charge l’interprétation du code pour générer et exécuter du code de manière dynamique, ainsi que le retour du contrôle, ce qui vous permet de définir un schéma d’action et de récupérer le contrôle chaque fois que l’agent invoque l’action. En outre, les agents Amazon Bedrock peuvent conserver la mémoire lors des interactions, offrant ainsi des expériences utilisateur plus personnalisées et plus fluides.
Flows
Amazon Bedrock Flows est une fonctionnalité de création et d’exécution de flux de travail Bedrock pour les applications d’IA génératives. Il accélère la création, les tests et le déploiement de flux de travail d’IA générative définis par l’utilisateur grâce à un générateur visuel intuitif et à un ensemble d’API. Il vous permet de relier de manière fluide les derniers modèles de base, les invites, les agents, la base de connaissances, les barrières de protection et les services AWS (tels que Amazon Lex, AWS Lambda, Amazon S3) à la logique métier pour créer des flux de travail d’IA générative. Vous pouvez facilement tester et modifier vos flux de travail, et les exécuter dans un environnement sécurisé sans serveur via une interface visuelle ou une API sans avoir à créer votre propre infrastructure.
Évaluations
Évaluation des modèles : avec l’évaluation des modèles d’Amazon Bedrock, vous payez en fonction de votre utilisation, sans engagements de volume minimum sur le nombre d’invites ou de réponses. Pour l’évaluation automatique (programmatique), vous ne payez que pour l’inférence du modèle de votre choix dans l’évaluation. Les scores algorithmiques générés automatiquement sont fournis sans frais supplémentaires. Pour l’évaluation automatique (modèle/LLM-juge), vous ne payez que pour l’inférence du modèle générateur et du modèle évaluateur de votre choix. Dans une tâche d’évaluation des modèles avec un LLM-juge, les métriques intégrées utilisent des modèles d’invite spécifiques à chaque métrique et au modèle juge disponible, qui seront facturés dans le cadre de votre utilisation de jetons. Les invites des juges sont disponibles dans la documentation AWS publique pour des raisons de transparence. Dans le cas d’une évaluation basée sur l’humain où vous apportez votre propre équipe de travail, l’inférence de modèle lors de l’évaluation vous est facturée à 0,21 USD par tâche humaine effectuée. Une tâche humaine est définie comme l’occurrence par laquelle un travailleur humain soumet une évaluation d’une seule invite et de ses réponses d’inférence associées dans l’interface utilisateur d’évaluation humaine. Le prix par tâche est le même que vous utilisiez un ou deux modèles pour votre tâche d’évaluation et quel que soit le nombre de mesures d’évaluation et de méthodes de notation que vous incluez. Les frais liés aux tâches humaines apparaîtront dans la section Amazon SageMaker de votre facture AWS et sont les mêmes pour toutes les régions AWS. Il n’y a pas de frais distincts pour la main-d’œuvre, car la main-d’œuvre est fournie par vous. Si vous utilisez la fonctionnalité « Apporter vos propres réponses d’inférence » au lieu d’appeler un modèle Bedrock pendant la tâche d’évaluation, vous ne serez facturé que pour l’inférence de modèle d’évaluation (tâches LLM-juge) ou 0,21 USD par tâche humaine terminée (tâches d’évaluation basées sur l’humain). Pour une évaluation par un expert gérée par AWS, la tarification est personnalisée en fonction de vos besoins d’évaluation dans le cadre d’un engagement privé en collaboration avec l’équipe d’évaluation d’AWS.
Évaluation RAG : avec l’évaluation RAG d’Amazon Bedrock, vous payez en fonction de votre utilisation, sans engagements de volume minimum sur le nombre d’invites ou de réponses. Si vous évaluez une base de connaissances Amazon Bedrock, vous ne payez que pour l’inférence à partir du modèle de générateur et du modèle d’évaluation de votre choix (la tâche d’évaluation utilise un LLM-juge), ainsi que tous les frais liés à l’utilisation de la base de connaissances dans le cadre de la tâche d’évaluation, conformément à la tarification des base de connaissances Amazon Bedrock. Si vous utilisez la fonctionnalité « Apporter vos propres réponses d’inférence », seule l’inférence de modèle d’évaluation vous est facturée. Dans le cadre d’une tâche d’évaluation RAG, les métriques intégrées utilisent un modèle d’invite d’évaluation du système spécifique à chaque métrique et au modèle d’évaluation disponible, qui sera facturé dans le cadre de l’utilisation de vos jetons, et les invites d’évaluation sont disponibles dans la documentation AWS publique pour des raisons de transparence. Certaines métriques impliquent de réaliser une inférence de modèle d’évaluation sur le contexte extrait de votre base de connaissances/système RAG ou vos réponses de référence, en plus de l’invite d’entrée, ce qui influe sur les coûts associés à chaque métrique. Plus d’informations sur chaque métrique sont disponibles dans la documentation AWS publique pour les évaluations.
Détails de tarification des modèles
La tarification dépend de la modalité, du fournisseur et du modèle. Sélectionnez le fournisseur du modèle pour voir les tarifs détaillés.
Amazon Bedrock propose certains modèles de fondation (FM) provenant des principaux fournisseurs d’IA tels qu’Anthropic, Meta, Mistral AI et Amazon pour l’inférence par lots à un prix 50 % inférieur à celui de la tarification d’inférence à la demande. Consultez la liste des modèles ici.
-
AI21 Labs
-
Amazon
-
Anthropic
-
Cohere
-
DeepSeek
-
Luma AI
-
Meta
-
Mistral AI
-
OpenAI
-
TwelveLabs
-
Stability AI
-
Writer
-
Qwen
-
Importation de modèles personnalisés
-
AI21 Labs
-
AI21 Labs
Tarification à la demande
-
Amazon
-
-
Amazon Nova
-
Amazon Titan
-
Autres Amazon
-
Amazon Nova
-
Amazon Nova
Tarification des modèles de compréhension
Tarification des modèles de génération de contenu créatif
Tarification des modèles de compréhension et de génération de la parole
Tarification à la demande pour les modèles de fondation de synthèse vocale
Remarque : *la tarification d’entrée et de sortie des jetons de texte s’applique à des cas d’utilisation spécifiques tels que la transcription parole-texte, les appels d’outils pour l’achèvement de tâches ou l’ancrage des connaissances, l’ajout d’un historique des conversations à la session, etc.
L’inférence à la demande pour les modèles Nova personnalisés est proposée au même prix que l’inférence Nova de base.
-
Amazon Titan
-
Amazon Titan
-
Autres Amazon
-
-
-
Anthropic
-
Anthropic
Tarification à la demande et par lots
Inférence optimisée en termes de latence
Tarification du débit provisionné
Région : USA Est (Virginie du Nord) et USA Ouest (Oregon)
Modèles Anthropic Prix par heure par modèle avec
aucun engagementTarif horaire par unité modèle pour un engagement d'un mois Tarif horaire par unité modèle pour un engagement de six mois Claude Instant
44,00 USD 39,60 USD
22 USD
Claude 2.0/2.1
70,00 USD 63,00 USD
35,00 USD
Région : Asie-Pacifique (Tokyo)
Modèles Anthropic Tarif horaire par unité modèle pour un engagement d’un mois Tarif horaire par unité modèle pour un engagement de six mois Claude Instant
53 USD
29 USD
Claude 2.0/2.1
86 USD
48 USD
Région : Europe (Francfort)
Modèles Anthropic Tarif horaire par unité modèle pour un engagement d’un mois Tarif horaire par unité modèle pour un engagement de six mois Claude Instant
49 USD
27 USD
Claude 2.0/2.1
79 USD
44 USD
Contactez l’équipe responsable de votre compte AWS pour plus de détails sur les unités modèles.
-
Cohere
-
Cohere
Tarification à la demande
Modèles Cohere Prix pour 1 000 requêtes** Rerank 3.5 2,00 USD **Le nombre de requêtes pouvant contenir jusqu’à 100 segments de document vous est facturé. Si la requête contient plus de 100 segments de document, elle est comptée comme plusieurs requêtes. Par exemple, si une demande contient 350 documents, elle sera traitée comme 4 demandes. Veuillez noter que chaque document ne peut contenir que 500 jetons (y compris le total des jetons de la requête et du document), et si la longueur du jeton est supérieure à 512 jetons, il est divisé en plusieurs documents. Tarification pour la personnalisation (ajustement)
*Nombre total de jetons entraînés = nombre de jetons dans le corpus de données d’entraînement x nombre d’époques
Tarification du débit provisionné
Modèles Cohere Prix par heure et par modèle
sans engagementTarif horaire par unité modèle pour un engagement d'un mois Tarif horaire par unité modèle pour un engagement de six mois
Command de Cohere
49,5 USD 39,60 USD
23,77 USD
Cohere Command - Light 8,56 USD 6,85 USD
4,11 USD Intégrer 3 anglais 7,12 USD 6,76 USD
6,41 USD Intégrer 3 multilingue 7,12 USD 6,76 USD
6,41 USD Veuillez contacter votre compte AWS ou votre équipe de vente pour plus de détails sur les modèles d'unités.
-
DeepSeek
-
DeepSeek
Tarification à la demande
-
Luma AI
-
Tarification à la demande
-
Meta
-
Meta
Llama 4
Tarification à la demande et par lots
Llama 3.3
Tarification à la demande et par lots
Llama 3.2
Tarification à la demande et par lots
Tarification pour la personnalisation de modèle (ajustement)
Tarification du débit provisionné
Llama 3.1
Tarification à la demande et par lots
Tarification pour la personnalisation de modèle (ajustement)
Tarification du débit provisionné
Llama 3
Tarification à la demande
Llama 2
Tarification à la demande
Région : USA Est (Virginie du Nord) et USA Ouest (Oregon)
Modèles Meta Prix pour 1 000 jetons d’entrée Prix pour 1 000 jetons de sortie Lama 2 Chat (13B)
0,00075 USD
0,001 USD
Llama 2 Chat (70B) 0,00195 USD
0,00256 USD Tarification pour la personnalisation de modèle (ajustement)
Modèles Meta Prix pour entraîner 1 000 jetons Prix pour stocker chaque modèle personnalisé* par mois Prix à déduire d’un modèle personnalisé pour une unité de modèle par heure (avec une tarification de débit provisionné sans engagement) Llama 2 Pretrained (13B)
0,00149 USD
1,95 USD
23,50 USD
Llama 2 Pretrained (70B) 0,00799 USD
1,95 USD 23,50 USD *Stockage de modèles personnalisés = 1,95 USD
Tarification du débit provisionné
Modèles Meta Tarif horaire par unité modèle pour un engagement d’un mois Tarif horaire par unité de modèle pour un engagement de six mois Llama 2 Pretrained et Chat (13B)
21,18 USD
13,08 USD
Llama 2 Pretrained (70B) 21,18 USD
13,08 USD *Les modèles préentraînés de Llama 2 ne sont disponibles qu’en débit provisionné après personnalisation.
Pour plus de détails sur les unités de modèle, veuillez contacter l’équipe responsable de votre compte AWS ou l’équipe des ventes.
-
Mistral AI
-
Mistral AI
-
OpenAI
-
OpenAI
-
TwelveLabs
-
TwelveLabs
Tarification à la demande
-
Stability AI
-
Stability AI
Tarification à la demande
Les modèles d’images de la génération précédente proposés par Stability AI sont facturés par image, en fonction du nombre d’étapes et de la résolution de l’image.
Région : Oregon, Virginie du Nord, Ohio
Modèles Prix par génération pour chaque modèle Stable Image – Suppression d’arrière-plan 0,07 USD Stable Image – Effacement d’objet 0,07 USD Stable Image – Structure de contrôle 0,07 USD Stable Image – Croquis de contrôle 0,07 USD Stable Image – Guide de style 0,07 USD Stable Image – Rechercher et remplacer 0,07 USD Stable Image – Retoucher 0,07 USD Stable Image – Rechercher et recoloriser 0,07 USD Stable Image – Transfert de style 0,08 USD -
Writer
-
Writer
Tarification à la demande
Modèles de Writer Prix pour 1 000 jetons d’entrée Prix pour 1 000 jetons de sortie Palmyra X4 0,0025 USD 0,010 USD Palmyra X5 0,0006 USD 0,006 USD -
Qwen
-
Qwen
-
Importation de modèles personnalisés
-
Importation de modèles personnalisés
-
Llama
-
Lama multimodal
-
Mistral
-
Mixtral
-
Flan
-
Qwen
-
Llama
-
Régions : USA Est (Virginie du Nord) et USA Ouest (Oregon)
Version d'unité modèle personnalisée v1.0 Prix par unité de modèle personnalisé par min* 0,05718 USD Coût de stockage mensuel par unité de modèle personnalisé 1,95 USD Région : Europe (Francfort)
Version de l'unité de modèle personnalisé v1.0 Prix par unité de modèle personnalisé par min* 0,07144 USD Coût de stockage mensuel par unité de modèle personnalisé 1,95 USD Remarque : les unités de modèle personnalisé nécessaires pour héberger un modèle dépendent de divers facteurs, notamment de l'architecture du modèle, du nombre de paramètres du modèle et de la longueur du contexte. Le nombre exact d'unités de modèle personnalisé nécessaires sera déterminé au moment de l'importation. À titre de référence, le modèle Llama 3.1 8B 128K nécessite 2 unités de modèle personnalisées, un modèle Llama 3.1 70B 128k nécessite 8 unités de modèle personnalisées.
*Facturé par créneaux de 5 minutes
-
Lama multimodal
-
Régions : USA Est (Virginie du Nord) et USA Ouest (Oregon)
Version d'unité modèle personnalisée v1.0 Prix par unité de modèle personnalisé par min* 0,05718 USD Coût de stockage mensuel par unité de modèle personnalisé 1,95 USD Région : Europe (Francfort)
Version de l'unité de modèle personnalisé v1.0 Prix par unité de modèle personnalisé par min* 0,07144 USD Coût de stockage mensuel par unité de modèle personnalisé 1,95 USD Remarque : les unités de modèle personnalisé nécessaires pour héberger un modèle dépendent de divers facteurs, notamment de l'architecture du modèle, du nombre de paramètres du modèle et de la longueur du contexte. Le nombre exact d'unités de modèle personnalisé nécessaires sera déterminé au moment de l'importation. À titre de référence, le modèle Llama 3.1 8B 128K nécessite 2 unités de modèle personnalisées, un modèle Llama 3.1 70B 128k nécessite 8 unités de modèle personnalisées.
*Facturé par tranches de cinq minutes
-
Mistral
-
Régions : USA Est (Virginie du Nord) et USA Ouest (Oregon)
Version d'unité modèle personnalisée v1.0 Prix par unité de modèle personnalisé par min* 0,05718 USD Coût de stockage mensuel par unité de modèle personnalisé 1,95 USD Région : Europe (Francfort)
Version de l'unité de modèle personnalisé v1.0 Prix par unité de modèle personnalisé par min* 0,07144 USD Coût de stockage mensuel par unité de modèle personnalisé 1,95 USD Remarque : les unités de modèle personnalisé nécessaires pour héberger un modèle dépendent de divers facteurs, notamment de l'architecture du modèle, du nombre de paramètres du modèle et de la longueur du contexte. Le nombre exact d'unités de modèle personnalisé nécessaires sera déterminé au moment de l'importation. À titre de référence, le modèle Llama 3.1 8B 128K nécessite 2 unités de modèle personnalisées, un modèle Llama 3.1 70B 128k nécessite 8 unités de modèle personnalisées.
*Facturé par tranches de cinq minutes
-
Mixtral
-
Régions : USA Est (Virginie du Nord) et USA Ouest (Oregon)
Version d'unité modèle personnalisée v1.0 Prix par unité de modèle personnalisé par min* 0,05718 USD Coût de stockage mensuel par unité de modèle personnalisé 1,95 USD Région : Europe (Francfort)
Version de l'unité de modèle personnalisé v1.0 Prix par unité de modèle personnalisé par min* 0,07144 USD Coût de stockage mensuel par unité de modèle personnalisé 1,95 USD Remarque : les unités de modèle personnalisé nécessaires pour héberger un modèle dépendent de divers facteurs, notamment de l'architecture du modèle, du nombre de paramètres du modèle et de la longueur du contexte. Le nombre exact d'unités de modèle personnalisé nécessaires sera déterminé au moment de l'importation. À titre de référence, le modèle Llama 3.1 8B 128K nécessite 2 unités de modèle personnalisées, un modèle Llama 3.1 70B 128k nécessite 8 unités de modèle personnalisées.
*Facturé par tranches de cinq minutes
-
Flan
-
Régions : USA Est (Virginie du Nord) et USA Ouest (Oregon)
Version d'unité modèle personnalisée v1.0 Prix par unité de modèle personnalisé par min* 0,05718 USD Coût de stockage mensuel par unité de modèle personnalisé 1,95 USD Région : Europe (Francfort)
Version de l'unité de modèle personnalisé v1.0 Prix par unité de modèle personnalisé par min* 0,07144 USD Coût de stockage mensuel par unité de modèle personnalisé 1,95 USD Remarque : les unités de modèle personnalisé nécessaires pour héberger un modèle dépendent de divers facteurs, notamment de l'architecture du modèle, du nombre de paramètres du modèle et de la longueur du contexte. Le nombre exact d'unités de modèle personnalisé nécessaires sera déterminé au moment de l'importation. À titre de référence, le modèle Llama 3.1 8B 128K nécessite 2 unités de modèle personnalisées, un modèle Llama 3.1 70B 128k nécessite 8 unités de modèle personnalisées.
*Facturé par tranches de cinq minutes
Tarification par inférence à la demande :
Vous êtes facturé dans des fenêtres de 5 minutes pour la durée pendant laquelle votre copie de modèle est active à compter de la première invocation réussie. La limite maximale de débit et de simultanéité par copie de modèle dépend de facteurs tels que la combinaison de jetons d’entrée/sortie, le type de matériel, la taille du modèle, l’architecture, les optimisations d’inférence et est déterminée lors du flux de travail d’importation du modèle.Bedrock met automatiquement à l’échelle le nombre de copies du modèle en fonction de vos habitudes d’utilisation. S'il n’y a aucune invocation pendant une période de 5 minutes, Bedrock sera réduit verticalement à zéro puis redimensionné lorsque vous invoquerez votre modèle. Lors de la redimensionnement, vous pouvez rencontrer un temps de démarrage à froid (en dizaines de secondes) en fonction de la taille du modèle. Bedrock augmente verticalement également le nombre de copies du modèle si votre volume d’inférence dépasse systématiquement les limites de simultanéité d’une seule copie de modèle. Remarque : il existe un maximum par défaut de 3 copies de modèle par compte et par modèle importé, qui peut être augmenté par le biais de Service Quotas.
-
Qwen
-
Régions : USA Est (Virginie du Nord) et USA Ouest (Oregon)
Version d'unité modèle personnalisée v1.0 Prix par unité de modèle personnalisé par min* 0,05718 USD Coût de stockage mensuel par unité de modèle personnalisé 1,95 USD Région : Europe (Francfort)
Version de l'unité de modèle personnalisé v1.0 Prix par unité de modèle personnalisé par min* 0,07144 USD Coût de stockage mensuel par unité de modèle personnalisé 1,95 USD Remarque : les unités de modèle personnalisé nécessaires pour héberger un modèle dépendent de divers facteurs, notamment de l'architecture du modèle, du nombre de paramètres du modèle et de la longueur du contexte. Le nombre exact d'unités de modèle personnalisé nécessaires sera déterminé au moment de l'importation. À titre de référence, le modèle Llama 3.1 8B 128K nécessite 2 unités de modèle personnalisées, un modèle Llama 3.1 70B 128k nécessite 8 unités de modèle personnalisées.
*Facturé par tranches de cinq minutes
Tarification par inférence à la demande :
Vous êtes facturé dans des fenêtres de 5 minutes pour la durée pendant laquelle votre copie de modèle est active à compter de la première invocation réussie. La limite maximale de débit et de simultanéité par copie de modèle dépend de facteurs tels que la combinaison de jetons d’entrée/sortie, le type de matériel, la taille du modèle, l’architecture, les optimisations d’inférence et est déterminée lors du flux de travail d’importation du modèle.Bedrock met automatiquement à l’échelle le nombre de copies du modèle en fonction de vos habitudes d’utilisation. S'il n’y a aucune invocation pendant une période de 5 minutes, Bedrock sera réduit verticalement à zéro puis redimensionné lorsque vous invoquerez votre modèle. Lors de la redimensionnement, vous pouvez rencontrer un temps de démarrage à froid (en dizaines de secondes) en fonction de la taille du modèle. Bedrock augmente verticalement également le nombre de copies du modèle si votre volume d’inférence dépasse systématiquement les limites de simultanéité d’une seule copie de modèle. Remarque : il existe un maximum par défaut de trois copies de modèle par compte et par modèle importé, qui peut être augmenté par le biais de Service Quotas.
-
Détails de la tarification des outils et de l’optimisation
-
Flux
-
Bases de connaissances
-
Barrières de protection
-
Évaluation du modèle
-
Automatisation des données
-
Routage des invites intelligent
-
Optimisation des invites
-
Flux
-
Amazon Bedrock Flows
Vous êtes facturé en fonction du nombre de transitions de nœuds nécessaires pour exécuter votre application. Bedrock Flows comptabilise une transition de nœud chaque fois qu'un nœud de votre flux de travail est exécuté. Le nombre total de transitions de nœuds sur l'ensemble de vos flux vous est facturé.
Toutes les charges sont mesurées quotidiennement et facturées mensuellement à compter du 1er février 2025.
Prix pour 1 000 transitions de nœuds 0,035 USD Frais supplémentaires
Des frais supplémentaires peuvent vous être facturés si l'exécution du flux de travail de votre application utilise d'autres services AWS ou transfère des données. Par exemple, si votre flux de travail invoque une politique de barrière de protections Amazon Bedrock, le nombre d’unités de texte traitées par cette politique vous sera facturé.
-
Bases de connaissances
-
Extraction de données structurées (génération SQL)
La récupération de données structurées est facturée pour chaque demande de génération d’une requête SQL. La requête SQL générée est utilisée pour récupérer les données à partir de magasins de données structurés.
Modèles Rerank
Les modèles Rerank sont conçus pour améliorer la pertinence et la précision des réponses dans les applications de génération à enrichissement contextuel (RAG). Ils sont facturés par requête.
**Le nombre de requêtes pouvant contenir jusqu’à 100 segments de document vous est facturé. Si la requête contient plus de 100 segments de document, elle est comptée comme plusieurs requêtes. Par exemple, si une demande contient 350 documents, elle sera traitée comme 4 demandes. Veuillez noter que chaque document ne peut contenir que 512 jetons (y compris le total des jetons de la requête et du document), et si la longueur du jeton est supérieure à 512 jetons, il est divisé en plusieurs documents. Une requête est équivalente à une unité de recherche.
-
Barrières de protection
-
Barrières de protection Amazon Bedrock
Politique des barrières de protection*
Tarification
Filtres de contenu (contenu textuel)
0,15 USD pour 1 000 unités de texte
Filtres de contenu (contenu d'image)
0,00075 USD par image traitée
Sujets refusés
0,15 USD pour 1 000 unités de texte
Filtres d’informations sensibles
0,10 USD pour 1 000 unités de texte
Filtres d’informations sensibles (expression régulière)
Gratuit
Filtres de mots
Gratuit
Vérifications de l’ancrage contextuel
0,10 USD pour 1 000 unités de texte
Vérifications du raisonnement automatisé
0,17 USD pour 1 000 unités de texte par politique de raisonnement automatisé
Tarification à la demande
* Chaque politique de barrière de protections est facultative et peut être activée en fonction des exigences de votre application. Des frais seront facturés en fonction du type de police utilisé pour la barrière de protections. Par exemple, si une barrière de protection est configurée avec des filtres de contenu et des sujets refusés, des frais seront facturés pour ces deux politiques, alors qu'aucun frais ne sera associé aux filtres d'informations sensibles.
Remarque : une unité de texte peut contenir jusqu'à 1 000 caractères. Si une saisie de texte comporte plus de 1 000 caractères, elle est traitée comme plusieurs unités de texte, chacune contenant 1 000 caractères ou moins. Par exemple, si une saisie de texte contient 5 600 caractères, elle sera facturée pour 6 unités de texte.La vérification d'ancrage contextuelle utilise une source de référence et une requête pour déterminer si la réponse du modèle est fondée sur la source et pertinente pour la requête. Le nombre total d’unités de texte facturées est calculé en combinant tous les caractères de la source, de la requête et de la réponse du modèle.
-
Évaluation du modèle
-
Évaluation du modèle
L'évaluation du modèle est facturée pour l'inférence à partir du modèle que vous avez choisi. Les scores algorithmiques générés automatiquement sont fournis sans frais supplémentaires. Pour l'évaluation basée sur l'humain dans laquelle vous apportez votre propre flux de travail, l'inférence du modèle dans l'évaluation vous est facturée et des frais de 0,21 USD par tâche humaine effectuée vous sont facturés.
Modèle
Prix pour 1 000 jetons d’entrée
Prix pour 1 000 jetons de sortie
Prix par tâche humaine
Modèle sélectionné pour l'évaluation
Sur la base du modèle sélectionné
Sur la base du modèle sélectionné
0,21 USD
-
Automatisation des données
-
Automatisation des données
Les bases de connaissance d’Amazon Bedrock proposent une intégration Bedrock Data Automation afin de fournir des réponses plus pertinentes et plus précises aux données multimodales. Lorsque vous configurez une base de connaissances, vous pouvez sélectionner Bedrock Data Automation comme méthode d’analyse pour analyser et extraire des informations pertinentes à partir d’images ou de documents, qui peuvent inclure des figures, des graphiques et des diagrammes. Au cours du traitement, Bedrock Data Automation extrait des informations pertinentes des documents et des images ingérés, qui sont ensuite utilisées dans les étapes suivantes de la base de connaissances pour le découpage, la vectorisation et le stockage. Lorsqu’elle est intégrée aux bases de connaissances, Bedrock Data Automation fournit et facture des résultats standardisés.
-
Routage des invites intelligent
-
Point de prix Dimension de tarification Plan tarifaire Routage des invites intelligent 1 USD par tranche de 1 000 requêtes À la demande Routage des invites intelligent
Le routage des invites intelligent vous permet d'utiliser une combinaison de modèles de fondation (FM) de la même famille de modèles pour optimiser la qualité et les coûts. Par exemple, avec la famille de modèles Anthropic's Claude, Amazon Bedrock peut acheminer intelligemment les requêtes entre Claude 3.5 Sonnet et Claude 3 Haiku en fonction de la complexité de l'invite. De même, Amazon Bedrock peut acheminer les demandes entre Meta Llama 3.3 70B et 3.18B, et Nova Pro et Nova Lite. Le routeur des invites prédit quel modèle fournira les meilleures performances pour chaque demande, tout en optimisant la qualité de la réponse et les coûts. Cette fonction est particulièrement utile pour les applications telles que les assistants de service client, où les requêtes simples peuvent être traitées par des modèles plus petits, plus rapides et plus rentables, et où les requêtes complexes sont acheminées vers des modèles plus performants. Le routage des invites intelligent peut réduire les coûts jusqu’à 30 % sans compromettre la précision.
-
Optimisation des invites
-
Optimisation des invites pour Amazon Bedrock
Vous êtes facturé en fonction du nombre de jetons figurant dans les invites saisies et dans les invites optimisées.
Tous les frais sont facturés mensuellement à compter du 23 avril 2025.
Prix pour 1 000 jetons 0,030 USD
Exemples de tarification
-
AI21 labs
Un développeur d’applications effectue les appels d’API suivants à Amazon Bedrock : une demande au modèle Jurrasic-2 Mid d’AI21 pour résumer une entrée de 10 000 jetons de texte d’entrée en une sortie de 2 000 jetons.
Coût total encouru = 10 000 jetons/1 000 x 0,0125 USD + 2 000 jetons/1 000 x 0,0125 USD = 0,15 USD
-
Amazon
Tarification à la demande
Un développeur d’applications effectue les appels d’API suivants à Amazon Bedrock toutes les heures : une demande au modèle Amazon Titan Text Lite pour résumer une entrée de 2 000 jetons de texte d’entrée en une sortie de 1 000 jetons.
Coût horaire total encouru = 2 000 jetons/1 000 x 0,0003 USD + 1 000 jetons/1 000 x 0,0004 USD = 0,001 USD.
Un développeur d’applications effectue les appels d’API suivants à Amazon Bedrock : une demande au modèle de base Amazon Titan Image Generator pour générer 1 000 images de taille 1 024 × 1 024 au format de qualité standard.
Coût total encouru = 1 000 images x 0,01 USD par image = 10 USD
Tarification de la personnalisation (ajustement et pré-entraînement continu)
Un développeur d’applications personnalise un modèle Amazon Titan Image Generator à l’aide de 1 000 paires image-texte. Après l’entraînement, le développeur utilise le débit provisionné du modèle personnalisé pendant une heure pour évaluer la performance du modèle. Le modèle ajusté est conservé pendant un mois. Après évaluation, le développeur utilise le débit provisionné (engagement d’un mois) pour héberger le modèle personnalisé.
Le coût mensuel encouru pour l’ajustement est le suivant : entraînement de l’ajustement (0,005 USD x 500 x 64), où 0,005 USD est le prix par image vue, 500 est le nombre d’étapes et 64 est la taille du lot, + stockage du modèle personnalisé par mois (1,95 USD) + une heure d’inférence de modèle personnalisé (21 USD) = 160 USD + 1,95 USD + 21 USD = 182,95 USD
Tarification du débit provisionné
Un développeur d’applications achète deux unités de modèles Amazon Titan Text Express avec un engagement d'un mois pour son cas d'utilisation de résumé de texte.
Coût mensuel total encouru = 2 unités de modèles x 18,40 USD/heure x 24 heures x 31 jours = 27 379,20 USD
Un développeur d’applications achète une unité de modèle du modèle de base Amazon Titan Image Generator avec un engagement d’un mois.
Coût total engagé = 1 unité de modèle * 16,20 USD * 24 heures * 31 jours = 12 052,80 USD
-
Barrières de protection Amazon Bedrock
Exemple 1 : chatbot d'assistance à la clientèle
Un développeur d'applications crée un chatbot d'assistance à la clientèle et utilise des filtres de contenu pour bloquer le contenu préjudiciable et les sujets refusés pour filtrer les requêtes et les réponses indésirables.
Le chatbot répond à 1 000 requêtes d'utilisateurs par heure. Chaque requête utilisateur a une longueur d'entrée moyenne de 200 caractères et reçoit une réponse FM de 1 500 caractères.
Chaque requête utilisateur de 200 caractères correspond à une unité de texte.
Chaque réponse FM de 1 500 caractères correspond à 2 unités de texte.
Unités de texte traitées chaque heure = (1 + 2) x 1 000 requêtes = 3 000 unités de texte
Coût total par heure pour les filtres de contenu et les sujets refusés = 3000 x (0,15 USD + 0,15 USD) / 1000 = 0,90 USD
Exemple 2 : résumé des transcriptions d’un centre d’appels
Un développeur d'applications crée une application pour résumer les transcriptions des discussions entre les utilisateurs et les agents d’assistance. Il utilise un filtre d'informations sensibles pour supprimer les données d’identification personnelles (PII) dans les résumés générés pour 10 000 conversations.
Chaque résumé généré comporte en moyenne 3 500 caractères, ce qui correspond à 4 unités de texte.
Coût total engagé pour résumer 10 000 conversations = 10 000 * 4 * (0,1/1 000 USD) = 4 USDExemple 3 : moteur de vérification de protocole médical
Une entreprise de technologie médicale met en œuvre des vérifications du raisonnement automatisé dans son système d’aide à la décision clinique afin de valider les suggestions de traitement par rapport aux directives médicales.
Le système traite 5 000 cas de patients par mois. Chaque cas implique :
- Résumé des données du patient : 500 caractères (1 unité de texte)
- Évaluation du diagnostic : 2 000 caractères (2 unités de texte)
- Recommandation de traitement : 4 500 caractères (5 unités de texte)
Unités de texte traitées par mois = (1 + 2 + 5) * 5 000 cas = 40 000 unités de texte
Coût total encouru par mois pour les vérifications du raisonnement automatisé = 40 000 * 0,17 USD/1 000 = 6,80 USD -
Amazon Bedrock Knowledge Bases
Exemple de tarification 1 (reclassement à l’aide du modèle Amazon Rerank 1.0)
Au cours d’un mois donné, vous soumettez 2 millions de demandes à l’API Rerank en utilisant le modèle Amazon Rerank 1.0 : 1 million de ces demandes contiennent moins de 100 documents chacune et seront donc facturées pour une demande chacune. Le million de demandes restant contient 120 à 150 documents. Par conséquent, chacune de ces demandes sera facturée pour 2 demandes.
Prix par demande = 0,001 USD
Coût total = 1 000 000 * 0.001 USD + 1 000 000 * 2 * 0.001 USD = 3 000 USDExemple de tarification 2 : (extraction de données structurées)
Un développeur d’applications crée un chatbot de support qui interroge les données structurées stockées dans Amazon Redshift. Le développeur crée une base de connaissances Bedrock et se connecte à Amazon Redshift. Le chatbot répond à 10 000 requêtes d’utilisateurs par heure. Chaque requête utilisateur coûtera 0,002 USD par API GenerateQuery pour générer du code SQL à partir d’une requête utilisateur.
Coût total encouru pour générer du code SQL par heure = 0,002 * 10 000 USD = 20 USD.
Coût total engagé au cours du mois = 20 USD * 24 * 30 = 1 440 USD -
Anthropic
Tarification à la demande
Un développeur d’applications effectue les appels d’API suivants à Amazon Bedrock dans la région USA Ouest (Oregon) : une demande au modèle Anthropic Claude pour résumer une entrée de 11 000 jetons de texte d’entrée en une sortie de 4 000 jetons.
Coût total encouru = 11 000 jetons/1 000 x 0,008 USD + 4 000 jetons/1 000 x 0,024 USD = 0,088 USD + 0,096 USD = 0,184 USD
Tarification du débit provisionné
Un développeur d’applications achète une unité de modèle Anthropic Claude Instant dans la région USA Ouest (Oregon) :
Coût mensuel total encouru = 1 unité de modèle * 39,60 USD * 24 heures * 31 jours = 29 462,40 USD
-
Cohere
Tarification à la demande
Un développeur d’applications effectue les appels d’API suivants à Amazon Bedrock : une demande au modèle Cohere Command pour résumer une entrée de 6 000 jetons de texte d’entrée en une sortie de 2 000 jetons.
Coût total encouru = 6 000 jetons/1 000 x 0,0015 USD + 2 000 jetons/1 000 x 0,0020 USD = 0,013 USD
Un développeur d’applications effectue les appels d’API suivants à Amazon Bedrock : une demande au modèle Cohere Command - Light pour résumer une entrée de 6 000 jetons de texte d’entrée en une sortie de 2 000 jetons.
Coût total encouru = 6 000 jetons/1 000 x 0,0003 USD + 2 000 jetons/1 000 x 0,0006 USD = 0,003 USD
Un développeur d’applications effectue les appels d’API suivants à Amazon Bedrock : une demande au modèle Cohere Embed anglais ou multilingue pour générer des intégrations pour 10 000 jetons d’entrée.
Coût total encouru = 10 000 jetons/1 000 x 0,0001 USD = 0,001 USD
Tarification de la personnalisation (ajustement)
Un développeur d’applications personnalise un modèle Cohere Command à l’aide de 1 000 jetons de données. Après l’entraînement, il utilise le débit provisionné du modèle personnalisé pendant une heure pour évaluer les performances du modèle. Le modèle ajusté est conservé pendant un mois. Après évaluation, le développeur utilise le débit provisionné (engagement d’un mois) pour héberger le modèle personnalisé.
Coût mensuel encouru pour l’ajustement = ajustement de l’entraînement (0,004 USD x 1 000) + stockage du modèle personnalisé par mois (1,95 USD) + 1 heure d’inférence du modèle personnalisé (49,50 USD) = 55,45 USD
Coût mensuel encouru pour le débit provisionné (engagement d’un mois) du modèle personnalisé = 39,60 USD
Tarification du débit provisionné
Un développeur d’applications achète une unité de modèle de Cohere Command avec un engagement d’un mois pour son cas d’utilisation de résumé de texte.
Coût mensuel total encouru = 1 unité de modèle * 39,60 USD * 24 heures * 31 jours = 29 462,40 USD
-
Importation de modèles personnalisés
Exemple de tarification : un développeur d'applications importe un modèle de type Llama 3.1 personnalisé d'une taille de paramètre 8B avec une longueur de séquence de 128 Ko dans la région us-est-1 et supprime le modèle au bout d'un mois. Cela nécessite 2 unités de modèle personnalisées. Ainsi, le prix par minute sera de 0,1570 USD car 2 unités de modèle personnalisées sont requises. Les coûts de stockage des modèles pour 2 unités modèles personnalisées seraient de 3,90 USD par mois.
L’importation du modèle est gratuite. La première invocation réussie a lieu à 8 h 03, heure à laquelle le comptage commence. Les fenêtres de comptage de 5 minutes vont de 8 h 03 à 8 h 07 ; de 8 h 07 à 8 h 11, etc. S’il y a au moins une invocation pendant une période de 5 minutes, la fenêtre sera considérée comme active pour la facturation. S’il y a une invocation à 8 h 03 et aucune autre invocation après 8 h 07, le comptage s’arrêtera à 8 h 07. Dans ce cas, la facture serait calculée comme suit : 0,1570 USD * 5 minutes * 1 tranche de 5 minutes = 0,785 USD.
-
Data Automation
Exemple de tarification 1 :
Supposons que vous traitiez un document de 1 000 pages à l’aide de la sortie standard BDA. Les 1 000 pages sont traitées à l’aide du plan 1 qui comporte 15 champs. Le prix par page pour tout plan comportant 30 champs ou moins est de 0,040 USD. Le coût total s’élèverait à 40 USD.
Nombre total de pages traitées = 1 000
Prix par page pour les plans comportant moins de 30 champs = 0,040 USD
Coût total = 1 000 USD * 0.040 = 40 USDExemple de tarification 2 :
Supposons que vous traitiez 2 documents à l’aide de la sortie standard BDA. Le document 1 compte 40 pages et est traité à l’aide du plan 1 qui comporte 20 champs. Le document 2 compte 10 pages et est traité à l’aide du plan 2, qui comporte 40 champs. Le prix par page du plan 1 est de 0,040 USD, car il contient 30 champs ou moins. Le prix par page du plan 2 est de 0,045 USD. Le coût de traitement du document 1 à l’aide du plan 1 est de 1,60 USD. Le coût de traitement du document 2 à l’aide du plan 2 est de 0,45 USD. Le coût total du traitement des deux documents serait de 2,05 USD.
Nombre total de pages traitées = 50
Prix par page pour le Plan 1 contenant moins de 30 champs = 0,040 USD
Prix par page pour le Plan 2 avec 40 champs = 0,040 USD + (nombre de champs supplémentaires supérieurs à 30 * 0,0005 USD par champ)
Nombre de champs supplémentaires supérieur à 30 = 40 - 30 = 10
Prix par page pour le Plan 2 avec 40 champs = 0,040 USD + (10 *0,0005 USD par champ) = 0,045 USD
Frais pour le document 1 utilisant le plan 1 = 40 pages x 0,040 USD par page = 1,6 USD
Frais pour le document 2 utilisant le plan 2 = 10 pages x 0,045 USD par page = 0,45 USD
Frais totaux = Frais pour le document 1 + Frais pour le document 2 = 1,6 USD + 0,45 USD = 2,05 USD
Exemple de tarification 3 :
Supposons que vous configuriez les bases de connaissances Bedrock pour utiliser Bedrock Data Automation comme analyseur, puis que vous ingériez un document de 1 000 pages. Notez que les structures de coûts diffèrent entre les options d'analyse des bases de connaissances. BDA utilise une tarification par page, tandis que les analyseurs du modèle de fondation facturent en fonction des jetons d'entrée et de sortie. À titre de contexte, le traitement de 1 000 pages, dont 30 % contiennent des tableaux et 30 % des figures, nécessite généralement 2 900 jetons d'entrée et 750 jetons de sortie. La consommation de jetons varie en fonction du type de contenu. Les clients sont donc invités à effectuer des tests en utilisant leurs propres données pour obtenir des estimations plus précises. L’intégration des bases de connaissances Bedrock et de Bedrock Data Automation utilise une sortie standard, dont le prix par page est de 0,010 USD. Le coût total s’élèverait à 10 USD.Nombre total de pages traitées = 1 000
Prix par page pour la sortie standard = 0,010 USD
Coût total = 1 000 * 0,010 USD = 10 USDExemple de tarification 4 :
Supposons que vous traitez une vidéo de 60 minutes à l’aide de la sortie standard BDA. Le prix par minute pour la sortie vidéo standard est de 0,050 USD. Le coût total s’élèverait à 3,00 USD.
Nombre total de minutes traitées = 60
Prix par minute pour la sortie vidéo standard = 0,050 USD
Coût total = 60 * 0.050 USD = 3,00 USD
Exemple de tarification 5 :
Supposons que vous traitiez 2 000 images à l’aide de la sortie personnalisée BDA. Les 1 000 premières images sont traitées à l’aide du plan 1, qui comporte 10 champs. Les 1 000 dernières images sont traitées à l’aide du plan 2, qui comporte 40 champs. Le prix par image pour le plan 1 est de 0,005 USD, car il contient 30 champs ou moins. Le prix par image du plan 2 est de 0,01 USD. Le coût de traitement des 1 000 premières images à l’aide du plan 1 est de 5,00 USD. Le coût de traitement des 1 000 dernières images à l’aide du plan 2 est de 10,00 USD. Le coût total du traitement des 2 000 images serait de 15,00 USD
Coût des 1 000 premières images = 1 000 images * 0,005 USD par image = 5,00 USD
Coût pour 1 000 dernières images = 1 000 images * (0,005 USD + (nombre de champs supplémentaires supérieurs à 30 *0,0005 USD par champ))
= 1 000 * (0,005 USD + ((40 - 30) *0,0005 USD))
= 1 000 * (0,005 USD + (10 * 0,0005 USD)) = 10,00 USD
Coût total = 5,00 USD + 10,00 USD = 15,00 USD
Exemple de tarification 6 :
Supposons que vous souhaitiez utiliser la sortie standard de Bedrock Data Automation pour traiter 15 000 minutes d’enregistrements audio de réunions dans votre organisation. Le coût total du traitement des 15 000 minutes audio serait de 90 USD.
Nombre total de minutes traitées = 15 000 minutes
Coût total = 15 000 min * 0,006 USD = 90 USD -
DeepSeek
Tarification à la demande
Un développeur d'application effectue les appels d'API suivants à Amazon Bedrock toutes les heures : une demande au modèle DeepSeek-R1 pour résumer une entrée de 2 000 jetons de texte d'entrée en une sortie de 1 000 jetons (y compris des jetons de raisonnement) :
Coût horaire total encouru = 2 000 jetons/1000 * 0,00135 USD + 1 000 jetons/1 000 * 0,0054 USD = 0,0081 USD
-
Flux
Exemple : résumé des actualités
Un développeur d’applications crée un flux pour automatiser la synthèse des actualités pour les traders. Le flux comprend un nœud d’entrée qui prend un emplacement S3 et un nœud de récupération S3 qui récupère 10 fichiers contenant des articles de 10 agences de presse majeures dans S3 (2 transitions de nœuds). Il utilise ensuite un nœud itérateur pour invoquer un modèle avec un nœud d’invite pour résumer chaque fichier (+ 10 fichiers x 2 transitions de nœuds). Il collecte ensuite tous les résultats à l’aide d’un nœud collecteur, écrit les résultats dans S3 à l’aide d’un nœud de stockage S3 et les complète dans un nœud de sortie (+ 3 transitions de nœud). Ils font fonctionner ce flux toutes les demi-heures de chaque jour de la semaine.Le nombre de transitions de nœuds par exécution de flux est le suivant : 2 + 1 + 10 * 2 + 3 = 25 transitions de nœuds par exécution de flux
Le nombre d’exécutions de flux par mois est de : 24 heures * 2 * 5 jours * 4 semaines = 960 exécutions de flux par mois.
La facture mensuelle totale est de : 25 * 960 * 0,035 USD / 1 000 = 0,84 USD
Frais supplémentaires
La facture inclura également des frais supplémentaires pour les services AWS utilisés dans l’exécution du flux de travail, notamment l’utilisation d’Amazon S3 dans les nœuds de récupération et de stockage, et l’utilisation du modèle de fondation Amazon Bedrock dans le nœud d’invite.
-
Meta
Tarification à la demande
Un développeur d’applications effectue les appels d’API suivants à Amazon Bedrock : une demande au modèle Meta Llama 2 Chat (13B) pour résumer une entrée de 2 000 jetons de texte d’entrée en une sortie de 500 jetons.
Coût total encouru = 2 000 jetons/1 000 x 0,00075 USD + 500 jetons/1 000 x 0,001 USD = 0,002 USD
Tarification de la personnalisation (ajustement)
Un développeur d’applications personnalise le modèle Llama 2 Pretrained (70B) à l’aide de 1 000 jetons de données. Après l’entraînement, il utilise le débit provisionné du modèle personnalisé pendant une heure pour évaluer les performances du modèle. Le modèle ajusté est conservé pendant un mois. Après évaluation, le développeur utilise le débit provisionné (engagement d’un mois) pour héberger le modèle personnalisé.
Coût mensuel encouru pour l’ajustement = ajustement de l’entraînement (0,00799 USD x 1 000) + stockage du modèle personnalisé par mois (1,95 USD) + 1 heure d’inférence du modèle personnalisé (23,50 USD) = 33,44 USD
Coût mensuel encouru pour le débit provisionné (engagement d’un mois) du modèle personnalisé = 21,18 USD
Tarification du débit provisionné
Un développeur d’applications achète une unité de modèle de Meta Llama 2 avec un engagement d’un mois pour son cas d’utilisation de résumé de texte.
Coût mensuel total encouru = 1 unité de modèle * 21,18 USD * 24 heures * 31 jours = 15 757,92 USD
-
Mistral AI
Tarification à la demande
Un développeur d’applications effectue les appels d’API suivants à Amazon Bedrock toutes les heures : une demande au modèle Mistral 7B pour résumer une entrée de 2 000 jetons de texte d’entrée en une sortie de 1 000 jetons.
Coût horaire total encouru = 2 000 jetons/1 000 x 0,00015 USD + 1 000 jetons/1 000 x 0,0002 USD = 0,0005 USD
Un développeur d’applications effectue les appels d’API suivants à Amazon Bedrock toutes les heures : une demande au modèle Mixtral 8x7B pour résumer une entrée de 2 000 jetons de texte d’entrée en une sortie de 1 000 jetons.
Coût horaire total encouru = 2 000 jetons/1 000 x 0,00045 USD + 1 000 jetons/1 000 x 0,0007 USD = 0,0016 USD
Un développeur d'application effectue les appels d'API suivants à Amazon Bedrock toutes les heures : une demande au modèle Mistral Large pour résumer une entrée de 2 000 jetons de texte d'entrée en une sortie de 1 000 jetons.
Coût horaire total encouru = 2 000 jetons/1 000 * 0,008 USD + 1 000 jetons/1 000 * 0,024 USD = 0,04 USD
-
Évaluation des modèles
Exemple d'évaluation des modèles 1 :
Tarification à la demande
Un développeur d'applications soumet un jeu de données pour l'évaluation de modèles humains à l'aide d'Anthropic Claude 2.1 et d'Anthropic Claude Instant dans la région AWS de l'USA Est (Virginie du Nord).Le jeu de données contient 50 invites, et le développeur a besoin d’un travailleur pour évaluer chaque ensemble invite-réponse (configurable dans le paramètre de création de tâches d'évaluation en tant que « travailleurs par invite »).
Cette tâche d'évaluation comportera 50 tâches (1 tâche pour chaque paire d’invite-réponse par travailleur). Les 50 invites totalisent 5 000 jetons d'entrée, et les réponses associées totalisent 15 000 jetons pour Anthropic Claude Instant et 20 000 jetons pour Anthropic Claude 2.1.
Les frais suivants sont encourus pour ce travail d'évaluation de modèles :Élément Nombre de jetons d'entrée Prix pour 1000 jetons d'entrée Coût des intrants Nombre de jetons de sortie Prix pour 1000 jetons de sortie Coût de production Nombre de tâches humaines Prix par tâche humaine Coût des tâches humaines Total Inférence instantanée Claude 5 000 0,0008 USD 0,004 USD 15 000 0,0024 USD 0,036 USD 0,04 USD Claude 2.1 Inference 5 000 0,008 USD 0,04 USD 20 000 0,024 USD 0,48 USD 0,52 USD Tâches humaines 50 0,21 USD 10,50 USD 10,50 USD Total 11,06 USD Exemple d'évaluation du modèle 2 :
Tarification à la demande
Un développeur d'applications soumet un jeu de données pour l'évaluation de modèles humains à l'aide d'Anthropic Claude 2.1 et d'Anthropic Claude Instant dans la région AWS de l'USA Est (Virginie du Nord).
Le jeu de données contient 50 invites, et le développeur a besoin de 2 travailleurs pour évaluer chaque ensemble invites-réponses (configurable dans le paramètre de création de tâches d'évaluation en tant que « travailleurs par invite »). Ce travail d'évaluation comportera 100 tâches (1 tâche pour chaque ensemble invites-réponses par travailleur : 2 travailleurs x 50 ensembles invites-réponses = 100 tâches humaines).
Les 50 invites totalisent 5 000 jetons d'entrée, et les réponses associées totalisent 15 000 jetons pour Anthropic Claude Instant et 20 000 jetons pour Anthropic Claude 2.1.
Les frais suivants sont encourus pour ce travail d'évaluation de modèles :
Élément Nombre de jetons d'entrée Prix pour 1000 jetons d'entrée Coût des intrants Nombre de jetons de sortie Prix pour 1000 jetons de sortie Coût de production Nombre de tâches humaines Prix par tâche humaine Coût des tâches humaines Total Inférence instantanée Claude 5 000 0,0008 USD 0,0040 USD 15 000 0,0024 USD 0,036 USD 0,04 USD Claude 2.1 Inference 5 000 0,008 USD 0,0400 USD 20 000 0,024 USD 0,48 USD 0,52 USD Tâches humaines 100 0,21 USD 21,00 USD 21,00 USD Total 21,56 USD -
Optimisation des invites
Exemple : résumé des actualités
Un développeur d'applications crée une invite pour résumer les actualités pour les traders à l'aide de Claude 3.5. L'invite d'origine comprend 429 jetons. L'invite optimisée comporte 511 jetons et comprend des instructions et des exemples plus spécifiques pour générer une réponse plus concise à partir des FM. Il utilise l'invite optimisée avec 511 jetons comme entrée pour l'optimiseur d'invite, et crée 2 nouvelles variantes pour Claude 3.7 et Nova Pro avec 582 et 579 jetons.Nombre total de jetons d'entrée et de sortie pour une optimisation d’invite : 429 + 511 + 511 + 582 + 511 + 579 = 3 123
La facture mensuelle totale est de : 3 123/1 000 * 0,03 USD = 0,09 USD
-
Stability AI
Tarification à la demande
Un développeur d’applications effectue les appels d’API suivants à Amazon Bedrock : une demande au modèle SDXL pour générer une image de 512 x 512 avec une taille d’étape de 70 (qualité supérieure).
Coût total encouru = 1 image x 0,036 USD par image = 0,036 USD
Un développeur d’applications effectue les appels d’API suivants à Amazon Bedrock : une demande au modèle SDXL1.0 pour générer une image de 1 024 x 1 024 avec une taille d’étape de 70 (qualité supérieure).
Coût total encouru = 1 image x 0,08 USD par image = 0,08 USD
Tarification du débit provisionné
Un développeur d’applications achète une unité de modèle de SDXL 1.0 avec un engagement d’un mois.
Coût total = 1 * 49,86 USD * 24 heures * 31 jours = 37 095,84 USD
-
TwelveLabs
Tarification à la demande
Un développeur d’applications effectue les appels d’API suivants à Amazon Bedrock : une demande au modèle Pegasus 1.2 pour décrire ce qu’implique une vidéo de 10 secondes, qui fournit une sortie de 2 000 jetons.
Coût total = 10 secondes * 0,00049 USD + 2 000 jetons / 1 000 * 0,0075 USD = 0,0199 USD
Un développeur d’applications effectue les appels d’API suivants à Amazon Bedrock : une demande au modèle Marengo Embed 2.7 pour rechercher une représentation visuelle spécifique via une demande de texte dans un référentiel de 10 vidéos d’une durée totale de 100 minutes de contenu vidéo. La recherche renvoie 10 résultats correspondants.
Coût total = 100 minutes (6 000 s) * 0,00070 USD + 1 demande * 0,00007 USD = 4,20007 USD
-
Writer
Un développeur d’applications effectue les appels d’API suivants à Amazon Bedrock : une demande au modèle Palmyra X5 de Writer pour résumer une entrée de 10 000 jetons de texte d’entrée en une sortie de 2 000 jetons.
Coût total encouru = 10 000 jetons/1000 x 0,003 USD + 2 000 jetons/1000 x 0,015 USD = 0,06 USD