Precios de Amazon Bedrock
Información general sobre precios
Amazon Bedrock es un servicio completamente administrado que proporciona acceso a una selección de modelos fundacionales (FM) de alto rendimiento a través de una única API, junto con un amplio conjunto de funcionalidades esenciales para desarrollar aplicaciones de IA generativa con seguridad, privacidad y un enfoque de IA responsable.
Amazon Bedrock ofrece opciones de precios flexibles para ayudar a los clientes en cada etapa de su transición hacia la IA generativa. Los clientes pueden elegir entre precios bajo demanda, a fin de pagar solo por el uso sin compromisos iniciales, o el modo por lotes, para procesar grandes volúmenes de entrada de forma rentable. Para cargas de trabajo predecibles y de gran volumen, el rendimiento aprovisionado proporciona una capacidad de modelo dedicada con precios reducidos. Estas opciones ayudan a optimizar los costos a la vez que equilibran las necesidades de velocidad, escalado y acceso a modelos.
Modelos de precios
Bajo demanda y por lotes
Con el modo bajo demanda, se paga únicamente por lo que utiliza, sin necesidad de asumir compromisos por períodos determinados. En el caso de los modelos de generación de texto, se le cobra por cada token de entrada procesado y por cada token de salida generado. En el caso de los modelos de incrustación, se le cobra por cada token de entrada procesado. Un token está compuesto de unos pocos caracteres y se refiere a la unidad básica de texto que un modelo aprende para entender la entrada y el mensaje del usuario. Con el modo bajo demanda, se paga únicamente por lo que se utiliza, sin necesidad de asumir compromisos por períodos determinados. Los modelos personalizados ahora pueden utilizarse bajo demanda. Obtenga más información sobre la inferencia bajo demanda y los modelos personalizados.
Inferencia entre regiones: el modo bajo demanda también admite la inferencia entre regiones para algunos modelos. Permite a los desarrolladores gestionar aumentos repentinos de tráfico sin interrupciones al utilizar capacidad de computación en distintas regiones de AWS, lo que proporciona límites de rendimiento más altos y mayor resiliencia. No se aplica ningún cargo adicional por utilizar la inferencia entre regiones, y el precio se calcula según la región desde la cual se realiza la solicitud (región de origen).
Con el modo por lotes, se puede proporcionar un conjunto de peticiones en un único archivo de entrada y recibir las respuestas en un único archivo de salida, lo que permite obtener predicciones simultáneas a gran escala. Las respuestas se procesan y se almacenan en el bucket de Amazon S3, de modo que se pueden consultar posteriormente. Amazon Bedrock ofrece modelos fundacionales selectos de proveedores líderes de IA como Anthropic, Meta, Mistral AI y Amazon para inferencia por lotes, con un precio un 50 % más bajo en comparación con la inferencia bajo demanda. Consulte la lista de modelos aquí.
Optimización para latencia (versión preliminar pública)
La inferencia optimizada para latencia de los modelos fundacionales en Amazon Bedrock ofrece tiempos de respuesta más rápidos y contribuye a mejorar la capacidad de respuesta de las aplicaciones de IA generativa. Se puede utilizar la inferencia optimizada para latencia con Amazon Nova Pro, el modelo Claude 3.5 Haiku de Anthropic y los modelos Llama 3.1 de 405 mil millones y 70 mil millones de parámetros de Meta. Según la verificación de Anthropic, con la inferencia optimizada para latencia en Amazon Bedrock, Claude 3.5 Haiku se ejecuta más rápido en AWS que en cualquier otra plataforma. Además, con la inferencia optimizada para latencia en Bedrock, los modelos Llama 3.1 de 405 mil millones y 70 mil millones de parámetros se ejecutan más rápido en AWS que en cualquier otro proveedor de servicios en la nube principal. Obtenga más información aquí.
Rendimiento aprovisionado
Con el modo de rendimiento aprovisionado, se pueden adquirir unidades de modelo para un modelo base o personalizado específico. El modo de rendimiento aprovisionado se ha diseñado principalmente para grandes cargas de trabajo de inferencia consistentes que necesitan un rendimiento garantizado. Una unidad de modelo proporciona un rendimiento determinado, que se mide por la cantidad máxima de tokens de entrada o salida procesados por minuto. Con la modalidad de precios por rendimiento aprovisionado, se cobra por hora y se tiene la flexibilidad de elegir entre compromisos de 1 o 6 meses.
Importación de modelos personalizados
La función de importación de modelos personalizados permite aprovechar inversiones previas en personalización de modelos dentro de Amazon Bedrock y utilizarlos de la misma forma completamente administrada que los modelos fundacionales alojados actualmente en Bedrock. Puede importar pesos personalizados para las arquitecturas de modelos compatibles y servir el modelo personalizado mediante el modo bajo de demanda. La importación de un modelo personalizado a Bedrock es gratuita. Una vez que importe un modelo, podrá acceder a él bajo demanda sin necesidad de realizar ninguna acción en el plano de control. Solo se le cobra por la inferencia del modelo, en función del número de copias de su modelo personalizado necesarias para atender su volumen de inferencias y del tiempo que cada copia del modelo esté activa, facturado en intervalos de 5 minutos. Una copia del modelo es una instancia única de un modelo importado lista para atender las solicitudes de inferencia. El precio por minuto de cada copia del modelo depende de factores como la arquitectura, la longitud del contexto, la región de AWS, la versión de la unidad de computación (generación de hardware) y se organiza en niveles según el tamaño de la copia del modelo.
Modelos de Marketplace
Amazon Bedrock Marketplace permite descubrir, probar y utilizar más de 100 modelos fundacionales conocidos, emergentes y especializados dentro de Bedrock. Los modelos de Amazon Bedrock Marketplace se implementan en puntos de conexión donde se puede seleccionar la cantidad deseada de instancias y los tipos de instancia, así como configurar políticas de escalado automático para satisfacer las demandas de la carga de trabajo. Para los modelos propietarios, se cobra el precio del software establecido por el proveedor del modelo (por hora, facturable por segundos, o por solicitud), además de un precio por la infraestructura basado en el tipo de instancia que se seleccione. Estos precios se pueden consultar antes de suscribirse al modelo del proveedor y también desde la descripción del modelo en AWS Marketplace. Para los modelos de acceso público, solo se cobra el precio de la infraestructura según el tipo de instancia que se seleccione. Obtenga más información aquí.
Personalización y optimización
Personalización de modelos
Destilación de modelos
Con la Destilación de modelos de Amazon Bedrock, los clientes pueden transferir el conocimiento de un modelo grande y avanzado (conocido como “modelo de profesor”) a un modelo más pequeño, rápido y rentable (conocido como “modelo de alumno”), de modo que el modelo de alumno pueda alcanzar un desempeño similar al del profesor en casos de uso específicos. Con la destilación de modelos de Amazon Bedrock, se paga únicamente por lo que se utiliza. La destilación es un proceso de dos etapas, en el que primero se generan datos sintéticos a partir del modelo de profesor y luego se entrena el modelo de alumno. La generación de datos sintéticos se cobra según la tarifa bajo demanda del modelo de profesor seleccionado. El refinamiento del modelo de alumno se cobra según las tarifas de personalización de modelos. Puede configurar la inferencia en un modelo personalizado si crea un modelo personalizado de implementación bajo demanda o cuando adquiera el rendimiento aprovisionado en función de sus requisitos de carga de trabajo y objetivos de costos específicos. La opción de inferencia bajo demanda incluye un modelo de precios basado en tokens por el que se paga en función de la cantidad de tokens procesados durante la inferencia.
Refinamiento / Entrenamiento previo continuo
Con Amazon Bedrock, es posible personalizar modelos fundacionales con datos propios para generar respuestas adaptadas a tareas específicas y al contexto particular de su negocio. Puede ajustar de forma precisa los modelos con datos etiquetados o utilizar un entrenamiento previo continuo con datos sin etiquetar. Para personalizar un modelo de generación de texto, se le cobra por el entrenamiento del modelo en función de la cantidad total de tokens procesados por el modelo (la cantidad de tokens en el corpus de datos de entrenamiento × por la cantidad de épocas) y el almacenamiento del modelo se cobra por mes por modelo. Una época es un ciclo completo a través de su conjunto de datos de entrenamiento durante el ajuste fino o el entrenamiento previo continuo.
Puede configurar la inferencia en un modelo personalizado si crea un modelo personalizado de implementación bajo demanda o cuando adquiera el rendimiento aprovisionado en función de sus requisitos de carga de trabajo y objetivos de costos específicos. La opción de inferencia bajo demanda incluye un modelo de precios basado en tokens por el que se paga en función de la cantidad de tokens procesados durante la inferencia. Si adquiere el rendimiento aprovisionado, una unidad de modelo se encontrará disponible sin plazo de compromiso para su inferencia en un modelo personalizado. Se le cobrará por la cantidad de horas que utilice en la primera unidad de modelo para la inferencia de modelos personalizados. Si desea aumentar el rendimiento más allá de una unidad de modelo, debe adquirir un compromiso de 1 o 6 meses.
Almacenamiento en caché de peticiones
Con el almacenamiento en caché de peticiones en Amazon Bedrock, es posible conservar contextos repetidos entre llamadas a la API para reducir costos y tiempos de respuesta. Las peticiones suelen incluir contextos o prefijos comunes, como conversaciones extensas con múltiples turnos, ejemplos con numerosos casos e instrucciones detalladas que afinan el comportamiento del modelo. Mediante las API existentes de Amazon Bedrock, se pueden especificar los prefijos de peticiones que se desea almacenar en caché durante cinco minutos en una caché específica de la cuenta de AWS. Durante ese periodo, cualquier solicitud con prefijos coincidentes recibe un descuento de hasta el 90 % en los tokens almacenados en caché y una mejora de latencia de hasta el 85 %. Los precios y las mejoras de rendimiento varían según el modelo y la longitud de la petición, pero las cachés siempre están aisladas dentro de la cuenta de AWS.
Administración y optimización de peticiones
La Administración de peticiones de Amazon Bedrock acelera la creación, prueba y ejecución de peticiones mediante una interfaz intuitiva y un conjunto de API. Puede probar y controlar las versiones de las peticiones con facilidad, comparar distintas variantes y ejecutarlas en una infraestructura segura y sin servidor.
La función de Optimización de peticiones en Amazon Bedrock reescribe automáticamente las peticiones para mejorar el rendimiento y generar respuestas más concisas en los modelos fundacionales. Se integra con la función de Administración de peticiones para facilitar la comparación lado a lado entre la versión original y la optimizada, además de permitir la administración completa del ciclo de vida de las peticiones. También se puede utilizar la optimización de peticiones en Bedrock Playground o directamente a través de la API.
Herramientas
Barreras de protección
Las barreras de protección para Amazon Bedrock constituyen la única capacidad de IA responsable de un importante proveedor de servicios en la nube que ayuda a crear y personalizar salvaguardas de seguridad, privacidad y veracidad para las aplicaciones de IA generativa. Evalúa las entradas de los usuarios y las respuestas del modelo con base en políticas específicas para cada caso de uso, y proporciona una capa adicional de salvaguardas más allá de lo que está disponible de forma nativa. Las salvaguardas de barreras de protección se pueden aplicar a modelos alojados en Amazon Bedrock o a cualquier modelo de terceros (como OpenAI y Google Gemini) mediante la API ApplyGuardrail. También puede usar las barreras de protección con un marco de agentes como Strands Agents, incluidos los agentes implementados con Amazon Bedrock AgentCore. Las barreras de protección ayudan a filtrar alucinaciones y a mejorar la precisión fáctica mediante verificaciones de contextualización frente a contenido de generación aumentada por recuperación (RAG) y verificaciones del razonamiento automatizado para ofrecer respuestas demostrablemente veraces.
Bases de conocimiento y automatización de datos
Las bases de conocimiento de Amazon Bedrock constituyen un flujo de trabajo de generación aumentada por recuperación (RAG) completamente administrado, que permite a los clientes crear aplicaciones de IA generativa personalizadas, seguras, de baja latencia y alta precisión, mediante la incorporación de información contextual proveniente de sus propios orígenes de datos. Son compatibles con diversos orígenes de datos, como S3, y en versión preliminar, Confluence, Salesforce y SharePoint. También ofrecen la ingesta de documentos para la transmisión de datos. Las bases de conocimiento de Bedrock convierten los datos no estructurados en incrustaciones, los almacenan en bases de datos vectoriales y permiten su recuperación desde diversos almacenes de datos. También se integran con Kendra para la recuperación administrada y admiten la recuperación de datos estructurados mediante lenguaje natural a SQL.
La Automatización de datos de Amazon Bedrock transforma contenido no estructurado y multimodal en formatos de datos estructurados, para casos de uso como el procesamiento inteligente de documentos, el análisis de video y la generación aumentada por recuperación (RAG). La Automatización de datos de Bedrock puede generar contenido de salida estándar con valores predeterminados específicos según la modalidad, como descripciones escena por escena de videos, transcripciones de audio o análisis automatizado de documentos. Además, los clientes pueden crear salidas personalizadas al especificar los requisitos de salida en esquemas basados en su propia estructura de datos, que luego se cargan fácilmente en una base de datos o almacén de datos existente. A través de su integración con las bases de conocimiento, la Automatización de datos de Bedrock también permite analizar contenido en aplicaciones RAG, lo que mejora la precisión y la relevancia de los resultados al incorporar información incrustada tanto en imágenes como en texto.
Agentes
Los agentes de Amazon Bedrock ofrecen la posibilidad de crear y configurar agentes autónomos dentro de la aplicación. Estos agentes se conectan de manera segura a los orígenes de datos de la empresa y mejoran las solicitudes de los usuarios con la información correcta para generar respuestas precisas. Es posible crear una aplicación con uno o varios agentes en pocos pasos, lo que reduce significativamente el tiempo necesario para desarrollar aplicaciones de IA generativa. Estos agentes admiten la interpretación de código para generar y ejecutar código de forma dinámica, así como la devolución del control, lo que permite definir un esquema de acción y recuperar el control cada vez que el agente invoque dicha acción. Además, los agentes de Amazon Bedrock pueden conservar la memoria entre interacciones, lo que permite ofrecer experiencias de usuario más personalizadas y fluidas.
Flujos
Amazon Bedrock Flows es una característica de creación y ejecución de flujos de trabajo en Bedrock, diseñada para aplicaciones de IA generativa. Acelera la creación, prueba e implementación de flujos de trabajo de IA generativa definidos por el usuario, mediante un generador visual intuitivo y un conjunto de API. Permite vincular sin interrupciones los modelos fundacionales más recientes, peticiones, agentes, bases de conocimiento, barreras de protección y servicios de AWS (como Amazon Lex, AWS Lambda y Amazon S3), junto con la lógica empresarial, para crear flujos de trabajo de IA generativa. Es posible probar y controlar las versiones de los flujos de trabajo con facilidad, y ejecutarlos en un entorno seguro y sin servidor, ya sea mediante una interfaz visual o a través de una API, sin necesidad de implementar infraestructura propia.
Evaluaciones
Evaluación del modelo: con la evaluación del modelo en Amazon Bedrock, paga por lo que usa, sin compromisos de volumen mínimos en cuanto a la cantidad de peticiones o respuestas. Para la evaluación automática (programática), solo se paga por la inferencia del modelo que se seleccione para la evaluación. Las puntuaciones algorítmicas generadas automáticamente se ofrecen sin costo adicional. Para la evaluación automática (modelo o LLM como juez), solo se paga por la inferencia del modelo generador y del modelo evaluador que se elijan. En un trabajo de evaluación del modelo de LLM como juez, las métricas integradas utilizan plantillas de peticiones de evaluación del sistema exclusivas para cada métrica y un modelo de evaluación disponible que se cobrará como parte del uso de los tokens, y las peticiones de las evaluaciones están disponibles en la documentación pública de AWS por motivos de transparencia. Para las evaluaciones realizadas por personas, cuando se utiliza un equipo de trabajo propio, se cobra la inferencia de modelos utilizados en la evaluación y un cargo de 0,21 USD por cada tarea humana completada. Una tarea humana se define como una ocurrencia en la que un trabajador humano envía una evaluación de una única petición y sus respuestas inferidas asociadas mediante la interfaz de usuario para evaluación humana. El precio por tarea es el mismo sin importar si tiene uno o dos modelos en el trabajo de evaluación; también es el mismo sin importar la cantidad de métricas de la evaluación y métodos de calificación que incluya. Los cargos por las tareas humanas aparecerán en la sección Amazon SageMaker de la factura de AWS y son los mismos para todas las regiones de AWS. No se aplica un cargo adicional por el personal de trabajo, ya que es proporcionado por usted. Si se emplea la característica “utilice sus propias respuestas de inferencia” en lugar de invocar un modelo de Bedrock durante el trabajo de evaluación, solo se cobra la inferencia del modelo evaluador (en tareas con LLM como juez) o los 0,21 USD por cada tarea humana completada (en trabajos de evaluaciones realizadas por personas). Para un trabajo de evaluación administrada por AWS, los precios se personalizan según las necesidades de evaluación definidas en un acuerdo privado, en colaboración con el equipo de evaluaciones especializadas de AWS.
Evaluación RAG: con la evaluación RAG de Amazon Bedrock, se paga únicamente por lo que se utiliza, sin compromisos mínimos de volumen en cuanto a la cantidad de peticiones o respuestas. Si se evalúa una base de conocimiento de Amazon Bedrock, solo se paga por la inferencia del modelo generador y del modelo evaluador que se elijan (el trabajo de evaluación utiliza un LLM como juez), así como los cargos asociados al uso de la base de conocimiento durante el trabajo de evaluación, conforme a los precios establecidos para las bases de conocimiento de Amazon Bedrock. Si se utiliza la característica “utilice sus propias respuestas de inferencia”, solo se cobra la inferencia de modelos evaluadores. En un trabajo de evaluación RAG, las métricas integradas utilizan plantillas de peticiones del juez del sistema, específicas para cada métrica y modelo juez disponible. Estas peticiones se cobran como parte del uso de tokens, y se encuentran disponibles en la documentación pública de AWS para garantizar la transparencia. Algunas métricas requieren realizar inferencias de modelos de juez no solo a partir de la petición de entrada, sino también sobre el contexto recuperado de la base de conocimiento o sistema RAG, o sobre sus respuestas reales de referencia, lo que impacta en los costos asociados a cada métrica. Puede consultar más información sobre cada métrica en la documentación pública de AWS sobre evaluaciones.
Detalles de precios del modelo
El precio depende de la modalidad, el proveedor y el modelo. Seleccione el proveedor del modelo para ver los precios detallados.
Amazon Bedrock ofrece modelos fundacionales (FM) exclusivos de los principales proveedores de inteligencia artificial, como Anthropic, Meta, Mistral AI y Amazon, para la inferencia por lotes a un precio un 50 % más bajo en comparación con los precios de inferencia bajo demanda. Consulte la lista de modelos aquí.
-
AI21 Labs
-
Amazon
-
Anthropic
-
Cohere
-
DeepSeek
-
Luma AI
-
Meta
-
Mistral AI
-
OpenAI
-
TwelveLabs
-
Stability AI
-
Writer
-
Qwen
-
Importación de modelos personalizados
-
AI21 Labs
-
AI21 Labs
Precios bajo demanda
-
Amazon
-
-
Amazon Nova
-
Amazon Titan
-
Otro Amazon
-
Amazon Nova
-
Amazon Nova
Precios para comprender los modelos
Precios por modelos de generación de contenido creativo
Precios de los modelos de generación y comprensión del habla
Precios bajo demanda para los modelos fundacionales de conversión de voz a voz
Nota: *Los precios de entrada y salida de los tokens de texto se aplican a casos prácticos específicos, como la transcripción de voz a texto, las llamadas a herramientas para completar tareas o la base de conocimientos, agregar el historial de conversaciones a la sesión, etc.
La inferencia bajo demanda para los modelos Nova personalizados tiene el mismo precio que la inferencia Nova básica.
-
Amazon Titan
-
Amazon Titan
-
Otro Amazon
-
-
-
Anthropic
-
Anthropic
Precios bajo demanda y por lotes
Inferencia optimizada para latencia
Precios del rendimiento aprovisionado
Región: Este de EE. UU. (Norte de Virginia) y Oeste de EE. UU. (Oregón)
Modelos de Anthropic Precio por hora y modelo
sin compromisoPrecio por hora por unidad de modelo con un compromiso de 1 mes Precio por hora por unidad de modelo con un compromiso de 6 mes Claude Instant
44,00 USD 39,60 USD
22,00 USD
Claude 2.0 y 2.1
70,00 USD 63,00 USD
35,00 USD
Región: Asia-Pacífico (Tokio)
Modelos de Anthropic Precio por hora por unidad de modelo con un compromiso de 1 mes Precio por hora por unidad de modelo con un compromiso de 6 mes Claude Instant
53,00 USD
29,00 USD
Claude 2.0/2.1
86,00 USD
48,00 USD
Región: Europa (Fráncfort)
Modelos de Anthropic Precio por hora por unidad de modelo con un compromiso de 1 mes Precio por hora por unidad de modelo con un compromiso de 6 mes Claude Instant
49,00 USD
27,00 USD
Claude 2.0/2.1
79,00 USD
44,00 USD
Póngase en contacto con su equipo de cuentas de AWS para obtener más información sobre las unidades de modelo.
-
Cohere
-
Cohere
Precios bajo demanda
Modelos de Cohere Precio por cada 1000 consultas** Rerank 3.5 2,00 USD **Se le cobrará por el número de consultas en las que una consulta puede contener hasta 100 fragmentos de documentos. Si la consulta contiene más de 100 fragmentos de documentos, se contabiliza como consultas múltiples. Por ejemplo, si una solicitud contiene 350 documentos, se tratará como 4 consultas. Tenga en cuenta que cada documento solo puede contener un máximo de 500 tokens (incluidos los tokens totales de la consulta y del documento) y, si la longitud del token es superior a 512 tokens, se divide en varios documentos. Precios por la personalización (ajuste preciso)
* El total de tokens entrenados es igual a la cantidad de tokens en el corpus de datos de entrenamiento multiplicado por la cantidad de épocas
Precios del rendimiento aprovisionado
Modelos de Cohere Precio por hora y modelo
sin compromisoPrecio por hora por unidad de modelo con un compromiso de 1 mes Precio por hora por unidad de modelo con un compromiso de 6 mes
Cohere Command
49,50 USD 39,60 USD
23,77 USD
Cohere Command: Light 8,56 USD 6,85 USD
4,11 USD Insertar 3 inglés 7,12 USD 6,76 USD
6,41 USD Insertar 3 multilingüe 7,12 USD 6,76 USD
6,41 USD Póngase en contacto con su equipo de cuentas o ventas de AWS para obtener más información sobre las unidades de modelo.
-
DeepSeek
-
DeepSeek
Precios bajo demanda
-
Luma AI
-
Precios bajo demanda
-
Meta
-
Meta
Llama 4
Precios bajo demanda y por lotes
Llama 3.3
Precios bajo demanda y por lotes
Llama 3.2
Precios bajo demanda y por lotes
Precios por la personalización del modelo (ajuste preciso)
Precios del rendimiento aprovisionado
Llama 3.1
Precios bajo demanda y por lotes
Precios por la personalización del modelo (ajuste preciso)
Precios del rendimiento aprovisionado
Llama 3
Precios bajo demanda
Llama 2
Precios bajo demanda
Región: Este de EE. UU. (Norte de Virginia) y Oeste de EE. UU. (Oregón)
Modelos de Meta Precio por cada 1000 tokens de entrada Precio por cada 1000 tokens de salida Llama 2 Chat (13B)
0,00075 USD
0,001 USD
Llama 2 Chat (70B) 0,00195 USD
0,00256 USD Precios por la personalización del modelo (ajuste preciso)
Modelos de Meta Precio por entrenar 1000 tokens Precio por el almacenamiento mensual de cada modelo personalizado* Precio por inferencia de un modelo personalizado por 1 unidad de modelo por hora (con precios de rendimiento aprovisionado sin compromiso) Llama 2 Pretrained (13B)
0,00149 USD
1,95 USD
23,50 USD
Llama 2 Pretrained (70B) 0,00799 USD
1,95 USD 23,50 USD * Almacenamiento de modelo personalizado = 1,95 USD
Precios del rendimiento aprovisionado
Modelos de Meta Precio por hora por unidad de modelo con un compromiso de 1 mes Precio por hora por unidad de modelo con un compromiso de 6 mes Llama 2 Pretrained y Chat (13B)
21,18 USD
13,08 USD
Llama 2 Pretrained (70B) 21,18 USD
13,08 USD * Los modelos de Llama 2 Pre-trained solo se encuentran disponibles con un rendimiento aprovisionado después de la personalización.
Póngase en contacto con su equipo de cuentas o ventas de AWS para obtener más información sobre las unidades de modelo.
-
Mistral AI
-
Mistral AI
-
OpenAI
-
OpenAI
-
TwelveLabs
-
TwelveLabs
Precios bajo demanda
-
Stability AI
-
Stability AI
Precios bajo demanda
Los modelos de imagen de la generación anterior ofrecidos por Stability AI tienen un precio por imagen, en función del número de pasos y de la resolución de la imagen.
Región: Oregón, Virginia del Norte, Ohio
Modelos Precio por generación para cada modelo Eliminar fondo en imágenes de Stable 0,07 USD Borrar objeto en imágenes de Stable 0,07 USD Control de estructura en imágenes de Stable 0,07 USD Control de boceto en imágenes de Stable 0,07 USD Guía de estilo de imágenes de Stable 0,07 USD Búsqueda y reemplazo de imágenes de Stable 0,07 USD Relleno de imágenes de Stable 0,07 USD Búsqueda y cambio de color de imágenes de Stable 0,07 USD Transferencia de estilos de imágenes de Stable 0,08 USD -
Writer
-
Writer
Precios bajo demanda
Modelos de Writer Precio por cada 1000 tokens de entrada Precio por cada 1000 tokens de salida Palmyra X4 0,0025 USD 0,010 USD Palmyra X5 0,0006 USD 0,006 USD -
Qwen
-
Qwen
-
Importación de modelos personalizados
-
Importación de modelos personalizados
-
Llama
-
Llama multimodal
-
Mistral
-
Mixtral
-
Flan
-
Qwen
-
Llama
-
Regiones: Este de EE. UU. (Norte de Virginia) y Oeste de EE. UU. (Oregón)
Versión de unidad modelo personalizada v1.0 Precio por unidad modelo personalizada por minuto* 0,05718 USD Costo de almacenamiento mensual por unidad de modelos personalizados 1,95 USD Región: Europa (Fráncfort)
Versión de unidad modelo personalizada v1.0 Precio por unidad modelo personalizada por minuto* 0,07144 USD Costo de almacenamiento mensual por unidad de modelos personalizados 1,95 USD Nota: Las unidades de modelos personalizados necesarias para alojar un modelo dependen de una variedad de factores, en particular la arquitectura del modelo, el recuento de parámetros del modelo y la longitud del contexto. La cantidad exacta de unidades de modelos personalizados necesarias se determinará en el momento de la importación. Como referencia, el modelo Llama 3.1 8B 128K requiere 2 unidades de modelos personalizados, un modelo Llama 3.1 70B 128k requiere 8 unidades de modelos personalizados.
*Facturado en intervalos de 5 minutos
-
Llama multimodal
-
Regiones: Este de EE. UU. (Norte de Virginia) y Oeste de EE. UU. (Oregón)
Versión de unidad modelo personalizada v1.0 Precio por unidad modelo personalizada por minuto* 0,05718 USD Costo de almacenamiento mensual por unidad de modelos personalizados 1,95 USD Región: Europa (Fráncfort)
Versión de unidad modelo personalizada v1.0 Precio por unidad modelo personalizada por minuto* 0,07144 USD Costo de almacenamiento mensual por unidad de modelos personalizados 1,95 USD Nota: Las unidades de modelos personalizados necesarias para alojar un modelo dependen de una variedad de factores, en particular la arquitectura del modelo, el recuento de parámetros del modelo y la longitud del contexto. La cantidad exacta de unidades de modelos personalizados necesarias se determinará en el momento de la importación. Como referencia, el modelo Llama 3.1 8B 128K requiere 2 unidades de modelos personalizados, un modelo Llama 3.1 70B 128k requiere 8 unidades de modelos personalizados.
*Facturado en intervalos de 5 minutos
-
Mistral
-
Regiones: Este de EE. UU. (Norte de Virginia) y Oeste de EE. UU. (Oregón)
Versión de unidad modelo personalizada v1.0 Precio por unidad modelo personalizada por minuto* 0,05718 USD Costo de almacenamiento mensual por unidad de modelos personalizados 1,95 USD Región: Europa (Fráncfort)
Versión de unidad modelo personalizada v1.0 Precio por unidad modelo personalizada por minuto* 0,07144 USD Costo de almacenamiento mensual por unidad de modelos personalizados 1,95 USD Nota: Las unidades de modelos personalizados necesarias para alojar un modelo dependen de una variedad de factores, en particular la arquitectura del modelo, el recuento de parámetros del modelo y la longitud del contexto. La cantidad exacta de unidades de modelos personalizados necesarias se determinará en el momento de la importación. Como referencia, el modelo Llama 3.1 8B 128K requiere 2 unidades de modelos personalizados, un modelo Llama 3.1 70B 128k requiere 8 unidades de modelos personalizados.
*Facturado en intervalos de 5 minutos
-
Mixtral
-
Regiones: Este de EE. UU. (Norte de Virginia) y Oeste de EE. UU. (Oregón)
Versión de unidad modelo personalizada v1.0 Precio por unidad modelo personalizada por minuto* 0,05718 USD Costo de almacenamiento mensual por unidad de modelos personalizados 1,95 USD Región: Europa (Fráncfort)
Versión de unidad modelo personalizada v1.0 Precio por unidad modelo personalizada por minuto* 0,07144 USD Costo de almacenamiento mensual por unidad de modelos personalizados 1,95 USD Nota: Las unidades de modelos personalizados necesarias para alojar un modelo dependen de una variedad de factores, en particular la arquitectura del modelo, el recuento de parámetros del modelo y la longitud del contexto. La cantidad exacta de unidades de modelos personalizados necesarias se determinará en el momento de la importación. Como referencia, el modelo Llama 3.1 8B 128K requiere 2 unidades de modelos personalizados, un modelo Llama 3.1 70B 128k requiere 8 unidades de modelos personalizados.
*Facturado en intervalos de 5 minutos
-
Flan
-
Regiones: Este de EE. UU. (Norte de Virginia) y Oeste de EE. UU. (Oregón)
Versión de unidad modelo personalizada v1.0 Precio por unidad modelo personalizada por minuto* 0,05718 USD Costo de almacenamiento mensual por unidad de modelos personalizados 1,95 USD Región: Europa (Fráncfort)
Versión de unidad modelo personalizada v1.0 Precio por unidad modelo personalizada por minuto* 0,07144 USD Costo de almacenamiento mensual por unidad de modelos personalizados 1,95 USD Nota: Las unidades de modelos personalizados necesarias para alojar un modelo dependen de una variedad de factores, en particular la arquitectura del modelo, el recuento de parámetros del modelo y la longitud del contexto. La cantidad exacta de unidades de modelos personalizados necesarias se determinará en el momento de la importación. Como referencia, el modelo Llama 3.1 8B 128K requiere 2 unidades de modelos personalizados, un modelo Llama 3.1 70B 128k requiere 8 unidades de modelos personalizados.
*Facturado en intervalos de 5 minutos
Precios de inferencia bajo demanda:
Se le facturará en intervalos de 5 minutos mientras la copia del modelo esté activa a partir de la primera invocación exitosa. El límite máximo de rendimiento y simultaneidad por copia de modelo depende de factores como la combinación de tokens de entrada/salida, el tipo de hardware, el tamaño del modelo, la arquitectura y las optimizaciones de inferencia, y se determina durante el flujo de trabajo de importación del modelo.Bedrock escala automáticamente el número de copias del modelo en función de sus patrones de uso. Si no hay invocaciones durante un período de 5 minutos, Bedrock reducirá la escala a cero y volverá a escalar hacia arriba cuando invoques su modelo. Al reducir la escala, es posible que experimente una duración de arranque en frío (en decenas de segundos) según el tamaño del modelo. Bedrock también aumenta la cantidad de copias del modelo si el volumen de la inferencia supera constantemente los límites de simultaneidad de una sola copia del modelo. Nota: Hay un máximo predeterminado de 3 copias del modelo por cuenta y modelo importado que se puede aumentar mediante Service Quotas.
-
Qwen
-
Regiones: Este de EE. UU. (Norte de Virginia) y Oeste de EE. UU. (Oregón)
Versión de unidad modelo personalizada v1.0 Precio por unidad modelo personalizada por minuto* 0,05718 USD Costo de almacenamiento mensual por unidad de modelos personalizados 1,95 USD Región: Europa (Fráncfort)
Versión de unidad modelo personalizada v1.0 Precio por unidad modelo personalizada por minuto* 0,07144 USD Costo de almacenamiento mensual por unidad de modelos personalizados 1,95 USD Nota: Las unidades de modelos personalizados necesarias para alojar un modelo dependen de una variedad de factores, en particular la arquitectura del modelo, el recuento de parámetros del modelo y la longitud del contexto. La cantidad exacta de unidades de modelos personalizados necesarias se determinará en el momento de la importación. Como referencia, el modelo Llama 3.1 8B 128K requiere 2 unidades de modelos personalizados, un modelo Llama 3.1 70B 128k requiere 8 unidades de modelos personalizados.
*Facturado en intervalos de 5 minutos
Precios de inferencia bajo demanda:
Se le facturará en intervalos de 5 minutos mientras la copia del modelo esté activa a partir de la primera invocación exitosa. El límite máximo de rendimiento y simultaneidad por copia de modelo depende de factores como la combinación de tokens de entrada/salida, el tipo de hardware, el tamaño del modelo, la arquitectura y las optimizaciones de inferencia, y se determina durante el flujo de trabajo de importación del modelo.Bedrock escala autom��ticamente el número de copias del modelo en función de sus patrones de uso. Si no hay invocaciones durante un período de 5 minutos, Bedrock reducirá la escala a cero y volverá a escalar hacia arriba cuando invoques su modelo. Al reducir la escala, es posible que experimente una duración de arranque en frío (en decenas de segundos) según el tamaño del modelo. Bedrock también aumenta la cantidad de copias del modelo si el volumen de la inferencia supera constantemente los límites de simultaneidad de una sola copia del modelo. Nota: Hay un máximo predeterminado de 3 copias del modelo por cuenta y modelo importado que se puede aumentar mediante Service Quotas.
-
Detalles de precios de herramientas y optimización
-
Flujos
-
Bases de conocimiento
-
Barreras de protección
-
Evaluación del modelo
-
Automatización de datos
-
Direccionamiento de peticiones inteligente
-
Optimización de peticiones
-
Flujos
-
Amazon Bedrock Flows
Se le cobra en función de la cantidad de transiciones de nodo que se requieran para ejecutar su aplicación. Bedrock Flows cuenta una transición de nodo cada vez que se ejecuta un nodo en su flujo de trabajo. Se le cobra por la cantidad total de transiciones de nodo en todos sus flujos.
Todos los cargos se miden a diario y se facturan de forma mensual a partir del 1 de febrero de 2025.
Precio por cada 1000 transiciones de nodo 0,035 USD Cargos adicionales
Puede incurrir en cargos adicionales si la ejecución del flujo de trabajo de su aplicación utiliza otros servicios de AWS o transfiere datos. Por ejemplo, si su flujo de trabajo invoca una política de barrera de protección de Amazon Bedrock, se le facturará por la cantidad de unidades de texto que procese la política.
-
Bases de conocimiento
-
Recuperación de datos estructurados (generación de SQL)
La recuperación de datos estructurados se cobra por cada solicitud para generar una consulta SQL. La consulta SQL generada se usa para recuperar los datos de los almacenes de datos estructurados.
Modelos de Rerank
Los modelos de Rerank están diseñados para mejorar la relevancia y precisión de las respuestas en las aplicaciones de generación aumentada por recuperación (RAG). Se cobran por consulta.
**Se le cobrará por el número de consultas en las que una consulta puede contener hasta 100 fragmentos de documentos. Si la consulta contiene más de 100 fragmentos de documentos, se contabiliza como consultas múltiples. Por ejemplo, si una solicitud contiene 350 documentos, se tratará como 4 consultas. Tenga en cuenta que cada documento solo puede contener un máximo de 512 tokens (incluidos los tokens totales de la consulta y del documento) y, si la longitud del token es superior a 512 tokens, se divide en varios documentos. Una consulta equivale a una unidad de búsqueda.
-
Barreras de protección
-
Barreras de protección de Amazon Bedrock
Política de barrera de protección*
Precio
Filtros de contenido (contenido de texto)
0,15 USD por 1000 unidades de texto
Filtros de contenido (contenido de imágenes)
0,00075 USD por imagen procesada
Temas denegados
0,15 USD por 1000 unidades de texto
Filtros de información confidencial
0,10 USD por 1000 unidades de texto
Filtros de información confidencial (expresión regular)
Gratis
Filtros de palabras
Gratis
Verificaciones de la base contextual
0,10 USD por 1000 unidades de texto
Verificaciones del razonamiento automatizado
0,17 USD por cada 1000 unidades de texto por política de razonamiento automatizado
Precios bajo demanda
* Cada política de barreras de protección es opcional y se puede habilitar según los requisitos de su aplicación. Se incurrirá en cargos según el tipo de política utilizada en la barrera de protección. Por ejemplo, si una barrera de protección está configurada con filtros de contenido y temas denegados, se cobrarán estas dos políticas, pero no habrá cargos asociados a los filtros de información confidencial.
Note: Una unidad de texto puede contener hasta 1000 caracteres. Si una entrada de texto tiene más de 1000 caracteres, se procesa como varias unidades de texto, con 1000 caracteres o menos cada una de ellas. Por ejemplo, si una entrada de texto contiene 5600 caracteres, se cobrarán 6 unidades de texto.La verificación de base contextual utiliza un origen de referencia y una consulta para determinar si la respuesta del modelo se basa en el origen y es relevante para la consulta. El número total de unidades de texto cobradas se calcula mediante la combinación de todos los caracteres del origen, la consulta y la respuesta del modelo.
-
Evaluación del modelo
-
Evaluación del modelo
La evaluación del modelo se cobra por la inferencia a partir del modelo que elija. Las puntuaciones algorítmicas generadas automáticamente se proporcionan sin costo adicional. En el caso de la evaluación realizada por humanos a la que lleve a su propio equipo de trabajo, se le cobrará por la inferencia del modelo en la evaluación y un cargo de 0,21 USD por tarea humana completada.
Model
Precio por cada 1000 tokens de entrada
Precio por cada 1000 tokens de salida
Precio por tarea humana
Modelo seleccionado para la evaluación
Basado en el modelo seleccionado
Basado en el modelo seleccionado
0,21 USD
-
Automatización de datos
-
Automatización de datos
Las bases de conocimiento de Amazon Bedrock ofrecen una integración de Bedrock Data Automation para proporcionar respuestas más relevantes y precisas para los datos multimodales. Al configurar una base de conocimientos, puede seleccionar Bedrock Data Automation como método de análisis para analizar y extraer información significativa de imágenes o documentos, que pueden incluir figuras, gráficos y diagramas. Durante el procesamiento, Bedrock Data Automation extrae información significativa de los documentos e imágenes ingeridos, que luego se utiliza en los pasos posteriores de la base de conocimientos para fragmentar, incrustar y almacenar. Cuando se integra con las bases de conocimiento, Automatización de Datos de Bedrock entrega y cobra por los resultados estandarizados.
-
Direccionamiento de peticiones inteligente
-
Punto de precio Dimensión de precios Plan de precios Direccionamiento de peticiones inteligente 1 USD por 1000 solicitudes Bajo demanda Direccionamiento de peticiones inteligente
El direccionamiento de peticiones inteligente le permite usar una combinación de modelos fundacionales (FM) de la misma familia de modelos para ayudar a optimizar la calidad y el costo. Por ejemplo, con la familia de modelos Claude de Anthropic, Amazon Bedrock puede enrutar de forma inteligente las peticiones entre Claude 3.5 Sonnet y Claude 3 Haiku, en función de la complejidad del mensaje. Del mismo modo, Amazon Bedrock puede enrutar solicitudes entre Meta Llama 3.3 70B y 3.18B, y Nova Pro y Nova Lite. El direccionamiento de peticiones predice qué modelo proporcionará el mejor rendimiento para cada solicitud y, al mismo tiempo, ayuda a optimizar la calidad de la respuesta y el costo. Esto es particularmente útil para aplicaciones como los asistentes de servicio al cliente, donde las consultas sencillas se pueden gestionar mediante modelos más pequeños, rápidos y rentables, y las consultas complejas se dirigen a modelos más capaces. El direccionamiento de peticiones inteligente puede reducir los costos hasta en un 30 % sin comprometer la precisión.
-
Optimización de peticiones
-
Optimización de peticiones para Amazon Bedrock
Se le cobra en función del número de tokens en las peticiones de entrada y en las peticiones optimizadas.
Todos los cargos se facturan mensualmente a partir del 23 de abril de 2025.
Precio por cada 1000 tokens 0,030 USD
Ejemplos de precios
-
AI21 Labs
Un desarrollador de aplicaciones realiza las siguientes llamadas a la API a Amazon Bedrock: una solicitud al modelo Jurrasic-2 Mid de AI21 para resumir una entrada de 10 000 tokens de texto de entrada en una salida de 2000 tokens.
Costo total incurrido = 10 000 tokens/1000 * 0,0125 USD + 2000 tokens/1000 * 0,0125 USD = 0,15 USD
-
Amazon
Precios bajo demanda
Un desarrollador de aplicaciones realiza las siguientes llamadas a la API a Amazon Bedrock cada una hora: una solicitud al modelo Amazon Titan Text Lite para resumir una entrada de 2000 tokens de texto de entrada en una salida de 1000 tokens.
Costo total por hora = 2000 tokens/1000 * 0,0003 USD + 1000 tokens/1000 * 0,0004 USD = 0,001 USD
Un desarrollador de aplicaciones realiza las siguientes llamadas a la API a Amazon Bedrock: una solicitud al modelo base Amazon Titan Image Generator para generar 1000 imágenes de 1024 x 1024 de tamaño y de calidad estándar.
Costo total incurrido = 1000 imágenes * 0,01 USD por imagen = 10 USD
Precios de la personalización (ajuste preciso y entrenamiento previo continuo)
Un desarrollador de aplicaciones personaliza un modelo de Amazon Titan Image Generator con 1000 pares de imagen y texto. Tras el entrenamiento, el desarrollador utiliza el rendimiento aprovisionado por un modelo personalizado durante 1 hora para evaluar el rendimiento del modelo. El modelo con ajuste preciso se almacena durante 1 mes. Tras la evaluación, el desarrollador utiliza el rendimiento aprovisionado (plazo de compromiso de 1 mes) para alojar el modelo personalizado.
Costo mensual incurrido para realizar el ajuste preciso = entrenamiento del ajuste preciso (0,005 USD * 500 * 64), donde 0,005 USD es el precio por imagen vista, 500 es el número de pasos y 64 es el tamaño del lote + almacenamiento mensual de los modelos personalizados (1,95 USD) + 1 hora de inferencia de modelos personalizados (21 USD) = 160 USD + 1,95 USD + 21 = 182,95 USD
Precios del rendimiento aprovisionado
Un desarrollador de aplicaciones compra dos unidades de modelo de Amazon Titan Text Express con un compromiso de 1 mes para su caso de uso de resúmenes de texto.
Costo total mensual incurrido = 2 unidades de modelo * 18,40 USD/hora * 24 horas* 31 días = 27 379,20 USD
Un desarrollador de aplicaciones compra una unidad de modelo del modelo básico de Amazon Titan Image Generator con un compromiso de 1 mes.
Costo total incurrido = 1 unidad de modelo * 16,20 USD * 24 horas * 31 días = 12 052,80 USD
-
Barreras de protección de Amazon Bedrock
Ejemplo 1: chatbot de atención al cliente
Un desarrollador de aplicaciones crea un chatbot de atención al cliente y usa filtros de contenido para bloquear el contenido dañino y los temas denegados para filtrar las consultas y respuestas no deseadas.
El chatbot atiende 1000 consultas de usuarios por hora. Cada consulta de usuario tiene una longitud de entrada promedio de 200 caracteres y recibe una respuesta del FM de 1500 caracteres.
Cada consulta de usuario de 200 caracteres corresponde a 1 unidad de texto.
Cada respuesta del FM de 1500 caracteres corresponde a 2 unidades de texto.
Unidades de texto procesadas cada hora = (1 + 2) * 1000 consultas = 3000 unidades de texto
Costo total incurrido por hora por los filtros de contenido y el tema denegado = 3000 * (0,15 USD + 0,15 USD) / 1000 = 0,90 USD
Ejemplo 2: resumen de la transcripción del centro de llamadas
Un desarrollador de aplicaciones crea una aplicación para resumir las transcripciones de los chats entre los usuarios y los agentes de soporte. Utiliza un filtro de información confidencial para eliminar la información de identificación personal (PII) en los resúmenes generados para 10 000 conversaciones.
Cada resumen generado tiene un promedio de 3500 caracteres que corresponden a 4 unidades de texto.
Costo total incurrido para resumir 10 000 conversaciones = 10 000 * 4 * (0,1/1000 USD) = 4 USDEjemplo 3: Motor de verificación de protocolos médicos
Una empresa de tecnología sanitaria implementa verificaciones de razonamiento automatizado en su sistema de apoyo a la toma de decisiones clínicas para validar las sugerencias de tratamiento según las directrices médicas.
El sistema procesa 5000 casos de pacientes al mes. Cada caso implica:
- Resumen de datos del paciente: 500 caracteres (1 unidad de texto)
- Evaluación diagnóstica: 2000 caracteres (2 unidades de texto)
- Recomendación de tratamiento: 4500 caracteres (5 unidades de texto)
Unidades de texto procesadas por mes = (1 + 2 + 5) 5000 casos = 40 000 unidades de texto
Costo total incurrido por mes para las verificaciones de razonamiento automatizado = 40 000 (0,17 USD)/1000 = 6,80 USD -
Bases de conocimiento de Amazon Bedrock
Ejemplo de precios 1 (cambio de clasificación mediante el modelo Amazon Rerank 1.0)
En un mes determinado, realiza 2 millones de solicitudes a la API de Rerank con el modelo Amazon Rerank 1.0; 1 millón de solicitudes contienen menos de 100 documentos cada una y, por lo tanto, se cobrará una solicitud por cada una. El millón de solicitudes restantes contienen entre 120 y 150 documentos y, por lo tanto, a cada solicitud se le cobrarán 2 solicitudes.
Precio de una solicitud = 0,001 USD
Costo total = 1,000,000 USD × 0.001 + 1,000,000 USD × 2 = 0.001 USD = 3000 USDEjemplo de precios 2: (Recuperación de datos estructurados)
Un desarrollador de aplicaciones crea un chatbot de soporte que consulta los datos estructurados almacenados en Amazon Redshift. El desarrollador crea una base de conocimientos de Bedrock y se conecta a Amazon Redshift. El chatbot atiende 10000 consultas de usuarios por hora. Cada consulta de usuario costará 0,002 USD por API de GenerateQuery para generar SQL a partir de la consulta del usuario.
Costo total incurrido para generar SQL por hora = 0,002 USD*10000 = 20 USD.
Costo total incurrido en el mes = 20 USD*24 USD*30 USD = 1440 USD -
Anthropic
Precios bajo demanda
Un desarrollador de aplicaciones realiza las siguientes llamadas a la API a Amazon Bedrock, en la región Oeste de EE. UU. (Oregón): una solicitud al modelo Claude de Anthropic para resumir una entrada de 11 000 tokens de texto de entrada en una salida de 4000 tokens.
Costo total incurrido =11 000 tokens/1000 * 0,008 USD + 4000 tokens/1000 * 0,024 USD = 0,088 USD + 0,096 USD = 0,184 USD
Precios del rendimiento aprovisionado
Un desarrollador de aplicaciones compra una unidad de modelo de Anthropic Claude Instant en la región Oeste de EE. UU. (Oregón):
Costo total mensual incurrido = 1 unidad de modelo * 39,60 USD * 24 horas * 31 días = 29 462,40 USD
-
Cohere
Precios bajo demanda
Un desarrollador de aplicaciones realiza las siguientes llamadas a la API a Amazon Bedrock: una solicitud al modelo Command de Cohere para resumir una entrada de 6000 tokens de texto de entrada en una salida de 2000 tokens.
Costo total incurrido = 6000 tokens/1000 * 0,0015 USD + 2000 tokens/1000 * 0,0020 USD = 0,013 USD
Un desarrollador de aplicaciones realiza las siguientes llamadas a la API a Amazon Bedrock: una solicitud al modelo Command Light de Cohere para resumir una entrada de 6000 tokens de texto de entrada en una salida de 2000 tokens.
Costo total incurrido = 6000 tokens/1000 * 0,0003 USD + 2000 tokens/1000 * 0,0006 USD = 0,003 USD
Un desarrollador de aplicaciones realiza las siguientes llamadas a la API a Amazon Bedrock: una solicitud al modelo Embed (inglés) o al modelo Embed (multilingüe) de Cohere para generar incrustaciones para 10 000 tokens de entrada.
Costo total incurrido = 10 000 tokens/1000 * 0,0001 USD = 0,001 USD
Precios de la personalización (ajuste preciso)
Un desarrollador de aplicaciones personaliza un modelo Command de Cohere con 1000 tokens de datos. Tras el entrenamiento, utiliza el rendimiento aprovisionado por un modelo personalizado durante 1 hora para evaluar el rendimiento del modelo. El modelo con ajuste preciso se almacena durante 1 mes. Tras la evaluación, el desarrollador utiliza el rendimiento aprovisionado (compromiso de 1 mes) para alojar el modelo personalizado.
Costo mensual incurrido para realizar el ajuste preciso = entrenamiento del ajuste preciso (0,004 USD * 1000) + almacenamiento mensual de los modelos personalizados (1,95 USD) + 1 hora de inferencia de modelos personalizados (49,50 USD) = 55,45 USD
El costo mensual incurrido por el rendimiento aprovisionado (plazo de compromiso de 1 mes) del modelo personalizado es de 39,60 USD
Precios del rendimiento aprovisionado
Un desarrollador de aplicaciones compra una unidad modelo Command de Cohere con un compromiso de 1 mes para su caso de uso de resumen de texto.
Costo total mensual incurrido = 1 unidad de modelo * 39,60 USD * 24 horas * 31 días = 29 462,40 USD
-
Importación de modelos personalizados
Ejemplo de precios: Un desarrollador de aplicaciones importa un modelo personalizado tipo Llama 3.1 con un tamaño de parámetro de 8B y una longitud de secuencia de 128 000 en la región us-east-1, y lo elimina después de un mes. Esto requiere 2 unidades de modelos personalizados. Por lo tanto, el precio por minuto será de 0,1570 USD porque se requieren 2 unidades de modelos personalizados. Los costos de almacenamiento del modelo para 2 unidades de modelos personalizados serían de 3,90 USD al mes.
La importación del modelo es gratuita. La primera invocación exitosa es a las 8:03 a. m., momento en el que comienza la medición. Los intervalos de medición de 5 minutos son de 8:03 a. m. a 8:07 a. m.; de 8:07 a. m. a 8:11 a. m., y así sucesivamente. Si hay al menos una invocación durante un periodo de 5 minutos, el intervalo se considerará activa para la facturación. Si hay una invocación a las 8:03 a. m. y no hay más invocaciones después de las 8:07 a. m., la medición se detendrá a las 8:07 a. m. En este caso, la factura se calcularía de la siguiente manera: 0,1570 USD * 5 minutos * 1 intervalo de cinco minutos = 0,785 USD.
-
Automatización de datos
Ejemplo de precios 1:
Supongamos que procesa un documento de 1000 páginas con BDA Custom Output. Las 1000 páginas se procesan mediante el esquema 1, que tiene 15 campos. El precio por página de cualquier esquema con 30 campos o menos es de 0,040 USD. El costo total sería de 40 USD.
Total de páginas procesadas = 1000
Precio por página para esquemas con menos de 30 campos = 0,040 USD
Costo total = 1000 × 0.040 USD = 40 USDEjemplo de precios 2:
Supongamos que procesa 2 documentos con BDA Custom Output. El documento 1 tiene 40 páginas y se procesa con el esquema 1, que tiene 20 campos. El documento 2 tiene 10 páginas y se procesa con el esquema 2, que tiene 40 campos. El precio por página del esquema 1 es de 0,040 USD, ya que contiene 30 campos o menos. El precio por página del esquema 2 es de 0,045 USD. El costo de procesamiento del documento 1 con el esquema 1 es de 1,60 USD. El costo de procesamiento del documento 2 con el esquema 2 es de 0,45 USD. El costo total de procesar ambos documentos sería de 2,05 USD.
Total de páginas procesadas = 50
Precio por página para el esquema 1 con menos de 30 campos = 0,040 USD
Precio por página para el esquema 2 con 40 campos = 0,040 USD + (número de campos adicionales superiores a 30 *0,0005 USD por campo)
Número de campos adicionales por encima de 30 = 40 - 30 = 10
Precio por página para el esquema 2 con 40 campos = 0,040 USD + (10 *0,0005 USD por campo) = 0,045 USD
Cargo por el documento 1 con el esquema 1 = 40 páginas x 0,040 USD por página = 1,6 USD
Cargo por el documento 2 con el esquema 2 = 10 páginas x 0,045 USD por página = 0,45 USD
Cargo total = cargo por el documento 1 + cargo por el documento 2 = 1,6 USD + 0,45 USD = 2,05 USD
Ejemplo 3 de precios.
Supongamos que configura las bases de conocimiento de Bedrock para usar Bedrock Data Automation como analizador y, a continuación, ingiere un documento de 1000 páginas. Tenga en cuenta que las estructuras de costos difieren entre las opciones de análisis de las bases de conocimiento. BDA usa precios por página, mientras que los analizadores de Foundational Model cobran en función de los tokens de entrada y salida. Para dar contexto, el procesamiento de 1000 páginas, de las que el 30 % contiene tablas y el 30 % contiene figuras, normalmente requiere 2900 tokens de entrada y 750 tokens de salida. El consumo de tokens varía según el tipo de contenido, por lo que se recomienda a los clientes que prueben con sus propios datos para obtener estimaciones más precisas. La integración de las bases de conocimiento de Bedrock y Bedrock Data Automation utiliza una salida estándar, donde precio por página es 0,010 USD. El costo total sería de 10 USD.Total de páginas procesadas = 1000
Precio por página para la salida estándar = 0,010 USD
Costo total = 1000 x 0,010 USD = 10 USDEjemplo de precios 4:
Supongamos que procesa un video de 60 minutos con la salida estándar BDA. El precio por minuto de la salida estándar de video es de 0,050 USD. El costo total sería de 3.00 USD.
Total de minutos procesados = 60
Precio por minuto para la salida estándar de video = 0,050 USD
Costo total = 60 × 0,050 USD = 3,00 USD
Ejemplo de precios 5:
Supongamos que procesa 2000 imágenes con BDA Custom Output. Las primeras 1000 imágenes se procesan con el esquema 1, que tiene 10 campos. Las últimas 1000 páginas se procesan con el esquema 2, que tiene 40 campos. El precio por imagen del esquema 1 es de 0,005 USD, ya que contiene 30 campos o menos. El precio por imagen del esquema 2 es de 0,01 USD. El costo de procesamiento de las primeras 1000 imágenes con el esquema 1 es de 5,00 USD. El costo de procesamiento de las primeras 1000 imágenes con el esquema 2 es de 10,00 USD. El costo total de procesar las 2000 imágenes sería de 15,00 USD
Costo de las primeras 1000 imágenes = 1000 imágenes* 0,005 USD por imagen = 5,00 USD
Costo de 1000 imágenes secundarias = 1000 imágenes * (0,005 USD + [número de campos adicionales superiores a 30 x 0,0005 USD por campo])
= 1000 x (0,005 USD + ([40-30] x 0,0005 USD))
= 1000 x (0,005 USD + [10 x 0,0005 USD]) = 10,00 USD
Costo total = 5,00 USD + 10,00 USD = 15,00 USD
Ejemplo de precios 6:
Supongamos que desea utilizar Bedrock Data Automation Standard Output para procesar 15 000 minutos de grabaciones de audio de reuniones en su organización. El costo total de procesar los 15 000 minutos de audio sería de 90 USD.
Total de minutos procesados = 15 000 minutos
Carga total = 15 000 minutos × 0,006 USD = 90 USD -
DeepSeek
Precios bajo demanda
Un desarrollador de aplicaciones hace las siguientes llamadas a la API a Amazon Bedrock cada hora: una solicitud al modelo DeepSeek-R1 para resumir una entrada de 2000 tokens de texto de entrada en una salida de 1000 tokens (incluidos los tokens de razonamiento):
Costo total por hora = 2000 tokens/1000 * 0,00135 USD + 1000 tokens/1000 * 0,0054 USD = 0,0081 USD
-
Flujos
Ejemplo: resumen de noticias
Un desarrollador de aplicaciones crea un flujo para automatizar el resumen de noticias para los comerciantes. El flujo incluye un nodo de entrada que ocupa una ubicación de S3 y un nodo de recuperación de S3 que recupera 10 archivos que incluyen artículos de 10 de las principales agencias de noticias de S3 (transiciones de 2 nodos). A continuación, utiliza un nodo iterador para invocar un modelo con un nodo de petición para resumir cada archivo (+ 10 archivos x 2 transiciones de nodos). A continuación, recopila todos los resultados mediante un nodo recopilador, escribe los resultados en S3 mediante el nodo de almacenamiento de S3 y los completa en un nodo de salida (+ 3 transiciones de nodo). El desarrollador ejecuta este flujo cada media hora de cada día de la semana.La cantidad de transiciones de nodo por ejecución de flujo es: 2+1+10*2 + 3 = 25 transiciones de nodo/ejecución de flujo
La cantidad de ejecuciones de flujo por mes es: 24 horas *2* 5 días * 4 semanas = 960 ejecuciones de flujo/mes.
La factura mensual total es: 25 * 960 * 0,035 USD/1000 = 0,84 USD
Cargos adicionales
La factura también incluirá cargos adicionales por los servicios de AWS que se utilicen en la ejecución del flujo de trabajo, incluidos los usos de Amazon S3 en los nodos de recuperación y almacenamiento, y el uso del modelo fundacional de Amazon Bedrock en el nodo de petición.
-
Meta
Precios bajo demanda
Un desarrollador de aplicaciones realiza las siguientes llamadas a la API a Amazon Bedrock: una solicitud al modelo Llama 2 Chat (13B) de Meta para resumir una entrada de 2000 tokens de texto de entrada en una salida de 500 tokens.
Costo total incurrido = 2000 tokens/1000 * 0,00075 USD + 500 tokens/1000 * 0,001 USD = 0,002 USD
Precios de la personalización (ajuste preciso)
Un desarrollador de aplicaciones personaliza el modelo Llama 2 Pretrained (70B) con 1000 tokens de datos. Tras el entrenamiento, utiliza el rendimiento aprovisionado por un modelo personalizado durante 1 hora para evaluar el rendimiento del modelo. El modelo con ajuste preciso se almacena durante 1 mes. Tras la evaluación, el desarrollador utiliza el rendimiento aprovisionado (compromiso de 1 mes) para alojar el modelo personalizado.
Costo mensual incurrido para realizar el ajuste preciso = entrenamiento del ajuste preciso (0,00799 USD * 1000) + almacenamiento mensual de los modelos personalizados (1,95 USD) + 1 hora de inferencia de modelos personalizados (23,50 USD) = 33,44 USD
El costo mensual incurrido por el rendimiento aprovisionado (plazo de compromiso de 1 mes) del modelo personalizado es de 21,18 USD
Precios del rendimiento aprovisionado
Un desarrollador de aplicaciones compra una unidad de modelo Llama 2 de Meta con un compromiso de 1 mes para su caso de uso de resúmenes de texto.
Costo total mensual incurrido = 1 unidad de modelo * 21,18 USD * 24 horas * 31 días = 15 757,92 USD
-
Mistral AI
Precios bajo demanda
Un desarrollador de aplicaciones realiza las siguientes llamadas a la API a Amazon Bedrock cada una hora: una solicitud al modelo Mistral 7B para resumir una entrada de 2000 tokens de texto de entrada en una salida de 1000 tokens.
Costo total por hora = 2000 tokens/1000 * 0,00015 USD + 1000 tokens/1000 * 0,0002 USD = 0,0005 USD
Un desarrollador de aplicaciones realiza las siguientes llamadas a la API a Amazon Bedrock cada una hora: una solicitud al modelo Mixtral 8x7B para resumir una entrada de 2000 tokens de texto de entrada en una salida de 1000 tokens.
Costo total por hora = 2000 tokens/1000 * 0,00045 USD + 1000 tokens/1000 * 0,0007 USD = 0,0016 USD
Un desarrollador de aplicaciones hace las siguientes llamadas a la API a Amazon Bedrock cada hora: una solicitud al modelo Mistral Large para resumir una entrada de 2000 tokens de texto de entrada en una salida de 1000 tokens.
Costo total por hora = 2000 tokens/1000 * 0,008 USD + 1000 tokens/1000 * 0,024 USD = 0,04 USD
-
Evaluación del modelo
Ejemplo 1 de evaluación del modelo:
Precios bajo demanda
Un desarrollador de aplicaciones envía un conjunto de datos para la evaluación de modelos realizada por humanos mediante Anthropic Claude 2.1 y Anthropic Claude Instant en la región de AWS Este de EE. UU. (Norte de Virginia).El conjunto de datos contiene 50 solicitudes y el desarrollador requiere que un trabajador califique cada conjunto de solicitudes y respuestas (se puede configurar en la creación del trabajo de evaluación como parámetro “trabajadores por solicitud”).
Habrá 50 tareas en este trabajo de evaluación (un conjunto de tareas por cada par de solicitud y respuesta por trabajador). Las 50 solicitudes se combinan en 5000 tokens de entrada, y las respuestas asociadas se combinan en 15 000 tokens para Anthropic Claude Instant y 20 000 tokens para Anthropic Claude 2.1.
Se incurre en los siguientes cargos por este trabajo de evaluación del modelo:Elemento Número de tokens de entrada Precio por cada 1000 tokens de entrada Costo de entrada Número de tokens de salida Precio por cada 1000 tokens de salida Costo de salida Número de tareas humanas Precio por tarea humana Costo de las tareas humanas Total Inferencia de Claude Instant 5000 0,0008 USD 0,004 USD 15 000 0,0024 USD 0,036 USD 0,04 USD Inferencia de Claude 2.1 5000 0,008 USD 0,04 USD 20 000 0,024 USD 0,48 USD 0,52 USD Tareas humanas 50 0,21 USD 10,50 USD 10,50 USD Total 11,06 USD Ejemplo 2 de evaluación del modelo:
Precios bajo demanda
Un desarrollador de aplicaciones envía un conjunto de datos para la evaluación de modelos realizada por humanos mediante Anthropic Claude 2.1 y Anthropic Claude Instant en la región de AWS Este de EE. UU. (Norte de Virginia).
El conjunto de datos contiene 50 solicitudes y el desarrollador requiere que dos trabajadores califiquen cada conjunto de solicitudes y respuestas (se puede configurar en la creación del trabajo de evaluación como parámetro “trabajadores por solicitud”). Este trabajo de evaluación constará de 100 tareas (1 por cada conjunto de solicitud y respuesta por cada trabajador: 2 trabajadores x 50 conjuntos de solicitud y respuesta = 100 tareas humanas).
Las 50 solicitudes se combinan en 5000 tokens de entrada, y las respuestas asociadas se combinan en 15 000 tokens para Anthropic Claude Instant y 20 000 tokens para Anthropic Claude 2.1.
Se incurre en los siguientes cargos por este trabajo de evaluación del modelo:
Elemento Número de tokens de entrada Precio por cada 1000 tokens de entrada Costo de entrada Número de tokens de salida Precio por cada 1000 tokens de salida Costo de salida Número de tareas humanas Precio por tarea humana Costo de las tareas humanas Total Inferencia de Claude Instant 5000 0,0008 USD 0,0040 USD 15 000 0,0024 USD 0,036 USD 0,04 USD Inferencia de Claude 2.1 5000 0,008 USD 0,0400 USD 20 000 0,024 USD 0,48 USD 0,52 USD Tareas humanas 100 0,21 USD 21,00 USD 21,00 USD Total 21,56 USD -
Optimización de peticiones
Ejemplo: resumen de noticias
Un desarrollador de aplicaciones crea una petición para resumir las noticias para los operadores que usan Claude 3.5. La petición original incluye 429 tokens. La petición optimizada tiene 511 tokens e incluye instrucciones y ejemplos más específicos para que los modelos fundacionales generen respuestas más concisas. Usa la petición optimizada con 511 tokens como entrada para el optimizador de peticiones y crea 2 variantes nuevas para Claude 3.7 y Nova Pro con 582 y 579 tokens.La cantidad total de tokens de entrada y salida para la optimización de peticiones es: 429 + 511 + 511 + 582 + 511 + 579 = 3123
La factura mensual total es: 3123 / 1000 * 0,03 USD = 0,09 USD
-
Stability AI
Precios bajo demanda
Un desarrollador de aplicaciones realiza las siguientes llamadas a la API a Amazon Bedrock: una solicitud al modelo SDXL para generar una imagen de 512 x 512 con un tamaño de paso de 70 (calidad premium).
Costo total incurrido = 1 imagen * 0,036 USD por imagen = 0,036 USD
Un desarrollador de aplicaciones realiza las siguientes llamadas a la API a Amazon Bedrock: una solicitud al modelo SDXL 1.0 para generar una imagen de 1024 x 1024 con un tamaño de paso de 70 (calidad premium).
Costo total incurrido = 1 imagen * 0,08 USD por imagen = 0,08 USD
Precios del rendimiento aprovisionado
Un desarrollador de aplicaciones compra una unidad de modelo de SDXL 1.0 con un compromiso de 1 mes.
Costo total incurrido = 1 * 49,86 USD * 24 horas * 31 días = 37 095,84 USD
-
TwelveLabs
Precios bajo demanda
Un desarrollador de aplicaciones realiza las siguientes llamadas a la API a Amazon Bedrock: una solicitud al modelo Pegasus 1.2 para describir lo que implica un video de 10 segundos de duración, que proporciona una salida de 2000 tokens.
Costo total incurrido = 10 segundos * 0,00049 USD + 2000 tokens/ 1000 * 0,0075 = USD = 0,0199 USD
Un desarrollador de aplicaciones realiza las siguientes llamadas a la API a Amazon Bedrock: una solicitud al modelo Marengo Embed 2.7 para buscar una imagen específica mediante una solicitud de texto en un repositorio de 10 videos con una duración total de 100 minutos de contenido de video. La búsqueda devuelve 10 resultados coincidentes.
Costo total incurrido = 100 minutos (6000 s) + 0,00070 USD + 1 solicitud = 4,20007 USD
-
Writer
Un desarrollador de aplicaciones realiza las siguientes llamadas a la API a Amazon Bedrock: una solicitud al modelo Palmyra X5 de Writer para resumir una entrada de 10 000 tokens de texto de entrada en una salida de 2000 tokens.
Costo total incurrido = 10 000 tokens/1000 * 0,003 USD + 2000 tokens/1000 * 0,015 USD = 0,06 USD