Évaluations Amazon Bedrock
Évaluez les modèles de fondation, y compris les modèles personnalisés et importés, afin de trouver ceux qui répondent à vos besoins. Vous pouvez également évaluer votre processus de récupération ou votre flux de travail RAG de bout en bout dans les bases de connaissances Amazon Bedrock.
Présentation
Amazon Bedrock fournit des outils d’évaluation qui vous permettent d’accélérer l’adoption d’applications d’IA générative. Évaluez, comparez et sélectionnez le modèle de fondation pour votre cas d’utilisation grâce à l’évaluation des modèles. Préparez vos applications RAG pour la production, qu’elles soient fondées sur les bases de connaissances Amazon Bedrock ou sur vos propres systèmes RAG personnalisés en évaluant les fonctions de récupération ou de récupération et génération.

Types d’évaluation
Modèles : LLM-juge
Utilisez un LLM-juge pour évaluer les résultats des modèles à l’aide de vos jeux de données d’invites personnalisés, avec des métriques telles que la justesse, l’exhaustivité et la nocivité.
Modèles : programmatique
Évaluez les résultats des modèles à l’aide d’algorithmes et de métriques traditionnels en langage naturel tels que BERT Score, F1 et d’autres techniques de correspondance exacte, en utilisant des jeux de données d’invites intégrés ou en apportant les vôtres.
Modèles : basés sur l’homme
Évaluez les résultats des modèles avec votre propre personnel ou demandez à AWS de gérer vos évaluations sur les réponses à vos jeux de données d’invites personnalisés à l’aide de métriques intégrées ou personnalisées.
RAG : récupération
Évaluez la qualité de récupération de votre système RAG personnalisé ou des bases de connaissances Amazon Bedrock avec vos invites et des métriques telles que la pertinence du contexte et la prise en compte du contexte.
RAG : récupération et génération
Évaluez le contenu généré par votre flux de travail RAG de bout en bout à partir de votre pipeline RAG personnalisé ou des bases de connaissances Amazon Bedrock. Utilisez vos propres invites et métriques telles que la fidélité (détection des hallucinations), l’exactitude et l’exhaustivité.
Évaluation de votre flux de travail RAG de bout en bout

Garantie d’une récupération complète et pertinente à partir de votre système RAG

Évaluez les FM pour sélectionner celui qui convient le mieux à votre cas d’utilisation

Comparez les résultats de plusieurs tâches d’évaluation pour prendre des décisions plus rapidement

Comment démarrer
Les bases de connaissances Amazon Bedrock prennent désormais en charge l’évaluation RAG
L’évaluation des modèles Amazon Bedrock inclut désormais le LLM-juge
Découvrez comment évaluer des modèles adaptés à votre cas d’utilisation