Amazon Bedrock の評価
カスタムモデルやインポートされたモデルなどの基盤モデルを評価して、ニーズに合ったモデルを見つけることができます。また、Amazon Bedrock のナレッジベースで、検索またはエンドツーエンドの RAG ワークフローを評価することもできます。
概要
Amazon Bedrock には、生成 AI アプリケーションの導入を促進するための評価ツールが用意されています。モデル評価により、ユースケースの基盤モデルを評価、比較、選択できます。取得関数または取得関数と生成機能を評価して、Amazon Bedrock ナレッジベースまたは独自のカスタム RAG システムに基づいて構築された RAG アプリケーションを本番環境用に準備しましょう。

評価のタイプ
モデル: LLM-as-a-Judge
LLM-as-a-Judge を使用して、正確性、完全性、有害性などのメトリクスを含むカスタムプロンプトデータセットでモデル出力を評価します。
モデル: プログラムを使用
BERT Score、F1、その他の完全一致手法などの従来の自然言語アルゴリズムやメトリクスを使用して、組み込みのプロンプトデータセットか独自のデータセットでモデル出力を評価します。
モデル: 人間ベース
自社のワークフォースとともにモデルの出力を評価するか、組み込みのメトリクスかカスタムメトリクスを使用したカスタムプロンプトデータセットに対する応答の評価を AWS に管理させます。
RAG: 取得
プロンプトやコンテキストの関連性、コンテキストカバレッジなどのメトリクスを使用して、カスタム RAG システムや Amazon Bedrock ナレッジベースの検索品質を評価します。
RAG: 取得と生成
カスタム RAG パイプラインまたは Amazon Bedrock ナレッジベースからエンドツーエンドの RAG ワークフローで生成されたコンテンツを評価します。忠実度 (ハルシネーション検知)、正確さ、完全性など、独自のプロンプトとメトリクスを使用します。
エンドツーエンドの RAG ワークフローを評価

RAG システムからの完全かつ適切な取得を確実に行う

FM を評価して、ユースケースに最適なものを選択

複数の評価ジョブの結果を比較してすばやく意思決定を行う
