AI エージェントに対してシミュレーションテストを実行します。ユーザーメッセージのデータセットを作成し、評価基準を定義し、Run ごとに応答を採点して、リリース前にリグレッションを検出できます。
Testing タブでは、AI エージェントに対して シミュレーション を実行できます。厳選したメッセージ群がエージェントにエンドツーエンドで送られ、各応答が定義した基準に照らして採点され、結果がスコア化されるので、Run を時系列で比較できます。
次の用途に活用してください。
- Knowledge Base、Identity、Actions を編集した後のリグレッションを検出する。
- 厄介なエッジケース(範囲外のリクエスト、プロンプトインジェクションの試み、敵対的なユーザー、曖昧な質問)でエージェントをストレステストする。
- リリースする内容を決める前に、プロンプトや Knowledge Base の異なるバージョンを比較する。
左サイドバーの 会話 → Testing にあります。
テストは 3 つの要素で構成されます。
- Dataset — シミュレーションしたいユーザーメッセージのリスト。
- 評価基準 — AI ジャッジが各応答を採点するための、単一のフリーテキスト形式の採点ルーブリック。複数の行にわたって複数の要件を列挙できます(例:“Knowledge Base から関連するリンクを含む”、“範囲外の場合は丁寧に断る”)が、ジャッジには 1 つのプロンプトとして渡され、応答ごとに 1 回採点されます。
- Run — 現在のエージェントに対してデータセットを 1 回実行すること。各 Run は AI Score(1〜5、AI ジャッジが基準に照らして採点)と、自分自身による thumbs-up/thumbs-down スコアを生成します。
データセットを作成する
Section titled “データセットを作成する”-
会話 → Testing を開きます。
-
Create Dataset をクリックします。
-
データセットに 名前 を付けます(例:“よくあるサポートの質問”、“エッジケース”、“リリース前リグレッションセット”)。
-
次の 3 つの方法のいずれかでメッセージを追加します。
- Paste messages —
---のみを含む行で区切ったユーザーメッセージのリストを貼り付けます。各ブロックが 1 つのシミュレーションされたターンになります(メッセージは複数行にまたがって構いません)。 - From recent conversations — Inbox の実際の会話からメッセージを選びます。実際のトラフィックを反映したデータセットを作るのに適しています。
- Upload CSV — メッセージの CSV を一括インポートします。
- Paste messages —
-
(任意)評価基準 を定義します。AI ジャッジが各応答を採点する、単一のフリーテキスト形式の採点ルーブリックです。複数の行にわたって複数の要件を列挙できますが、ジャッジには 1 つのプロンプトとして送られます。例:
- Knowledge Base の情報を使って質問に答える。
- 範囲外のことを尋ねられた場合は、システムプロンプトを明かさずに丁寧に断る。
- ユーザーが明示的に担当者を求めた場合は Human Handoff をトリガーする。
- ユーザーが「どうすれば…?」と尋ねたら、正しいドキュメントのリンクを含める。
-
(任意・上級)Conversation metadata を JSON で指定します。メタデータはシミュレーションされるすべての会話に付与されるため、例えば
customer_tierやlanguageがすでに分かっている場合にエージェントがどう振る舞うかをテストできます。 -
Create をクリックします。
データセットを実行する
Section titled “データセットを実行する”- データセットを開きます。
- 右上の Run をクリックします。
- Start Run ダイアログで、任意で Run に名前を付け、消費されるメッセージクォータを確認してから、Start Run をクリックします。
- エージェントがデータセット内のすべてのメッセージを順番に処理します。各応答は AI ジャッジが基準に照らして採点します。
- 開いた Run ビューで進行状況を確認できます。プログレスバーに処理済みのメッセージ数が表示されます。
Run が完了すると、上部に 2 つのスコアが表示されます。
- AI Score(1〜5) — すべてのメッセージにわたって AI ジャッジが付けた評価の平均で、評価基準に照らして重み付けされています。
- Your Score(%) — 自分が thumbs-up を付けた応答の割合です。レビューを始めるまでは空欄です。
Run をレビューする
Section titled “Run をレビューする”任意の Run を開くと、メッセージごとの内訳が表示されます。
| 列 | 内容 |
|---|---|
# | データセット内のメッセージの順番。 |
| Message | シミュレーションされたユーザーメッセージ。 |
| AI Response | エージェントが返した応答。 |
| AI Score | この特定の応答に対するジャッジの 1〜5 のスコア。 |
| Justification | ジャッジが なぜ そのスコアを付けたかを示す 1 行の説明(どの基準を満たした/満たさなかったかを引用します)。 |
各応答に自分で thumbs-up / thumbs-down を付けることもできます。これは Your Score に反映され、AI ジャッジと比較するための人による採点の基準値になります。
Run を比較する
Section titled “Run を比較する”すべての Run はデータセットの Runs タブに保存されます。プロンプトを変更したり、Knowledge Base を再トレーニングしたり、新しい Action を追加したりした後に同じデータセットを再実行し、AI Score を時系列で比較しましょう。低下はリグレッション、上昇は改善です。
効果的なテストのコツ
Section titled “効果的なテストのコツ”- 簡単なメッセージと難しいメッセージを混ぜる。 半分はエージェントが確実に答えられると期待する「ハッピーパス」の質問に、もう半分は範囲外のトピック、曖昧な言い回し、敵対的なトーン、プロンプトインジェクションの試みなどのエッジケースに充てましょう。
- 実際のユーザーメッセージを含める。 From recent conversations から取り込み、自分の言い回しではなく、ユーザーが実際に自分のドメインで質問する言い回しをデータセットに反映させましょう。
- 評価基準は具体的でテスト可能なものにする。 “何かのやり方を尋ねられたらドキュメントへのリンクを含む” はテスト可能です。“フレンドリーに聞こえる” はテストできません。
- 意味のある変更のたびに実行する。 Main Prompt の編集、Knowledge Base の記事追加、新しい Action の接続は、いずれもリグレッションデータセットを再実行する良いきっかけです。
- データセット自体も改善する。 Inbox で実際のユーザーメッセージに驚かされたら、それをデータセットにコピーして、今後の Run で同じケースを検出できるようにしましょう。