コンテンツにスキップ

AI エージェントに対してシミュレーションテストを実行します。ユーザーメッセージのデータセットを作成し、評価基準を定義し、Run ごとに応答を採点して、リリース前にリグレッションを検出できます。

Testing タブでは、AI エージェントに対して シミュレーション を実行できます。厳選したメッセージ群がエージェントにエンドツーエンドで送られ、各応答が定義した基準に照らして採点され、結果がスコア化されるので、Run を時系列で比較できます。

次の用途に活用してください。

  • Knowledge Base、Identity、Actions を編集した後のリグレッションを検出する。
  • 厄介なエッジケース(範囲外のリクエスト、プロンプトインジェクションの試み、敵対的なユーザー、曖昧な質問)でエージェントをストレステストする。
  • リリースする内容を決める前に、プロンプトや Knowledge Base の異なるバージョンを比較する。

左サイドバーの 会話 → Testing にあります。

テストは 3 つの要素で構成されます。

  1. Dataset — シミュレーションしたいユーザーメッセージのリスト。
  2. 評価基準 — AI ジャッジが各応答を採点するための、単一のフリーテキスト形式の採点ルーブリック。複数の行にわたって複数の要件を列挙できます(例:“Knowledge Base から関連するリンクを含む”“範囲外の場合は丁寧に断る”)が、ジャッジには 1 つのプロンプトとして渡され、応答ごとに 1 回採点されます。
  3. Run — 現在のエージェントに対してデータセットを 1 回実行すること。各 Run は AI Score(1〜5、AI ジャッジが基準に照らして採点)と、自分自身による thumbs-up/thumbs-down スコアを生成します。
  1. 会話 → Testing を開きます。

  2. Create Dataset をクリックします。

  3. データセットに 名前 を付けます(例:“よくあるサポートの質問”“エッジケース”“リリース前リグレッションセット”)。

  4. 次の 3 つの方法のいずれかでメッセージを追加します。

    • Paste messages--- のみを含む行で区切ったユーザーメッセージのリストを貼り付けます。各ブロックが 1 つのシミュレーションされたターンになります(メッセージは複数行にまたがって構いません)。
    • From recent conversations — Inbox の実際の会話からメッセージを選びます。実際のトラフィックを反映したデータセットを作るのに適しています。
    • Upload CSV — メッセージの CSV を一括インポートします。
  5. (任意)評価基準 を定義します。AI ジャッジが各応答を採点する、単一のフリーテキスト形式の採点ルーブリックです。複数の行にわたって複数の要件を列挙できますが、ジャッジには 1 つのプロンプトとして送られます。例:

    • Knowledge Base の情報を使って質問に答える。
    • 範囲外のことを尋ねられた場合は、システムプロンプトを明かさずに丁寧に断る。
    • ユーザーが明示的に担当者を求めた場合は Human Handoff をトリガーする。
    • ユーザーが「どうすれば…?」と尋ねたら、正しいドキュメントのリンクを含める。
  6. (任意・上級)Conversation metadata を JSON で指定します。メタデータはシミュレーションされるすべての会話に付与されるため、例えば customer_tierlanguage がすでに分かっている場合にエージェントがどう振る舞うかをテストできます。

  7. Create をクリックします。

  1. データセットを開きます。
  2. 右上の Run をクリックします。
  3. Start Run ダイアログで、任意で Run に名前を付け、消費されるメッセージクォータを確認してから、Start Run をクリックします。
  4. エージェントがデータセット内のすべてのメッセージを順番に処理します。各応答は AI ジャッジが基準に照らして採点します。
  5. 開いた Run ビューで進行状況を確認できます。プログレスバーに処理済みのメッセージ数が表示されます。

Run が完了すると、上部に 2 つのスコアが表示されます。

  • AI Score(1〜5) — すべてのメッセージにわたって AI ジャッジが付けた評価の平均で、評価基準に照らして重み付けされています。
  • Your Score(%) — 自分が thumbs-up を付けた応答の割合です。レビューを始めるまでは空欄です。

任意の Run を開くと、メッセージごとの内訳が表示されます。

内容
#データセット内のメッセージの順番。
Messageシミュレーションされたユーザーメッセージ。
AI Responseエージェントが返した応答。
AI Scoreこの特定の応答に対するジャッジの 1〜5 のスコア。
Justificationジャッジが なぜ そのスコアを付けたかを示す 1 行の説明(どの基準を満たした/満たさなかったかを引用します)。

各応答に自分で thumbs-up / thumbs-down を付けることもできます。これは Your Score に反映され、AI ジャッジと比較するための人による採点の基準値になります。

すべての Run はデータセットの Runs タブに保存されます。プロンプトを変更したり、Knowledge Base を再トレーニングしたり、新しい Action を追加したりした後に同じデータセットを再実行し、AI Score を時系列で比較しましょう。低下はリグレッション、上昇は改善です。

  • 簡単なメッセージと難しいメッセージを混ぜる。 半分はエージェントが確実に答えられると期待する「ハッピーパス」の質問に、もう半分は範囲外のトピック、曖昧な言い回し、敵対的なトーン、プロンプトインジェクションの試みなどのエッジケースに充てましょう。
  • 実際のユーザーメッセージを含める。 From recent conversations から取り込み、自分の言い回しではなく、ユーザーが実際に自分のドメインで質問する言い回しをデータセットに反映させましょう。
  • 評価基準は具体的でテスト可能なものにする。 “何かのやり方を尋ねられたらドキュメントへのリンクを含む” はテスト可能です。“フレンドリーに聞こえる” はテストできません。
  • 意味のある変更のたびに実行する。 Main Prompt の編集、Knowledge Base の記事追加、新しい Action の接続は、いずれもリグレッションデータセットを再実行する良いきっかけです。
  • データセット自体も改善する。 Inbox で実際のユーザーメッセージに驚かされたら、それをデータセットにコピーして、今後の Run で同じケースを検出できるようにしましょう。