テスト

AI エージェントに対してシミュレーションテストを実行します。ユーザーメッセージのデータセットを作成し、評価基準を定義し、Run ごとに応答を採点して、リリース前にリグレッションを検出できます。

Testing タブでは、AI エージェントに対して シミュレーション を実行できます。厳選したメッセージ群がエージェントにエンドツーエンドで送られ、各応答が定義した基準に照らして採点され、結果がスコア化されるので、Run を時系列で比較できます。

次の用途に活用してください。

Knowledge Base、Identity、Actions を編集した後のリグレッションを検出する。
厄介なエッジケース（範囲外のリクエスト、プロンプトインジェクションの試み、敵対的なユーザー、曖昧な質問）でエージェントをストレステストする。
リリースする内容を決める前に、プロンプトや Knowledge Base の異なるバージョンを比較する。

左サイドバーの 会話 → Testing にあります。

仕組み

テストは 3 つの要素で構成されます。

Dataset — シミュレーションしたいユーザーメッセージのリスト。
評価基準 — AI ジャッジが各応答を採点するための、単一のフリーテキスト形式の採点ルーブリック。複数の行にわたって複数の要件を列挙できます（例：“Knowledge Base から関連するリンクを含む”、“範囲外の場合は丁寧に断る”）が、ジャッジには 1 つのプロンプトとして渡され、応答ごとに 1 回採点されます。
Run — 現在のエージェントに対してデータセットを 1 回実行すること。各 Run は AI Score（1〜5、AI ジャッジが基準に照らして採点）と、自分自身による thumbs-up/thumbs-down スコアを生成します。

データセットを作成する

会話 → Testing を開きます。
Create Dataset をクリックします。
データセットに名前を付けます（例：“よくあるサポートの質問”、“エッジケース”、“リリース前リグレッションセット”）。
次の 3 つの方法のいずれかでメッセージを追加します。
- Paste messages — --- のみを含む行で区切ったユーザーメッセージのリストを貼り付けます。各ブロックが 1 つのシミュレーションされたターンになります（メッセージは複数行にまたがって構いません）。
- From recent conversations — Inbox の実際の会話からメッセージを選びます。実際のトラフィックを反映したデータセットを作るのに適しています。
- Upload CSV — メッセージの CSV を一括インポートします。
（任意）評価基準 を定義します。AI ジャッジが各応答を採点する、単一のフリーテキスト形式の採点ルーブリックです。複数の行にわたって複数の要件を列挙できますが、ジャッジには 1 つのプロンプトとして送られます。例：
- Knowledge Base の情報を使って質問に答える。
- 範囲外のことを尋ねられた場合は、システムプロンプトを明かさずに丁寧に断る。
- ユーザーが明示的に担当者を求めた場合は Human Handoff をトリガーする。
- ユーザーが「どうすれば…?」と尋ねたら、正しいドキュメントのリンクを含める。
（任意・上級）Conversation metadata を JSON で指定します。メタデータはシミュレーションされるすべての会話に付与されるため、例えば customer_tier や language がすでに分かっている場合にエージェントがどう振る舞うかをテストできます。
Create をクリックします。

データセットを実行する

データセットを開きます。
右上の Run をクリックします。
Start Run ダイアログで、任意で Run に名前を付け、消費されるメッセージクォータを確認してから、Start Run をクリックします。
エージェントがデータセット内のすべてのメッセージを順番に処理します。各応答は AI ジャッジが基準に照らして採点します。
開いた Run ビューで進行状況を確認できます。プログレスバーに処理済みのメッセージ数が表示されます。

Run が完了すると、上部に 2 つのスコアが表示されます。

AI Score（1〜5） — すべてのメッセージにわたって AI ジャッジが付けた評価の平均で、評価基準に照らして重み付けされています。
Your Score（%） — 自分が thumbs-up を付けた応答の割合です。レビューを始めるまでは空欄です。

Run をレビューする

任意の Run を開くと、メッセージごとの内訳が表示されます。

列	内容
`#`	データセット内のメッセージの順番。
Message	シミュレーションされたユーザーメッセージ。
AI Response	エージェントが返した応答。
AI Score	この特定の応答に対するジャッジの 1〜5 のスコア。
Justification	ジャッジがなぜそのスコアを付けたかを示す 1 行の説明（どの基準を満たした／満たさなかったかを引用します）。

各応答に自分で thumbs-up / thumbs-down を付けることもできます。これは Your Score に反映され、AI ジャッジと比較するための人による採点の基準値になります。

Run を比較する

すべての Run はデータセットの Runs タブに保存されます。プロンプトを変更したり、Knowledge Base を更新したり、新しい Action を追加したりした後に同じデータセットを再実行し、AI Score を時系列で比較しましょう。低下はリグレッション、上昇は改善です。

効果的なテストのコツ

簡単なメッセージと難しいメッセージを混ぜる。 半分はエージェントが確実に答えられると期待する「ハッピーパス」の質問に、もう半分は範囲外のトピック、曖昧な言い回し、敵対的なトーン、プロンプトインジェクションの試みなどのエッジケースに充てましょう。
実際のユーザーメッセージを含める。 From recent conversations から取り込み、自分の言い回しではなく、ユーザーが実際に自分のドメインで質問する言い回しをデータセットに反映させましょう。
評価基準は具体的でテスト可能なものにする。 “何かのやり方を尋ねられたらドキュメントへのリンクを含む” はテスト可能です。“フレンドリーに聞こえる” はテストできません。
意味のある変更のたびに実行する。 Main Prompt の編集、Knowledge Base の記事追加、新しい Action の接続は、いずれもリグレッションデータセットを再実行する良いきっかけです。
データセット自体も改善する。 Inbox で実際のユーザーメッセージに驚かされたら、それをデータセットにコピーして、今後の Run で同じケースを検出できるようにしましょう。

最終更新日: 2026/07/21

テスト

仕組み

データセットを作成する

データセットを実行する

Run をレビューする

Run を比較する

効果的なテストのコツ

Get started

Conversations

AI Agent

Channels

Get started

Configuration

Knowledge Base

Conversations