使用多轮次对话运行测试

通过对话评估，可以通过更长时间的交互来评估代理的整体行为。它反映了真实用户与代理的交互方式，其中每个响应都依赖于正在进行的对话中的以前的上下文。可以使用这些评估来确定代理是否可以维护上下文、要求澄清和完成多步骤任务。

还可以运行单个响应评估，当想要测试代理如何回答特定问题、它调用的功能以及它在其答案中使用的确切措辞时，这很适合。

评估使用 测试集。对话评估的测试集由最多 20 个 测试用例组成。当你运行代理评估时，你选择一个测试集，Copilot Studio 会对该测试集里的所有测试用例对你的代理进行测试。

可以在一个测试集中创建测试用例，可以通过使用电子表格导入它们，或者使用 AI 根据代理的设计和资源生成消息。然后你可以选择如何衡量代理在每个测试用例中的响应质量。

有关代理评估的工作原理，请参见《关于代理评估》。

如需了解如何编辑现有测试集，请参见 “更改测试集细节”。

重要

在 Copilot Studio 中，测试结果有效期为 89 天。为了更长时间地保存测试结果，请将结果导出为CSV文件。

创建对话测试集

选择 “新建评估”，然后选择“ 对话”。
可以使用以下任一方法创建多轮测试用例：
- 快速对话集：根据代理的描述、指令和功能自动生成 10 个简短对话。
- 完整对话集：使用代理的知识或定义的主题生成对话。在此选项中，可以选择创建短对话或长时间对话。
- 使用测试聊天：将最新的测试聊天转换为测试用例。

注释

对话测试集最多支持 20 个测试用例。每个测试用例最多支持 12 条总消息，即 6 对问题和答案。

更改或添加要使用的测试方法。对于对话测试集，可以添加 “常规质量”、“ 关键字匹配”、“ 功能匹配 ”或 “分类” 自定义测试方法。

添加一种新方法：
1. 选择 添加测试方法。
2. 选择所有你想测试的方法，然后选择确定。你可以添加多种方法。
3. 对于某些方法，先设置一个通过分数，然后选择确定。及格分数决定了何种得分结果视为通过或失败。
4. 有些方法需要为每个测试用例添加预期响应或关键词。更多信息请参见选择评估方法。
选择一个现有的测试方法进行编辑或删除。

测试方法	措施	测试集类型	计分	配置
整体质量	根据特定属性评估测试用例响应的质量	单个响应或对话	评分满分为100%。	没有
比较含义	测试用例答案的意义与预期答案的匹配程度	单个响应	评分满分为100%。	合格分数，预期答案
能力使用	测试用例是否使用了所有预期的资源或者仅使用了一些预期的资源	单个响应	通过/不通过	预期能力
关键词匹配	测试用例是否使用了全部或任何预期的关键词或短语	单个响应或对话	通过/不通过	预期关键词或短语
文本相似性	测试用例答案文本与预期答案的匹配程度	单个响应	评分满分为100%。	合格分数，预期答案
完全匹配	测试用例的答案是否完全符合预期答案	单个响应	通过/不通过	预期答案

编辑测试用例的细节。除 常规质量之外的所有测试方法都需要预期的响应或关键字。有关编辑测试用例的详细信息，请参阅 “修改测试集”。
选择 用户配置文件，然后选择或添加你想用于此测试集的账户，或者继续进行不认证。评估在测试中使用该账户连接知识来源和工具。有关添加和管理用户配置文件的信息，请参见 “管理用户配置文件和连接”。

注释

自动化测试使用所选测试账户的认证。如果你的代理拥有需要特定认证的知识来源或关系，请选择合适的账户进行测试。

此页面是否有帮助？