通过


使用多轮次对话运行测试

通过对话评估,可以通过更长时间的交互来评估代理的整体行为。 它反映了真实用户与代理的交互方式,其中每个响应都依赖于正在进行的对话中的以前的上下文。 可以使用这些评估来确定代理是否可以维护上下文、要求澄清和完成多步骤任务。

还可以运行 单个响应评估,当想要测试代理如何回答特定问题、它调用的功能以及它在其答案中使用的确切措辞时,这很适合。

评估使用 测试集。 对话评估的测试集由最多 20 个 测试用例组成。 当你运行代理评估时,你选择一个测试集,Copilot Studio 会对该测试集里的所有测试用例对你的代理进行测试。

可以在一个测试集中创建测试用例,可以通过使用电子表格导入它们,或者使用 AI 根据代理的设计和资源生成消息。 然后你可以选择如何衡量代理在每个测试用例中的响应质量。

有关代理评估的工作原理,请参见 《关于代理评估》。

如需了解如何编辑现有测试集,请参见 “更改测试集细节”。

重要

在 Copilot Studio 中,测试结果有效期为 89 天。 为了更长时间地保存测试结果,请将结果导出为CSV文件。

创建对话测试集

  1. 访问你经纪人的 评估 页面。

截图展示了在因屏幕尺寸压缩导致标签页选择受限时,如何选择评估标签页。

  1. 选择 “新建评估”,然后选择“ 对话”。

    显示为创建测试集选择的对话选项的屏幕截图。

  2. 可以使用以下任一方法创建多轮测试用例:

    • 快速对话集:根据代理的描述、指令和功能自动生成 10 个简短对话。

    • 完整对话集:使用代理的知识或定义的主题生成对话。 在此选项中,可以选择创建短对话或长时间对话。

    • 使用测试聊天:将最新的测试聊天转换为测试用例。

注释

对话测试集最多支持 20 个测试用例。 每个测试用例最多支持 12 条总消息,即 6 对问题和答案。

  1. “名称”下,键入测试集的名称。

  2. 更改或添加要使用的 测试方法 。 对于对话测试集,可以添加 “常规质量”、“ 关键字匹配”、“ 功能匹配 ”或 “分类” 自定义测试方法。

    • 添加一种新方法:
      1. 选择 添加测试方法
      2. 选择所有你想测试的方法,然后选择 确定。 你可以添加多种方法。
      3. 对于某些方法,先设置一个通过分数,然后选择 确定。 及格分数决定了何种得分结果视为通过或失败。
      4. 有些方法需要为每个测试用例添加预期响应或关键词。 更多信息请参见 选择评估方法
    • 选择一个现有的测试方法进行 编辑或删除
    测试方法 措施 测试集类型 计分 配置
    整体质量 根据特定属性评估测试用例响应的质量 单个响应或对话 评分满分为100%。 没有
    比较含义 测试用例答案的意义与预期答案的匹配程度 单个响应 评分满分为100%。 合格分数,预期答案
    能力使用 测试用例是否使用了所有预期的资源或者仅使用了一些预期的资源 单个响应 通过/不通过 预期能力
    关键词匹配 测试用例是否使用了全部或任何预期的关键词或短语 单个响应或对话 通过/不通过 预期关键词或短语
    文本相似性 测试用例答案文本与预期答案的匹配程度 单个响应 评分满分为100%。 合格分数,预期答案
    完全匹配 测试用例的答案是否完全符合预期答案 单个响应 通过/不通过 预期答案
  3. 编辑测试用例的细节。 除 常规质量之外的所有测试方法都需要预期的响应或关键字。 有关编辑测试用例的详细信息,请参阅 “修改测试集”。

  4. 选择 用户配置文件,然后选择或添加你想用于此测试集的账户,或者继续进行不认证。 评估在测试中使用该账户连接知识来源和工具。 有关添加和管理用户配置文件的信息,请参见 “管理用户配置文件和连接”。

注释

自动化测试使用所选测试账户的认证。 如果你的代理拥有需要特定认证的知识来源或关系,请选择合适的账户进行测试。

  1. 编辑或创建更多测试用例。 在 测试集中编辑测试用例中了解详细信息。

  2. 选择 “保存 ”以更新测试集而不运行测试用例;选择 “评估 ”以立即运行测试集。