随着AI代理在业务流程中扮演关键角色,可靠且可重复的测试需求变得至关重要。 智能体评估功能可让您生成测试,以模拟智能体的实际应用场景。 这些测试能够比逐个案例的手动测试更快速、更广泛地涵盖问题和对话。 然后,可以根据代理可以访问的信息 来衡量 代理交互答案的准确性、相关性和质量。 通过使用 测试集的结果,你可以优化智能代理的行为,并验证其符合业务和质量要求。
为什么要使用自动化测试?
代理评估提供自动化的结构化测试。 它有助于及早发现问题,降低错误答案的风险,并在代理不断发展过程中保持质量。 这一流程为代理检测带来了自动化且可重复的质量保证。 它确保代理满足企业的准确性和可靠性标准,并让其执行方式具有透明度。 它与使用测试聊天进行测试相比,具有不同的优势。
可以通过 Copilot Studio 界面、Power Platform REST API 或在工具、流或 Power Automate 中添加操作来运行评估并查看结果。
代理评估衡量的是正确性和性能,而非人工智能伦理或安全问题。 代理人可能通过所有评估测试,但仍会给出不恰当的回答。 客户仍应使用负责任的 AI 评审和内容安全筛选器;评估不会替换这些评审和筛选器。
政府社区云的局限性
政府社区云(GCC)环境中的代理评估存在以下局限性:
代理评估的工作原理
Copilot Studio对每个代理评估使用 测试用例。 测试用例是一个模拟用户如何与代理交互的单个交互。 交互可以是单个问题或整个对话。
测试案例也可以包含你 期望 经纪人回答的答案。 例如:
问题是:你们的工作时间是怎样的?
预期的回应是:我们从周一到周五,营业时间为上午9点至下午5点。
通过使用代理评估,你可以 生成、 导入或 手动编写 一组测试用例。 这组测试用例称为 测试集。 测试集可以让你:
同时运行多个涵盖广泛功能的测试用例,而不是每次只向你的代理询问一个问题。
用一个易于理解的综合评分分析你的代理表现,同时聚焦于单个测试用例。
用同一套测试集测试代理的变更,这样你就有一个客观的标准来衡量和比较性能的变化。
快速创建新测试集或修改现有测试集以应对代理能力或需求的变化。
每个测试集都可以同时使用多种测试方法来评估你的代理。
您还可以选择一个用户配置文件作为模拟用户。 代理可能被配置为以不同方式响应不同用户,或以不同方式允许访问资源。
选择测试集并运行代理评估时,Copilot Studio在测试用例中发送问题、记录代理的响应、将这些响应与预期的响应或质量标准进行比较,并向每个测试用例分配分数。 你还可以查看每个测试案例的详细信息、文字记录和活动地图,以及你的代理用了哪些资源来创建响应。
创建全面的评估策略
在运行评估之前,请定义代理的成功情况,并确定哪些方案对业务成果最为重要。 明确的策略可帮助你选择正确的测试方法、确定高影响测试用例的优先级,以及使用正确的上下文解释结果。
使用 架构代理解决方案:评估框架 将业务目标映射到可衡量的评估维度和评分方法。
使用 设计和操作代理评估 来构建支持持续质量改进的可重复评估过程。
将评估集成到自动化流中
代理评估支持自动化,因此制造商无需手动干预即可运行评估。 通过使用 REST API 或 Power Platform 连接器,可以编程方式触发评估运行,并将测试集成到自动化工作流(例如持续集成和持续部署(CI/CD)管道中。 使用此方法,可以在引入更改时大规模运行测试集并验证代理行为,而无需在Copilot Studio中手动执行。
聊天测试与代理评估
每种测试方法都能为您提供对经纪人品质和行为的不同洞察:
测试聊天:
一次接收并回复一个问题。 重复做同样的测试很难。
允许你测试包含多条消息的完整会话。
通过聊天界面,你可以作为用户与你的客服人员互动。
代理人评估:
可以使用测试集一次性创建和运行多个测试用例。 可以通过使用相同的测试集进行测试来重复测试。
可以测试每个测试用例一个问题和一个响应,也可以测试每个测试用例一个对话。 但是,与使用测试聊天相比,您对对话的控制程度较低。
选择不同的用户配置文件来模拟不同的用户,而无需亲自完成互动。
测试经纪人时,应同时使用测试聊天和客服评估,以全面了解你的经纪人情况。