by Asmayaseen
代理系统缺乏可靠的质量测量方法。本技能提供结构化的评估框架,包括多维度评分标准、测试集设计和生产监控,以系统化地测量代理性能。
1. 打开 Claude 聊天界面
2. 点击下方 "📋 复制" 按钮
3. 粘贴到 Claude 聊天框中并发送
4. 输入 "使用 evaluation 技能" 开始使用
=== evaluation 技能 === 作者: Asmayaseen 描述: 代理系统缺乏可靠的质量测量方法。本技能提供结构化的评估框架,包括多维度评分标准、测试集设计和生产监控,以系统化地测量代理性能。 使用方法: 1. 调用技能: "使用 evaluation 技能" 2. 提供相关信息: 根据技能要求提供必要参数 3. 查看结果: 技能会返回处理结果 示例: "使用 evaluation 技能,帮我分析一下这段代码"
这种方法适用于所有 Claude 用户,不需要安装额外工具。
data
safe
View Count
0
Download Count
0
Favorite Count
0
Quality Score
76