好码评分方法论 · Codex Score v1
我们怎么评一个 AI Agent?这里是完整答案。
好码评分(Codex Score)是好码未来对每个 AI Agent 的综合评分,满分 100 分,由四个维度加权计算:实用性(40%)、手艺(25%)、可靠性(20%)、性价比(15%)。本文完整公开评分规则、测试流程和评委标准。
为什么要有自己的评分?
AI 工具目录站的核心问题:它们大多不评分,只收录。Toolify 有 2.8 万个工具,TAAFT 有 4.1 万个——没有一个说"这个比那个差"。结果是,好工具淹没在垃圾里,用户需要自己试错。
好码评分的目标:让每一个数字背后有一个编辑在承担责任。不是算法排名,不是用户评分——是有署名的编辑,花了至少 4 个小时,用真实任务测出来的。
四个维度
实用性(Utility)· 权重 40%
它真的解决了问题吗?解决得有多好?
评估要素: - 在目标任务上的完成质量(我们会预设 3 个标准测试场景) - 输出结果是否可以直接使用,还是需要大量人工修改 - 功能覆盖是否到位,有没有关键能力缺失
评分锚点: - 90+:完成质量达到或超过有经验的人类专家 - 70-89:完成质量合格,需要少量修改 - 50-69:能用,但需要显著人工干预 - <50:完成质量不足,或经常失败
手艺(Craft)· 权重 25%
做这件事的方式,有没有品味?
评估要素: - UI/UX 的细节打磨程度 - 错误提示的质量(友好 vs 技术堆砌) - 边缘情况处理的优雅程度 - 文档和引导的完整性
评分锚点: - 90+:让你感到被尊重的产品体验,细节让你惊喜 - 70-89:体验流畅,偶有粗糙 - <50:有明显的产品设计欠缺
可靠性(Reliability)· 权重 20%
我能信任它明天还能工作吗?
评估要素: - 在 10 次相同输入下的输出一致性 - 服务可用性(上线期间的 503/超时频率) - 团队响应速度(Bug 修复、用户反馈处理) - 数据安全披露的透明度
性价比(Value)· 权重 15%
钱花得值吗?
评估要素: - 与同类产品的价格对比 - 免费层的真实可用性(不是噱头) - 付费后的实际增值幅度 - 计费方式的透明度
测试流程
1. 选题:编辑选择 3 个贴近真实用户场景的标准任务(每次评测前公开) 2. 盲测:不看产品官网文案,只看实际输出 3. 计时记录:完成每个任务的耗时、成功率、修改次数 4. 最短使用时长:4 小时(含熟悉期) 5. 结论署名:评测文章由具名编辑署名,附测试日期
不评测的内容
- 「潜力」或「未来规划」——我们只评现在
- 融资金额或团队背景——不影响用户体验
- 付费评测(我们确实接受赞助评测,但仍施加完整评分标准,且会注明)
版本说明
当前为 Codex Score v1(2026-05-28 发布)。随着 AI Agent 生态演进,评分维度和权重会定期审计调整。每次修订都会在此页面更新版本记录。