好码简报 Vol.1 · 2026 年 5 月的 AI Agent 格局
中国 AI Agent 进入"真实部署元年",但谁在真正交付价值?
本期简报:DeepSeek-V3 的性价比优势开始被企业级用户大规模套利;Kimi K2 的 Agent 模式在法律场景意外走红;扣子平台的创作者生态初现飞轮……以及一个不那么乐观的发现:90% 的"AI Agent"其实只是带了个 API 的聊天框。
本期概要
三个信号,一个担忧。
信号 1:DeepSeek-V3 性价比套利正在发生
过去 30 天,我们在 V2EX、GitHub 和多个技术社群观察到一个模式:越来越多的开发者把原本调用 GPT-4o 的 API 替换成了 DeepSeek-V3。
原因很直接:同等中文任务质量下,DeepSeek-V3 的 API 成本约为 GPT-4o 的 1/8 到 1/12。对于高频调用场景(内容生成、摘要、分类),这个差距在规模下非常可观。
值得关注的是,这个替换不只发生在个人开发者身上——我们接触的几家中小企业已经完成了核心流程的模型迁移。
信号 2:Kimi K2 在法律和合规场景意外走红
Kimi 的 128K 上下文本是被设计给"阅读长文档"的,但我们发现它在法律行业找到了一个意外的高价值场景:合同审查和条款对比。
小红书上有一批律师和法务助理开始分享用 Kimi 处理合同的工作流,笔记数量在过去两周增长约 40%。核心诉求是:"把甲方和乙方版本的合同同时扔进去,让它找出差异和风险点"。
这是一个 GPT-4o(32K 上下文)做不到、而 Kimi(128K)可以做到的场景。
信号 3:扣子平台的创作者飞轮初现
字节跳动的扣子(Coze)平台在 5 月新增了一批"工具型 Agent"创作者——他们构建公众号选题助手、周报生成器、竞品追踪器,并发布在扣子商店。
有趣的是,部分 Agent 的收益已经覆盖了 API 成本,创作者开始把扣子当做副业来认真经营。字节 80% 的分成比例在行业里确实有竞争力。
担忧:90% 的"Agent"只是聊天框
我们在这一期评测了 23 个以"Agent"自我定位的产品。结论令人清醒:
其中约 20 个,实质上只是给 GPT/Claude API 套了个壳——没有多步规划、没有工具调用、没有状态保持。它们叫"Agent"只是因为这个词现在好融资。
真正具备 L3(多步规划)或以上能力的产品,在我们测试的样本里不超过 3 个。
这不是技术问题,是市场诚信问题。好码未来会在评分里区分这个差异——自主等级(L1-L5)字段是认真的,不是装饰。
本期推荐阅读
- MIT 2025 AI Agent Index(自主等级分类法来源)
- a16z「The Top 100 Gen AI Consumer Apps」(半年更新一次)
- Dify 团队博客:「我们如何在 18 个月内获得 10 万 GitHub Stars」
*好码简报每周三更新,约 1,500 字中文。如果你是在朋友处看到这篇文章,欢迎直接访问 okcodex.com 或加入内测候补获取每周推送。*