Agent Engineering Playbook

先理解,再动手:Agent 工程化学习站

双路线设计:第一部分用真实场景建立概念,第二部分进入 RAG、Workflow、平台选型、Eval 与 LLMOps,最终能独立交付 Agent 项目。

Roadmap

双层学习路线(你确认的 V3)

学习层 目标 适合人群 产出
第一部分:概念认知 建立 AI 与 Agent 的正确心智模型 0 基础、业务同学、产品经理 能讲清楚“为什么用、何时用、怎么选”
第二部分:深入与实践 掌握工程化搭建、评估、上线方法 开发者、技术管理者、AI 项目负责人 可运行、可评测、可迭代的 Agent 系统

Part 1

第一部分:先有概念(通俗 + 场景)

每章包含:场景理解、核心概念、10-20 分钟小练习。

1. AI 发展史与关键转折

  • 规则系统 -> 机器学习 -> 深度学习 -> 生成式 AI -> Agent
  • 理解“为什么 2023 后企业开始规模化部署 AI”
  • 练习:用一页图画出 AI 技术演进树
阅读全文

2. 知名 AI 产品地图

  • 对话助手、代码助手、搜索问答、自动化平台的差异
  • 从用户视角看“提效”与“替代”的边界
  • 练习:把你常用工具按聊天/检索/执行分类
阅读全文

3. 本地模型、大模型、GPU 入门

  • 本地模型 vs 云端大模型:隐私、成本、效果、部署难度
  • GPU 为什么影响训练与推理速度
  • 练习:给你的业务选“本地优先”还是“云端优先”
阅读全文

4. Agent 到底是什么

  • Agent 与普通聊天机器人的本质区别
  • “理解任务 -> 调工具 -> 反馈迭代”的工作闭环
  • 练习:拆解一个“查天气并给行程建议”的 Agent 流程
阅读全文

5. 场景案例课(业务同学也能懂)

  • 企业知识问答(RAG)
  • 客服工单分流(Workflow)
  • 研发提效(IDE Agent)
阅读全文

Part 2

第二部分:深入学习(工程 + 动手)

每章包含:核心原理、工程要点、可执行实践任务。

6. LLM 工程关键指标

  • Reasoning vs Throughput:大脑与反射神经
  • 上下文窗口、指令遵循、函数调用准确率
  • 实践:同任务对比不同模型的质量/成本/延迟
阅读全文

7. Skill / Function Calling / MCP

  • 从 Prompt 到结构化工具调用
  • Schema、重试、兜底、权限边界
  • 实践:实现 `get_weather` 工具与失败重试策略
阅读全文

8. RAG 全链路工程化

  • 清洗、分块、索引、检索、重排、引用
  • 混合检索、metadata filter、查询改写
  • 实践:做一个必须附来源片段的问答系统
阅读全文

9. Workflow 工程化(Dify / Coze 思路)

  • 状态机、条件分支、循环、人工兜底
  • Workflow 即 API:流程产品化
  • 实践:搭一个客服意图分流工作流并记录失败样本
阅读全文

10. 平台深度:OpenClaw / Dify / Cursor / Claude / Codex

  • 能力定位、适用任务、协作方式
  • 背后模型:平台层 vs 模型层,避免“工具=模型”的误解
  • 实践:同一任务分别用两类平台实现并对比
阅读全文

11. 把 AI 用好的通用技巧

  • 目标-约束-格式三段式提示
  • 先检索后结论、先草稿后审校、关键结论必须可追溯
  • 实践:把一个模糊需求改写成可执行任务单
阅读全文

12. 特定领域落地:标书客户 Skill 搭建

  • Skill 分层:基础规范、检索、生成、审校
  • 推荐流程:解析招标文件 -> 条款映射 -> 生成 -> 合规检查
  • 实践:搭建“中标/废标案例库 + RAG + 合规审校”闭环
阅读全文

13. Eval 与 LLMOps

  • 离线评测集、线上监控、回归机制
  • 成本治理(缓存/分层调用)与延迟优化(并行/流式/降级)
  • 实践:建立每周自动回归评测清单
阅读全文

Platform View

平台与背后模型(截至 2026-03-24)

平台 定位 背后模型情况 推荐场景
OpenClaw 自主 Agent/操作型框架 按部署可接入不同模型(本地或云端) 浏览器与系统操作自动化、协同探索
Dify Agent/Workflow 编排平台 支持多模型提供商,不绑定单一模型 企业流程化应用、RAG 与 API 封装
Cursor IDE 内 Agent 编程工具 支持多模型提供商切换 日常编码、重构、批量修复
Claude Anthropic 模型与应用生态 Claude 系列模型(如 Sonnet/Opus 代际) 长文本理解、代码与文档协作
Codex OpenAI 编程代理能力体系 基于 OpenAI 模型家族的代码能力 自动化改码、任务分解、开发流程协作

Tender Skill Playbook

标书场景 Skill 搭建建议

Skill A:术语与格式规范
统一招投标术语、章节结构、语气与格式,避免输出风格漂移。
Skill B:招标文件解析
抽取资格条款、评分项、硬性要求,形成结构化清单。
Skill C:方案生成
依据条款映射生成技术方案、实施计划与风险保障,并附证据来源。
Skill D:合规审校
检查漏项、冲突、措辞风险,高风险条款强制人工确认。
Skill E:复盘评估
沉淀中标/废标案例,形成 Eval 集合,持续优化命中率与合规率。

References

权威参考(优先官方与论文)

  1. OpenAI Function Calling 指南
  2. OpenAI Retrieval 指南
  3. OpenAI Evals 指南
  4. MCP 官方规范(2025-06-18)
  5. Dify Knowledge 文档
  6. Dify Workflow API
  7. Cursor 模型支持文档
  8. Anthropic Claude 模型总览
  9. RAG 论文(2020)
  10. Self-RAG 论文(2023)

注:模型和平台能力更新快,建议每月做一次版本校验。