AI Agent 系统设计

第二部分

系统架构

概览

7 个专业化 agent，通过路由层连接。每个 agent 具有：

明确的触发条件（何时激活）
特定的输入/输出契约（接收什么，产出什么）
诊断逻辑（如何评估质量）
交接规则（何时传递给下一个 agent，或退回）

流水线

记录→ 过滤→ 脚本→ 开头→ 标题→ 发布→ 复盘↺ 过滤

并行：质量检查（22 种AI 痕迹，可从任何阶段调用）

Agent 1

路由器

▼

纯调度。识别用户意图，一句话分发到对应的 agent。

设计决策：路由层确保系统一次只处理一个任务。多个需求并存时，强制排列优先级逐一解决——与产品团队的需求分诊逻辑一致。

Agent 2 — 门控

选题过滤

▼

对选题做通过或淘汰的判断。核心逻辑：80% 的低质量内容问题出在选题，而不是执行。

为什么重要：产品开发中最大的浪费是做了不该做的东西。这个 agent 的作用就是在投入精力之前把不值得做的选题挡掉。

筛子	检查什么	通过	淘汰
1. 认知落差	这个版本有存在的理由吗？	首发、更清晰的框架、或第一手经验	和现有内容一样
2. 素材检查	有什么原始素材？（数据、故事、金句、失败经历）	2+ 种素材	0 素材 = 不通过
3. 三层测试	信息层 → 框架替换层 → 身份层	三层都回答了	纯信息无框架
4. 方法论验证	匹配已验证公式？命中禁区？	匹配有历史数据的公式	命中禁区 = 附数据说明淘汰

关键设计决策：四层筛选按顺序执行，每一层通过后需要用户确认才进入下一层，而非一次性批量判断。这个 agent 的定位是筛选器，不是辩护者——它不会帮用户合理化一个不够好的选题。

关键依赖：第 4 层筛子读取当前方法论文件，而这个文件会被数据复盘 agent 不断更新。这就是反馈循环——筛选标准会越来越准。

Agent 3

脚本生成

▼

选题通过后，生成一份完整的 2.5 分钟左右的短视频脚本。

5 个阶段

再次确认门控——再次确认认知落差、素材数量和框架层级，未通过则中止。
内容库检索——优先检索概念库、金句库和已验证的高表现脚本，可复用的素材优先调用。
脚本生成——根据内容类型匹配对应模板：
- 模板 A（信息差 → 框架替换 → 身份收尾）：优化触达量
- 模板 B（问题 → AI 工作流 → 可见结果）：优化收藏率
保存到流水线——将脚本结构化归档，记录内容类型、认知落差和使用的素材。
风格学习——从四个维度分析用户的修改——开头风格、语感、结构偏好、结尾引导——并持续更新风格档案。每一次修改都是系统的学习素材。

大部分 AI 写作工具生成后就结束了。而这个 agent 将每次用户修改视为学习信号，经过十余次迭代后，输出风格会逐渐趋近用户本人的表达习惯。这是单次工具和持续进化的产品之间的本质区别。

生成后审核（7 项检查）

开头三因子强度（乘法——任何一个为零 = 重写）
AI 痕迹检测
表达效率
外行可读性
未解释的术语
段落间因果链
信息缺口（缺少前置知识）

Agent 4

开头优化

▼

先诊断内容本身的质量，再生成 10-15 个开头方案。核心判断：90% 的低效开头并非文案问题，而是内容本身缺乏足够的吸引力。

评分框架——3 因子，乘法

任何一个因子为零，开头就没有力量：

因子	衡量什么	举例
预测打断	开头有没有打破观众的预期？	开头几秒内观众无法预判接下来的内容走向
奖励或损失信号	观众能否在 5 秒内说出「看完能得到什么」或「划走会错过什么」？	「看完你能得到 X」/「划走你会错过 X」
命名	是否为观众长期存在但难以表达的感受提供了一个精准的命名？	将模糊的感受具象化为一个新概念——被精准命名的瞬间，信任随之建立

为什么是乘法不是加法：如果开头完全在预期之内（预测打断为零），再强的奖励信号也无法留住观众。三个因子必须同时不为零，这是一个刻意的设计约束。

生成流程

基于三因子框架审核现有开头
通过三种方法生成 10-15 个方案：从现有脚本提取素材、补充缺失的素材类型、将结论转化为悬念
每个方案标注它命中了哪些因子

Agent 5

标题生成

▼

基于 75 个经过验证的标题公式进行匹配。每个生成的标题都可追溯到具体公式编号和原始案例。

75 个公式，12 个分类

分类	机制
认知冲突（1-6）	打破现有认知
好奇心缺口（7-12）	信息不对称
恐惧 / 损失（13-20）	「不点 = 错过」
身份代入（21-25）	「这说的就是我」
数字锚定（26-32）	降低认知负荷
结果承诺（33-40）	具体结果 + 时间框架
+ 另外 6 个分类（争议、场景/条件、行动号召、权威、社会证明、互动）

就绪门控：检查脚本、开头方案、标题是否齐全。三项完备则进入拍摄队列，任一缺失则阻断并提示缺少项。

Agent 6

质量检查

▼

检测文案中的 AI 生成痕迹。覆盖 22 种特征模式，分为 3 个等级。设计目标不是「消除 AI 感」，而是「帮助用户建立自己的表达风格」。

检测：覆盖 22 种常见特征，包括穷举式反驳、过度对称的排比、零犹豫表达、翻译腔语法等。每种特征均标注了不同体裁下的误报阈值。

改写模式：不直接改写，而是针对每个特征提出一个引导性问题：「这几个排比句里，哪一句是你最想说的？」通过提问引导用户挖掘真实表达意图，避免用另一种模式化语言替代原有的 AI 痕迹。

Agent 7 — 学习引擎

数据复盘

▼

这是系统的学习环节。记录表现数据、执行元复盘、提取可验证的规则、并将结论写回方法论文件。

3 个必答元问题

认知落差判断对了吗？将实际表现数据与立项时的判断进行对比验证
内容类型选对了吗？例如，信息差类内容获得了异常高的收藏率，可能说明其本质更接近框架替换类内容
素材选择产生了预期的开头效果吗？

规则提取

仅对表现明显高于或低于均值的内容提取规则：现象 → 内容类型 → 假设原因 → 结论 → 下一步验证方向。不附带验证方向的规则不会被纳入方法论体系。

方法论写回

读取当前方法论文件
追加验证证据或反例
现有公式无法解释的结果 → 新建公式或标记为「待验证」
持续表现不佳的类型 → 评估是否加入禁区

这闭合了整个系统循环：方法论文件正是选题过滤环节读取的核心文件。每发布一条内容，系统对下一条内容的筛选标准就会更精确一分。

AI 产品技能	在系统中的体现
Agent 架构设计	7 个 agent，具备路由、交接规则和输入/输出契约
Prompt 工程	每个 agent 都有专门设计的 prompt 逻辑（评分公式、筛选器、模板）
评估框架设计	三因子乘法开头评分、4 层选题过滤、75 公式标题匹配
A/B 测试与实验	对内容结构进行 A/B 测试，控制变量，基于指标得出结论
反馈循环 / 迭代	数据复盘 → 方法论写回 → 过滤器读取更新后的文件
数据驱动决策	3 种内容类型基于数据表现被系统淘汰，非主观判断
用户研究思维	三层内容价值测试（信息传递 → 认知框架替换 → 身份认同触发）
风格学习 / 个性化	脚本 agent 持续分析用户修改，迭代更新个人风格档案

设计一个能从自身输出中学习的
多智能体 AI 系统

问题

系统架构

概览

流水线

5 个阶段

生成后审核（7 项检查）

评分框架——3 因子，乘法

生成流程

75 个公式，12 个分类

3 个必答元问题

规则提取

方法论写回

成果

这个系统展示了什么

设计一个能从自身输出中学习的多智能体 AI 系统

问题

系统架构

概览

流水线

5 个阶段

生成后审核（7 项检查）

评分框架——3 因子，乘法

生成流程

75 个公式，12 个分类

3 个必答元问题

规则提取

方法论写回

成果

这个系统展示了什么

设计一个能从自身输出中学习的
多智能体 AI 系统