← 返回主页
ENFR
AI Agent 系统设计

设计一个能从自身输出中学习的
多智能体 AI 系统

我设计并搭建了一个 7-agent 内容生产系统,包含路由逻辑、评分框架、反馈循环和数据驱动迭代。它每天在生产环境中运行,处理真实的内容决策。

第一部分

问题

用户:中国社交平台(抖音、小红书)上的短视频创作者。

痛点:内容创作涉及 6-8 个连续决策——选什么题、值不值得做、用什么结构、如何开头、怎么起标题、文案是否自然、以及如何从结果中迭代。每个环节都需要判断力,而大多数创作者依赖直觉——直觉既无法规模化,也无法系统性地提升。

核心产品问题:能否设计一个 AI agent 系统,让每个决策点都有明确的标准,agent 之间通过结构化数据交接,并且系统通过反馈循环不断提高自身的决策质量?


第二部分

系统架构

概览

7 个专业化 agent,通过路由层连接。每个 agent 具有:

流水线

记录 过滤 脚本 开头 标题 发布 复盘 过滤

并行:质量检查(22 种AI 痕迹,可从任何阶段调用)

Agent 1
路由器

纯调度。识别用户意图,一句话分发到对应的 agent。

设计决策:路由层确保系统一次只处理一个任务。多个需求并存时,强制排列优先级逐一解决——与产品团队的需求分诊逻辑一致。

Agent 2 — 门控
选题过滤

对选题做通过或淘汰的判断。核心逻辑:80% 的低质量内容问题出在选题,而不是执行。

为什么重要:产品开发中最大的浪费是做了不该做的东西。这个 agent 的作用就是在投入精力之前把不值得做的选题挡掉。

筛子检查什么通过淘汰
1. 认知落差这个版本有存在的理由吗?首发、更清晰的框架、或第一手经验和现有内容一样
2. 素材检查有什么原始素材?(数据、故事、金句、失败经历)2+ 种素材0 素材 = 不通过
3. 三层测试信息层 → 框架替换层 → 身份层三层都回答了纯信息无框架
4. 方法论验证匹配已验证公式?命中禁区?匹配有历史数据的公式命中禁区 = 附数据说明淘汰

关键设计决策:四层筛选按顺序执行,每一层通过后需要用户确认才进入下一层,而非一次性批量判断。这个 agent 的定位是筛选器,不是辩护者——它不会帮用户合理化一个不够好的选题。

关键依赖:第 4 层筛子读取当前方法论文件,而这个文件会被数据复盘 agent 不断更新。这就是反馈循环——筛选标准会越来越准。

Agent 3
脚本生成

选题通过后,生成一份完整的 2.5 分钟左右的短视频脚本。

5 个阶段

  1. 再次确认门控——再次确认认知落差、素材数量和框架层级,未通过则中止。
  2. 内容库检索——优先检索概念库、金句库和已验证的高表现脚本,可复用的素材优先调用。
  3. 脚本生成——根据内容类型匹配对应模板:
    • 模板 A(信息差 → 框架替换 → 身份收尾):优化触达量
    • 模板 B(问题 → AI 工作流 → 可见结果):优化收藏率
  4. 保存到流水线——将脚本结构化归档,记录内容类型、认知落差和使用的素材。
  5. 风格学习——从四个维度分析用户的修改——开头风格、语感、结构偏好、结尾引导——并持续更新风格档案。每一次修改都是系统的学习素材。

大部分 AI 写作工具生成后就结束了。而这个 agent 将每次用户修改视为学习信号,经过十余次迭代后,输出风格会逐渐趋近用户本人的表达习惯。这是单次工具和持续进化的产品之间的本质区别。

生成后审核(7 项检查)

  1. 开头三因子强度(乘法——任何一个为零 = 重写)
  2. AI 痕迹检测
  3. 表达效率
  4. 外行可读性
  5. 未解释的术语
  6. 段落间因果链
  7. 信息缺口(缺少前置知识)
Agent 4
开头优化

先诊断内容本身的质量,再生成 10-15 个开头方案。核心判断:90% 的低效开头并非文案问题,而是内容本身缺乏足够的吸引力。

评分框架——3 因子,乘法

任何一个因子为零,开头就没有力量:

因子衡量什么举例
预测打断开头有没有打破观众的预期?开头几秒内观众无法预判接下来的内容走向
奖励或损失信号观众能否在 5 秒内说出「看完能得到什么」或「划走会错过什么」?「看完你能得到 X」/「划走你会错过 X」
命名是否为观众长期存在但难以表达的感受提供了一个精准的命名?将模糊的感受具象化为一个新概念——被精准命名的瞬间,信任随之建立

为什么是乘法不是加法:如果开头完全在预期之内(预测打断为零),再强的奖励信号也无法留住观众。三个因子必须同时不为零,这是一个刻意的设计约束。

生成流程

  1. 基于三因子框架审核现有开头
  2. 通过三种方法生成 10-15 个方案:从现有脚本提取素材、补充缺失的素材类型、将结论转化为悬念
  3. 每个方案标注它命中了哪些因子
Agent 5
标题生成

基于 75 个经过验证的标题公式进行匹配。每个生成的标题都可追溯到具体公式编号和原始案例。

75 个公式,12 个分类

分类机制
认知冲突(1-6)打破现有认知
好奇心缺口(7-12)信息不对称
恐惧 / 损失(13-20)「不点 = 错过」
身份代入(21-25)「这说的就是我」
数字锚定(26-32)降低认知负荷
结果承诺(33-40)具体结果 + 时间框架
+ 另外 6 个分类(争议、场景/条件、行动号召、权威、社会证明、互动)

就绪门控:检查脚本、开头方案、标题是否齐全。三项完备则进入拍摄队列,任一缺失则阻断并提示缺少项。

Agent 6
质量检查

检测文案中的 AI 生成痕迹。覆盖 22 种特征模式,分为 3 个等级。设计目标不是「消除 AI 感」,而是「帮助用户建立自己的表达风格」。

检测:覆盖 22 种常见特征,包括穷举式反驳、过度对称的排比、零犹豫表达、翻译腔语法等。每种特征均标注了不同体裁下的误报阈值。

改写模式:不直接改写,而是针对每个特征提出一个引导性问题:「这几个排比句里,哪一句是你最想说的?」通过提问引导用户挖掘真实表达意图,避免用另一种模式化语言替代原有的 AI 痕迹。

Agent 7 — 学习引擎
数据复盘

这是系统的学习环节。记录表现数据、执行元复盘、提取可验证的规则、并将结论写回方法论文件。

3 个必答元问题

  1. 认知落差判断对了吗?将实际表现数据与立项时的判断进行对比验证
  2. 内容类型选对了吗?例如,信息差类内容获得了异常高的收藏率,可能说明其本质更接近框架替换类内容
  3. 素材选择产生了预期的开头效果吗?

规则提取

仅对表现明显高于或低于均值的内容提取规则:现象 → 内容类型 → 假设原因 → 结论 → 下一步验证方向。不附带验证方向的规则不会被纳入方法论体系。

方法论写回

  • 读取当前方法论文件
  • 追加验证证据或反例
  • 现有公式无法解释的结果 → 新建公式或标记为「待验证」
  • 持续表现不佳的类型 → 评估是否加入禁区

这闭合了整个系统循环:方法论文件正是选题过滤环节读取的核心文件。每发布一条内容,系统对下一条内容的筛选标准就会更精确一分。


第三部分

成果

这个系统每天在生产环境中运行。

110K+
抖音播放量
3,607
抖音点赞
7
测试过的内容类型
3
被系统淘汰的类型

方法论文件随每次发布同步更新。系统持续运行、持续迭代。


第四部分

这个系统展示了什么

AI 产品技能在系统中的体现
Agent 架构设计7 个 agent,具备路由、交接规则和输入/输出契约
Prompt 工程每个 agent 都有专门设计的 prompt 逻辑(评分公式、筛选器、模板)
评估框架设计三因子乘法开头评分、4 层选题过滤、75 公式标题匹配
A/B 测试与实验对内容结构进行 A/B 测试,控制变量,基于指标得出结论
反馈循环 / 迭代数据复盘 → 方法论写回 → 过滤器读取更新后的文件
数据驱动决策3 种内容类型基于数据表现被系统淘汰,非主观判断
用户研究思维三层内容价值测试(信息传递 → 认知框架替换 → 身份认同触发)
风格学习 / 个性化脚本 agent 持续分析用户修改,迭代更新个人风格档案