返回作品

产品 + 开发(自研 Agent 框架) · 开发中 · 核心链路已跑通

产品视频生成 Agent

输入一个产品概念,Agent 自动分析、规划脚本、生成片段、自动剪辑并自我复核 —— 快速产出一条可用的产品介绍视频,不必每次都依赖整个拍摄剪辑团队。

核心链路已跑通 · 迭代中 20+ 条 已产出的真实成片(最新 2026-05)
  • 自研 Agent 框架
  • AI 视频生成
  • ReAct + DAG
  • 前沿探索

核心:把”产品视频生产”自动化成一个 Agent。 输入一个产品概念,它自动分析产品、规划脚本、生成片段、自动剪辑并自我复核,产出一条可用的介绍视频 —— 核心链路已跑通,已出 20+ 条真实样片。

一、背景:为什么做

工作中我频繁接触各种产品 —— 出 demo、做新品尝试时,常要把它拍成一条产品介绍视频。但每次都走品牌部”拍摄 + 剪辑”协作,流程重、周期长,和”快速验证”的节奏严重不匹配。

更关键的是:和我同痛点的人很多 —— 做产品的团队、电商商家,东西做出来后都想快速、低成本地出一条产品介绍视频,用来展示、测市场或直接投放带货。

所以我做这个 Agent:让”做产品的人”能自助、快速地把一个产品(哪怕只是一个概念)变成一条可用的介绍视频。我自己就是它的第一个用户(dogfooding),每次迭代都有真实、零成本的反馈。

二、目标产物与用户

目标产物:15–30 秒、竖屏为主、4–6 个分镜的产品介绍 / 卖点演示短视频,带字幕、BGM、配音,并自动产出平台话术(钩子 / 卖点 / CTA),内置抖音 / TikTok / 小红书 / 视频号公式。

目标用户:① 创意 / 需求验证型团队(冷启动首选)—— 产品还没量产,先用视频测水温,替代几千到几万的打样 + 拍摄,天然需要”多变体对比”;② 电商 / 带货商家 —— 批量、稳定、可复制地出货。

一句话定位:卖的不只是”一条视频”,而是”让做产品的人快速拿到可用成片、加速产品验证与投放的决策”。

三、Agent 自动化了哪几步(核心)

完整链路,从一句话(或一张图)到成片:产品分析 → 脚本规划 → 分镜拆解 → 自我复核(评分→改写)→ 首尾帧出图 → 片段生成 → 配音 + 选 BGM → 自动剪辑合成 → 成片。

全自动:产品解析、写脚本、拆分镜 + 自评改写、首尾帧出图、片段生成、配音匹配 BGM、加字幕 / 转场 / 混音 / 拼接。人工只需:输入产品概念 / 参考图、选平台与时长、预算触顶时确认。

「Agent 化」的关键(和手动用工具做视频的本质区别):

① 自我复核与修订 —— 脚本、分镜生成后自动评分,低于阈值就带着具体问题自动重写,不是一次性产出。

② DAG 自动编排并行 —— 把”N 个分镜 ×(首帧 + 尾帧 + 视频 + 配音)“编译成依赖图,按拓扑分层并发执行,自动调度。

③ 失败自动修复重试 —— 出图 / 出视频节点失败,自动改 prompt(规避真人脸 / 水印 / 敏感内容)重试,并用 ffprobe 硬校验时长 / 大小,不合格判失败。

④ 预算护栏 + 状态机 —— 全程跑在 PLANNING → EXECUTING → DONE/FAILED 状态机上,实时累计成本,触顶暂停等用户确认,绝不”偷偷多花”。

核心理念:95% 是确定性工程代码,5% 才是 LLM 调用。 LLM 只做三件事 —— 理解意图、生成 prompt、质量评估;能用代码解决的绝不交给 LLM。

四、技术实现

自研轻量 Agent 框架(非 LangChain 等重型框架) —— 三层:顶层 ReAct 心智(理解、规划、自我反思)→ 中层 DAG 调度(并发执行出图 / 出视频 / 配音)→ 底层 Workflow(工具调用、API、ffmpeg)。配状态机 + 结构化事件总线,全过程可观测、可回放。

首尾帧模式是核心技术选择 —— 相比纯文生视频 / 纯图生视频,可控性高得多、分镜间产品一致性更好,非常契合产品介绍场景。

用途方案
脚本 / 分镜 / 质检Claude Opus(可切 OpenAI)
概念图 + 关键帧gpt-image-2
视频生成火山方舟 · 豆包 Seedance 2.0(首帧 + 尾帧 → 视频,720p)
配音 TTS豆包语音合成 2.0
画面质检 VLMgpt-4o
剪辑合成ffmpeg(转场 / 字幕 / BGM 混音)

已实现 Web 工作台:实时显示状态机状态、DAG 节点逐个变色、Thought/Action/Observation 日志流、累计成本 + 预算护栏弹窗、产物实时预览与下载。

五、进展与样片

  • 线性链路 + Agent 模式(状态机 + DAG + 流式 Web UI):已实现并跑通。
  • prompt 模板库(核心 IP):脚本 / 分镜 / 首尾帧 / 视频 四套提示词 + 四个平台公式已沉淀。
  • 真实样片:已产出 20+ 条真实成片,15–20 秒,最新到 2026-05。
  • 💰 实测成本:一条 15 秒真片约 ¥25
  • 三种输入形态均支持:产品图、纯文字概念、概念草图(纯文字时先自动生成产品概念图作视觉锚点)。

六、诚实边界与 Roadmap

完整愿景:自主分析产品 → 规划脚本 → 生成片段 → 自动剪辑 → 自我复核,达不到要求的重做,直至达标。

当前”自我复核”已做到两层、真实可用:① 文本层自评重写;② 生成失败自动修复重试 + 产物硬校验。

尚未实现、正在补齐的关键一环:对生成出来的成片画面本身做多模态视觉质检 —— 哪段画面不达标就重做哪段。这是”不达标不出片”闭环的最后一块。

其他规划中:批量变体生成(验证型客群核心交付物)、贵 API 调用前预检(预期省 30–50% 高成本调用)、资产复用库。

我刻意把”已实现”与”规划中”分清楚,不夸大进度 —— 这本身也是产品判断力。

七、访问入口

  • 真实样片 / Web 工作台演示:[待填充 — 放几条样片或一段录屏,这是最有说服力的 demo]