项目研究:chengfeng-videocut-skills

> 一个把「口播视频剪辑」做成 Claude Code Skills 的 Agent,2.2k stars,Apache 2.0。
「这是什么」一句话定性
一个把"口播视频剪辑"做成一组 Claude Code Skills 的 Agent——核心思路不是"让 AI 自动剪辑",而是把剪辑的中间判断做成人能审核的页面,人只需要看页面、提修改、点确认。
仓库位置
| 项目 | 信息 |
|---|---|
| 仓库 | github.com/Agentchengfeng/chengfeng-videocut-skills |
| 作者 | chengfeng(AI产品自由) |
| 热度 | ⭐ 2.2k / 🍴 311 / 🐛 19 issues |
| 协议 | Apache 2.0 + NOTICE.md(要求保留来源) |
| 安装命令 | npx chengfeng-videocut-skills install |
「它怎么转」逻辑全景图

├─ 触发层
│ ├─ 你有原始口播录屏 → 用「剪口播」做粗剪和字幕校对
│ ├─ 你有剪后视频 + 字幕 + 素材 → 用「口播成片」做分镜/预览/成片
│ ├─ 你用完觉得哪里不对 → 用「自进化」把反馈沉淀成规则
│ └─ 你第一次装 → 用「安装」准备环境
│
├─ 核心层(链路,4 步工作流)
│ 1. 剪口播
│ ├─ 火山引擎 ASR 转写 + 识别口误/重复/静音
│ ├─ 生成「审核页」让用户点击确认
│ ├─ 基于剪后视频重新转写 + AI 校对字幕
│ └─ 输出:剪后视频 + 字幕 + 审核页
│
│ 2. 口播成片
│ ├─ 按字幕拆「分镜」→ 判断每段画面来源
│ ├─ 先生成「分镜页面」让用户审核(不要直接导出!)
│ ├─ 用户确认 → 生成「时间线预览」
│ ├─ 用户再次确认 → 合成 1080x1440 竖屏 MP4
│ └─ 输出:分镜页、预览页、最终竖屏 MP4
│
│ 3. 自进化
│ └─ 把用户偏好沉淀回规则文件,Skill 越用越贴合
│
│ 4. 安装
│ ├─ npm 包只是安装器,源码在 GitHub
│ ├─ 默认安装到 ~/.claude/skills/ 和 ~/.codex/skills/
│ └─ 每次安装都从 GitHub 拉取最新
│
└─ 卡点层(新手最容易翻车的地方)
├─ 跳过"分镜页审核"直接要成片 —— Skill 强制要求先生成页面,是因为 AI 拍脑袋的分镜 80% 都不对
├─ 没装火山引擎 ASR Key —— 没 Key 连粗剪都跑不起来
├─ 期望"AI 一键生成大片" —— 它明确说不是通用剪辑软件,只对口播这一类
└─ 二次发布不保留来源 —— 作者被换名二次发布伤过,Apache 2.0 + NOTICE.md 是标配要求
「怎么升级」三段位路线图
├─ 入门段(能用)
│ └─ 跑通 4 步:装 skill → 录一段口播 → 走「剪口播」 → 走「口播成片」 → 出竖屏
│ - 关键习惯:别跳过任何一个人工审核页(分镜页、时间线预览页)
│
├─ 进阶段(用好)
│ └─ 把「自进化」用起来:
│ - 把你的偏好(节奏、占比、风格)存到规则文件
│ - 30 天后这个 Skill 就成了"你的口播剪辑师"而不是"通用口播剪辑师"
│
└─ 高手段(用活)
└─ 自己改 SKILL.md / 模板 HTML / 脚本,把工作流适配你的内容类型
- 高级玩家和别人最大的差距:他们把 Skill 当"半成品"而不是"成品"
「能用在哪」场景迁移

├─ 场景 1:任何"AI 生成 → 人类审核 → 导出"的多步骤工作流
│ ├─ 不只是视频,可以是:PPT 生成、图片生成、文案排版、海报设计、报表生成
│ └─ 模板:AI 生一稿 → 人审/标注/改 → AI 重新读改后内容 → 导出
│
├─ 场景 2:Claude Code / Codex Skills 的"垂直包"模式
│ ├─ 不做大而全的工具,做"一类特定内容"的端到端流程
│ └─ 三个 Skill 分工:环境/制作/自进化——这是 Skill 设计的成熟模板
│
└─ 部署建议(如果用这个 skill)
├─ 好处:中文口播视频从"录完 4 小时剪辑"变成"录完 30 分钟审核"
├─ 必要配置:Node.js 18+、FFmpeg、火山引擎 ASR Key
├─ 风险:火山引擎 ASR 按调用量收费;长尾场景分镜会崩
└─ 不适用:访谈对谈、综艺剪辑、专业调色、需要音乐卡点的情绪剪辑
一句话灵魂
"把 AI 的判断从黑盒变成可读的页面,让人能改、能驳、能确认。"——这是 Skill 形态工具最好的设计哲学,比"全自动"靠谱得多。
技术栈
- 运行环境:Node.js 18+(安装器)、FFmpeg(音视频处理)
- 语音识别:火山引擎 ASR API
- 审核页模板:HTML(分镜审核页、时间线预览页)
- 安装分发:npm 安装器 + GitHub 源码
三个核心 Skill
| Skill | 作用 |
|---|---|
剪口播/ |
粗剪 + 字幕校对 |
口播成片/ |
分镜 + 预览 + 竖屏导出 |
自进化/ |
把用户偏好沉淀回规则 |
本系列持续更新各类开源项目的解构研究,欢迎关注。