Article

项目研究:chengfeng-videocut-skills

项目研究:chengfeng-videocut-skills

蓝色像素虾在口播视频审核页和时间线前剪辑
图 1:它的价值不是一键成片,而是把 AI 判断变成可审核页面。

> 一个把「口播视频剪辑」做成 Claude Code Skills 的 Agent,2.2k stars,Apache 2.0。

「这是什么」一句话定性

一个把"口播视频剪辑"做成一组 Claude Code Skills 的 Agent——核心思路不是"让 AI 自动剪辑",而是把剪辑的中间判断做成人能审核的页面,人只需要看页面、提修改、点确认。

仓库位置

项目 信息
仓库 github.com/Agentchengfeng/chengfeng-videocut-skills
作者 chengfeng(AI产品自由)
热度 ⭐ 2.2k / 🍴 311 / 🐛 19 issues
协议 Apache 2.0 + NOTICE.md(要求保留来源)
安装命令 npx chengfeng-videocut-skills install

「它怎么转」逻辑全景图

口播剪辑 skill 从安装、粗剪、分镜审核到自进化的工作流
图 2:剪口播、口播成片、自进化和安装,组合成一条有人把关的生产线。
├─ 触发层
│  ├─ 你有原始口播录屏 → 用「剪口播」做粗剪和字幕校对
│  ├─ 你有剪后视频 + 字幕 + 素材 → 用「口播成片」做分镜/预览/成片
│  ├─ 你用完觉得哪里不对 → 用「自进化」把反馈沉淀成规则
│  └─ 你第一次装 → 用「安装」准备环境
│
├─ 核心层(链路,4 步工作流)
│  1. 剪口播
│     ├─ 火山引擎 ASR 转写 + 识别口误/重复/静音
│     ├─ 生成「审核页」让用户点击确认
│     ├─ 基于剪后视频重新转写 + AI 校对字幕
│     └─ 输出:剪后视频 + 字幕 + 审核页
│
│  2. 口播成片
│     ├─ 按字幕拆「分镜」→ 判断每段画面来源
│     ├─ 先生成「分镜页面」让用户审核(不要直接导出!)
│     ├─ 用户确认 → 生成「时间线预览」
│     ├─ 用户再次确认 → 合成 1080x1440 竖屏 MP4
│     └─ 输出:分镜页、预览页、最终竖屏 MP4
│
│  3. 自进化
│     └─ 把用户偏好沉淀回规则文件,Skill 越用越贴合
│
│  4. 安装
│     ├─ npm 包只是安装器,源码在 GitHub
│     ├─ 默认安装到 ~/.claude/skills/ 和 ~/.codex/skills/
│     └─ 每次安装都从 GitHub 拉取最新
│
└─ 卡点层(新手最容易翻车的地方)
   ├─ 跳过"分镜页审核"直接要成片 —— Skill 强制要求先生成页面,是因为 AI 拍脑袋的分镜 80% 都不对
   ├─ 没装火山引擎 ASR Key —— 没 Key 连粗剪都跑不起来
   ├─ 期望"AI 一键生成大片" —— 它明确说不是通用剪辑软件,只对口播这一类
   └─ 二次发布不保留来源 —— 作者被换名二次发布伤过,Apache 2.0 + NOTICE.md 是标配要求

「怎么升级」三段位路线图

├─ 入门段(能用)
│  └─ 跑通 4 步:装 skill → 录一段口播 → 走「剪口播」 → 走「口播成片」 → 出竖屏
│     - 关键习惯:别跳过任何一个人工审核页(分镜页、时间线预览页)
│
├─ 进阶段(用好)
│  └─ 把「自进化」用起来:
│     - 把你的偏好(节奏、占比、风格)存到规则文件
│     - 30 天后这个 Skill 就成了"你的口播剪辑师"而不是"通用口播剪辑师"
│
└─ 高手段(用活)
    └─ 自己改 SKILL.md / 模板 HTML / 脚本,把工作流适配你的内容类型
       - 高级玩家和别人最大的差距:他们把 Skill 当"半成品"而不是"成品"

「能用在哪」场景迁移

口播视频剪辑 skill 的环境、成本、版权和适用边界图
图 3:ASR、FFmpeg、授权和内容类型,决定了它能不能稳定落地。
├─ 场景 1:任何"AI 生成 → 人类审核 → 导出"的多步骤工作流
│  ├─ 不只是视频,可以是:PPT 生成、图片生成、文案排版、海报设计、报表生成
│  └─ 模板:AI 生一稿 → 人审/标注/改 → AI 重新读改后内容 → 导出
│
├─ 场景 2:Claude Code / Codex Skills 的"垂直包"模式
│  ├─ 不做大而全的工具,做"一类特定内容"的端到端流程
│  └─ 三个 Skill 分工:环境/制作/自进化——这是 Skill 设计的成熟模板
│
└─ 部署建议(如果用这个 skill)
   ├─ 好处:中文口播视频从"录完 4 小时剪辑"变成"录完 30 分钟审核"
   ├─ 必要配置:Node.js 18+、FFmpeg、火山引擎 ASR Key
   ├─ 风险:火山引擎 ASR 按调用量收费;长尾场景分镜会崩
   └─ 不适用:访谈对谈、综艺剪辑、专业调色、需要音乐卡点的情绪剪辑

一句话灵魂

"把 AI 的判断从黑盒变成可读的页面,让人能改、能驳、能确认。"——这是 Skill 形态工具最好的设计哲学,比"全自动"靠谱得多。

技术栈

  • 运行环境:Node.js 18+(安装器)、FFmpeg(音视频处理)
  • 语音识别:火山引擎 ASR API
  • 审核页模板:HTML(分镜审核页、时间线预览页)
  • 安装分发:npm 安装器 + GitHub 源码

三个核心 Skill

Skill 作用
剪口播/ 粗剪 + 字幕校对
口播成片/ 分镜 + 预览 + 竖屏导出
自进化/ 把用户偏好沉淀回规则

本系列持续更新各类开源项目的解构研究,欢迎关注。