Article

项目研究:jianying-editor-skill

项目研究:jianying-editor-skill

蓝色像素虾用 JSON 数据流自动生成视频时间轴
图 1:这篇文章的核心是让 Agent 绕过 UI,直接用草稿数据控制视频时间轴。

> GitHub: https://github.com/luoluoluo22/jianying-editor-skill > ⭐ 2.2k | 🍴 333 | 📅 最新 v1.5(2026-04-19)| 📜 MIT

一句话定性

给 AI Agent 用的剪映"自动化剪辑师"——你跟 AI 说"帮我把 D 盘素材剪成 Vlog,配 BGM 加字幕",AI 就能像真人剪辑师一样,把视频拼到时间轴、配音、生成字幕、加特效、甚至最后帮你点"导出"。

本质是用 Python 把剪映的草稿 JSON 文件(draft_info.json)当操作接口,再叠一层 Agent 能听懂的"自然语言 → 剪辑操作"翻译层。

类比:剪映是个功能齐全但要手动点 100 次的专业厨房,这个 skill 就是给厨房装了个语音机器人厨师——你喊"做个蛋炒饭",它自己开火、打蛋、翻锅、出盘。

它怎么转(运转链路)

自然语言指令经过 skill rules 和 Python 工具写入剪映草稿 JSON
图 2:运转链路不是点按钮,而是把指令翻译成可写入时间轴的数据。

触发层

  • 用户在 AI IDE/Agent 里(Antigravity / Trae / Claude Code / Cursor)输入自然语言指令
  • Agent 读 SKILL.md → 路由到对应 rules/*.md(11 个规则文件)
  • 调用 scripts/ 下的 Python 工具执行

核心层

  • JyProject(核心类)
  • 初始化草稿工程(支持 overwrite=True 触发 Auto-healing)
  • add_narrated_subtitles(一键:文案→TTS→字幕对齐)
  • add_media_safe(防路径穿越的素材导入)
  • add_text_simple(含动画的文字层)
  • keyframes / vfx / effects(关键帧+特效)
  • 录屏引擎(tools/recording/recorder.py
  • 录屏 → 分析鼠标点击位置 → 自动插入关键帧
  • 鼠标移动时画面像云台一样平滑跟随
  • Web-to-Video(Playwright + Chromium)
  • 渲染 HTML/JS/Canvas/GLSL 动效
  • window.animationFinished 信号
  • 录屏成 mp4 导入剪映主轨道
  • 配音管线
  • 剪映原生音色(云端,需联网)
  • 微软 edge_tts(离线)
  • add_narrated_subtitles 自动对齐到时间轴

输出层

  • 一份剪映工程(v5.9+ draft_info.json + media)
  • 自动导出 MP4(仅 v5.9 及以下,模拟鼠标键盘)
  • 可选 SRT 字幕文件(jy_wrapper.py export-srt

卡点层(新手必踩的坑)

  • 版本绑定:剪映 6.0+ 弹窗太多,自动化脚本直接崩——必须锁 v5.9
  • 平台绑定:自动导出仅 Windows,macOS 只支持"草稿生成",导出得手点
  • 国际版不支持:CapCut 国外版的 JSON 结构不一样
  • 模拟鼠标键盘 = 脆弱契约:剪映 UI 一变就要重写

三段位升级路线

段位 关键动作 卡点
入门 Windows + 剪映 5.9 → pip install -r requirements.txt + playwright install chromium → 在 IDE 里 git clone.claude/skills/jianying-editor/ → 跟 AI 说"随便剪一个视频看看效果" 九成人卡在装错路径——SKILL.md 里写了 5 种 IDE 的安装位置,挑一个别混
进阶 sync_jy_assets.py + build_cloud_music_library.py 把剪映里你收藏过的素材索引到本地;用 add_narrated_subtitles 走"文案→配音→字幕"一条龙;用 apply-zoom 给老录屏加智能缩放 卡在"AI 找不到我想要的音乐"——先跑一次 sync_jy_assets 把云端库挖到本地,AI 才能用 ID 调用
高手 把业务剪辑脚本放在项目根目录(不要混进 skill 内部目录),用 JyProject(name, overwrite=True) 触发 Auto-healing;用 clone + 模板替换做批量化客户视频 高手和普通人的差距在"把 skill 当工具库"还是"把 skill 当自己的剪辑师"——前者天天 git pull 升级,后者把业务代码混进 skill 直接卡死升级

场景迁移

1. 任何"桌面 GUI 软件 + 草稿文件"的自动化

剪映的解法揭示了通用模式——找软件背后的纯数据文件(草稿/工程/项目),用代码直接读写,绕开 UI 自动化。可平移到:

  • Final Cut Pro(.fcpxml
  • DaVinci Resolve(.drp 工程)
  • Adobe Premiere(.prproj XML)
  • 任何"导出工程文件"的专业软件

注意变量:JSON 不是唯一格式(Premiere 是二进制),要找到"软件允许导入的中间格式"才能用同款思路。

2. 任何"自然语言 → 重复性设计任务"的 AI Skill

模板克隆(clone --template "酒店模板" --name "客户A_副本")+ 批量物料替换 = "AI 流水线工人"通用范式。可平移到:

  • PPT/Keynote 模板批量化
  • 海报模板批量化
  • 合同模板批量化

注意变量:克隆前必须把"原模板保护好",overwrite=True 默认行为是覆盖——任何用模板的项目都要先复制再操作。

部署的取舍

剪映自动化依赖 Windows 工作机、版本锁和脆弱的导出自动化
图 3:部署价值很明确,但边界也硬:Windows、版本锁、云端音色和脆弱导出。

好处

  • 录屏+智能变焦是真杀手锏——做技术教程视频质量能直接拉高一个档次
  • 影视解说自动化(movie_commentary_builder.py)——60 秒拆解视频一键出片
  • Web-to-Video 把任何前端动效变成剪映素材——做片头/特效不用再求设计师
  • Auto-healing 工程修复——草稿损坏了能自救

注意事项

  • 不能装在 Linux 容器上——剪映是 Windows 桌面应用,没 GUI。只能在 Windows 工作机部署
  • 如果要远程调度,得先有一台 Windows 机开着剪映,通过 SSH/RDP 控制
  • 强锁剪映 v5.9-——剪映 6.0+ 用户要降级才能用自动导出
  • 配音走剪映云端音色会发请求到字节服务器——注意素材版权和隐私

风险

  • 2.2k stars 但只有 1 个 contributor——bus factor 风险高,作者哪天不维护就死
  • 用模拟鼠标键盘做自动导出 = 脆弱契约——剪映改 UI、弹个更新提示,导出就直接失败
  • 5 个 open issues 数量偏少,说明用的人少、测得也不多
  • MIT 协议商用 OK,但云端音色商用要查字节的授权

灵魂

这个项目的灵魂是"绕过 UI 直达数据"——剪映是给"人点"的,这个 skill 找到了"剪映的真相藏在 JSON 里"这条路。Agent 不需要学会点 100 个按钮,只需要学会写一份对的 JSON。这是 AI 时代所有桌面软件自动化的标准答案


附记:和我之前研究过的 chengfeng-videocut-skills 方向类似,但这个是 AI Agent Skill 形态,更工程化(11 个 rules + 7+ examples)。和 OfficeCLI 的"L1/L2/L3 架构"是同一种思路:把"工具能力"和"用户场景"分层。如果要做技术教程视频想做自动化,这是目前中文圈最成熟的方案。