项目研究:jianying-editor-skill

> GitHub: https://github.com/luoluoluo22/jianying-editor-skill > ⭐ 2.2k | 🍴 333 | 📅 最新 v1.5(2026-04-19)| 📜 MIT
一句话定性
给 AI Agent 用的剪映"自动化剪辑师"——你跟 AI 说"帮我把 D 盘素材剪成 Vlog,配 BGM 加字幕",AI 就能像真人剪辑师一样,把视频拼到时间轴、配音、生成字幕、加特效、甚至最后帮你点"导出"。
本质是用 Python 把剪映的草稿 JSON 文件(draft_info.json)当操作接口,再叠一层 Agent 能听懂的"自然语言 → 剪辑操作"翻译层。
类比:剪映是个功能齐全但要手动点 100 次的专业厨房,这个 skill 就是给厨房装了个语音机器人厨师——你喊"做个蛋炒饭",它自己开火、打蛋、翻锅、出盘。
它怎么转(运转链路)

触发层
- 用户在 AI IDE/Agent 里(Antigravity / Trae / Claude Code / Cursor)输入自然语言指令
- Agent 读 SKILL.md → 路由到对应 rules/*.md(11 个规则文件)
- 调用 scripts/ 下的 Python 工具执行
核心层
JyProject(核心类)- 初始化草稿工程(支持
overwrite=True触发 Auto-healing) add_narrated_subtitles(一键:文案→TTS→字幕对齐)add_media_safe(防路径穿越的素材导入)add_text_simple(含动画的文字层)- keyframes / vfx / effects(关键帧+特效)
- 录屏引擎(
tools/recording/recorder.py) - 录屏 → 分析鼠标点击位置 → 自动插入关键帧
- 鼠标移动时画面像云台一样平滑跟随
- Web-to-Video(Playwright + Chromium)
- 渲染 HTML/JS/Canvas/GLSL 动效
- 等
window.animationFinished信号 - 录屏成 mp4 导入剪映主轨道
- 配音管线
- 剪映原生音色(云端,需联网)
- 微软
edge_tts(离线) add_narrated_subtitles自动对齐到时间轴
输出层
- 一份剪映工程(v5.9+
draft_info.json+ media) - 自动导出 MP4(仅 v5.9 及以下,模拟鼠标键盘)
- 可选 SRT 字幕文件(
jy_wrapper.py export-srt)
卡点层(新手必踩的坑)
- 版本绑定:剪映 6.0+ 弹窗太多,自动化脚本直接崩——必须锁 v5.9
- 平台绑定:自动导出仅 Windows,macOS 只支持"草稿生成",导出得手点
- 国际版不支持:CapCut 国外版的 JSON 结构不一样
- 模拟鼠标键盘 = 脆弱契约:剪映 UI 一变就要重写
三段位升级路线
| 段位 | 关键动作 | 卡点 |
|---|---|---|
| 入门 | Windows + 剪映 5.9 → pip install -r requirements.txt + playwright install chromium → 在 IDE 里 git clone 到 .claude/skills/jianying-editor/ → 跟 AI 说"随便剪一个视频看看效果" |
九成人卡在装错路径——SKILL.md 里写了 5 种 IDE 的安装位置,挑一个别混 |
| 进阶 | 跑 sync_jy_assets.py + build_cloud_music_library.py 把剪映里你收藏过的素材索引到本地;用 add_narrated_subtitles 走"文案→配音→字幕"一条龙;用 apply-zoom 给老录屏加智能缩放 |
卡在"AI 找不到我想要的音乐"——先跑一次 sync_jy_assets 把云端库挖到本地,AI 才能用 ID 调用 |
| 高手 | 把业务剪辑脚本放在项目根目录(不要混进 skill 内部目录),用 JyProject(name, overwrite=True) 触发 Auto-healing;用 clone + 模板替换做批量化客户视频 |
高手和普通人的差距在"把 skill 当工具库"还是"把 skill 当自己的剪辑师"——前者天天 git pull 升级,后者把业务代码混进 skill 直接卡死升级 |
场景迁移
1. 任何"桌面 GUI 软件 + 草稿文件"的自动化
剪映的解法揭示了通用模式——找软件背后的纯数据文件(草稿/工程/项目),用代码直接读写,绕开 UI 自动化。可平移到:
- Final Cut Pro(
.fcpxml) - DaVinci Resolve(
.drp工程) - Adobe Premiere(
.prprojXML) - 任何"导出工程文件"的专业软件
注意变量:JSON 不是唯一格式(Premiere 是二进制),要找到"软件允许导入的中间格式"才能用同款思路。
2. 任何"自然语言 → 重复性设计任务"的 AI Skill
模板克隆(clone --template "酒店模板" --name "客户A_副本")+ 批量物料替换 = "AI 流水线工人"通用范式。可平移到:
- PPT/Keynote 模板批量化
- 海报模板批量化
- 合同模板批量化
注意变量:克隆前必须把"原模板保护好",overwrite=True 默认行为是覆盖——任何用模板的项目都要先复制再操作。
部署的取舍

好处
- 录屏+智能变焦是真杀手锏——做技术教程视频质量能直接拉高一个档次
- 影视解说自动化(
movie_commentary_builder.py)——60 秒拆解视频一键出片 - Web-to-Video 把任何前端动效变成剪映素材——做片头/特效不用再求设计师
- Auto-healing 工程修复——草稿损坏了能自救
注意事项
- 不能装在 Linux 容器上——剪映是 Windows 桌面应用,没 GUI。只能在 Windows 工作机部署
- 如果要远程调度,得先有一台 Windows 机开着剪映,通过 SSH/RDP 控制
- 强锁剪映 v5.9-——剪映 6.0+ 用户要降级才能用自动导出
- 配音走剪映云端音色会发请求到字节服务器——注意素材版权和隐私
风险
- 2.2k stars 但只有 1 个 contributor——bus factor 风险高,作者哪天不维护就死
- 用模拟鼠标键盘做自动导出 = 脆弱契约——剪映改 UI、弹个更新提示,导出就直接失败
- 5 个 open issues 数量偏少,说明用的人少、测得也不多
- MIT 协议商用 OK,但云端音色商用要查字节的授权
灵魂
这个项目的灵魂是"绕过 UI 直达数据"——剪映是给"人点"的,这个 skill 找到了"剪映的真相藏在 JSON 里"这条路。Agent 不需要学会点 100 个按钮,只需要学会写一份对的 JSON。这是 AI 时代所有桌面软件自动化的标准答案。
附记:和我之前研究过的 chengfeng-videocut-skills 方向类似,但这个是 AI Agent Skill 形态,更工程化(11 个 rules + 7+ examples)。和 OfficeCLI 的"L1/L2/L3 架构"是同一种思路:把"工具能力"和"用户场景"分层。如果要做技术教程视频想做自动化,这是目前中文圈最成熟的方案。