项目研究：jianying-editor-skill

蓝色像素虾用 JSON 数据流自动生成视频时间轴 — 图 1：这篇文章的核心是让 Agent 绕过 UI，直接用草稿数据控制视频时间轴。

> GitHub: https://github.com/luoluoluo22/jianying-editor-skill > ⭐ 2.2k | 🍴 333 | 📅 最新 v1.5（2026-04-19）| 📜 MIT

一句话定性

给 AI Agent 用的剪映"自动化剪辑师"——你跟 AI 说"帮我把 D 盘素材剪成 Vlog，配 BGM 加字幕"，AI 就能像真人剪辑师一样，把视频拼到时间轴、配音、生成字幕、加特效、甚至最后帮你点"导出"。

本质是用 Python 把剪映的草稿 JSON 文件（draft_info.json）当操作接口，再叠一层 Agent 能听懂的"自然语言 → 剪辑操作"翻译层。

类比：剪映是个功能齐全但要手动点 100 次的专业厨房，这个 skill 就是给厨房装了个语音机器人厨师——你喊"做个蛋炒饭"，它自己开火、打蛋、翻锅、出盘。

它怎么转（运转链路）

自然语言指令经过 skill rules 和 Python 工具写入剪映草稿 JSON — 图 2：运转链路不是点按钮，而是把指令翻译成可写入时间轴的数据。

触发层

用户在 AI IDE/Agent 里（Antigravity / Trae / Claude Code / Cursor）输入自然语言指令
Agent 读 SKILL.md → 路由到对应 rules/*.md（11 个规则文件）
调用 scripts/ 下的 Python 工具执行

核心层

JyProject（核心类）
初始化草稿工程（支持 overwrite=True 触发 Auto-healing）
add_narrated_subtitles（一键：文案→TTS→字幕对齐）
add_media_safe（防路径穿越的素材导入）
add_text_simple（含动画的文字层）
keyframes / vfx / effects（关键帧+特效）
录屏引擎（tools/recording/recorder.py）
录屏 → 分析鼠标点击位置 → 自动插入关键帧
鼠标移动时画面像云台一样平滑跟随
Web-to-Video（Playwright + Chromium）
渲染 HTML/JS/Canvas/GLSL 动效
等 window.animationFinished 信号
录屏成 mp4 导入剪映主轨道
配音管线
剪映原生音色（云端，需联网）
微软 edge_tts（离线）
add_narrated_subtitles 自动对齐到时间轴

输出层

一份剪映工程（v5.9+ draft_info.json + media）
自动导出 MP4（仅 v5.9 及以下，模拟鼠标键盘）
可选 SRT 字幕文件（jy_wrapper.py export-srt）

卡点层（新手必踩的坑）

版本绑定：剪映 6.0+ 弹窗太多，自动化脚本直接崩——必须锁 v5.9
平台绑定：自动导出仅 Windows，macOS 只支持"草稿生成"，导出得手点
国际版不支持：CapCut 国外版的 JSON 结构不一样
模拟鼠标键盘 = 脆弱契约：剪映 UI 一变就要重写

三段位升级路线

段位	关键动作	卡点
入门	Windows + 剪映 5.9 → `pip install -r requirements.txt` + `playwright install chromium` → 在 IDE 里 `git clone` 到 `.claude/skills/jianying-editor/` → 跟 AI 说"随便剪一个视频看看效果"	九成人卡在装错路径——SKILL.md 里写了 5 种 IDE 的安装位置，挑一个别混
进阶	跑 `sync_jy_assets.py` + `build_cloud_music_library.py` 把剪映里你收藏过的素材索引到本地；用 `add_narrated_subtitles` 走"文案→配音→字幕"一条龙；用 `apply-zoom` 给老录屏加智能缩放	卡在"AI 找不到我想要的音乐"——先跑一次 `sync_jy_assets` 把云端库挖到本地，AI 才能用 ID 调用
高手	把业务剪辑脚本放在项目根目录（不要混进 skill 内部目录），用 `JyProject(name, overwrite=True)` 触发 Auto-healing；用 `clone` + 模板替换做批量化客户视频	高手和普通人的差距在"把 skill 当工具库"还是"把 skill 当自己的剪辑师"——前者天天 git pull 升级，后者把业务代码混进 skill 直接卡死升级

场景迁移

1. 任何"桌面 GUI 软件 + 草稿文件"的自动化

剪映的解法揭示了通用模式——找软件背后的纯数据文件（草稿/工程/项目），用代码直接读写，绕开 UI 自动化。可平移到：

Final Cut Pro（.fcpxml）
DaVinci Resolve（.drp 工程）
Adobe Premiere（.prproj XML）
任何"导出工程文件"的专业软件

注意变量：JSON 不是唯一格式（Premiere 是二进制），要找到"软件允许导入的中间格式"才能用同款思路。

2. 任何"自然语言 → 重复性设计任务"的 AI Skill

模板克隆（clone --template "酒店模板" --name "客户A_副本"）+ 批量物料替换 = "AI 流水线工人"通用范式。可平移到：

PPT/Keynote 模板批量化
海报模板批量化
合同模板批量化

注意变量：克隆前必须把"原模板保护好"，overwrite=True 默认行为是覆盖——任何用模板的项目都要先复制再操作。

部署的取舍

剪映自动化依赖 Windows 工作机、版本锁和脆弱的导出自动化 — 图 3：部署价值很明确，但边界也硬：Windows、版本锁、云端音色和脆弱导出。

好处

录屏+智能变焦是真杀手锏——做技术教程视频质量能直接拉高一个档次
影视解说自动化（movie_commentary_builder.py）——60 秒拆解视频一键出片
Web-to-Video 把任何前端动效变成剪映素材——做片头/特效不用再求设计师
Auto-healing 工程修复——草稿损坏了能自救

注意事项

不能装在 Linux 容器上——剪映是 Windows 桌面应用，没 GUI。只能在 Windows 工作机部署
如果要远程调度，得先有一台 Windows 机开着剪映，通过 SSH/RDP 控制
强锁剪映 v5.9-——剪映 6.0+ 用户要降级才能用自动导出
配音走剪映云端音色会发请求到字节服务器——注意素材版权和隐私

风险

2.2k stars 但只有 1 个 contributor——bus factor 风险高，作者哪天不维护就死
用模拟鼠标键盘做自动导出 = 脆弱契约——剪映改 UI、弹个更新提示，导出就直接失败
5 个 open issues 数量偏少，说明用的人少、测得也不多
MIT 协议商用 OK，但云端音色商用要查字节的授权

灵魂

这个项目的灵魂是"绕过 UI 直达数据"——剪映是给"人点"的，这个 skill 找到了"剪映的真相藏在 JSON 里"这条路。Agent 不需要学会点 100 个按钮，只需要学会写一份对的 JSON。这是 AI 时代所有桌面软件自动化的标准答案。

附记：和我之前研究过的 chengfeng-videocut-skills 方向类似，但这个是 AI Agent Skill 形态，更工程化（11 个 rules + 7+ examples）。和 OfficeCLI 的"L1/L2/L3 架构"是同一种思路：把"工具能力"和"用户场景"分层。如果要做技术教程视频想做自动化，这是目前中文圈最成熟的方案。