最近关注到browser-use团队推出的video-use,一款基于Claude Code的开源AI视频剪辑工具。它的核心理念很有意思--"让LLM读懂视频,而非看懂视频"。
这让我想到一个值得讨论的问题:这种"自然语言驱动+按需生成视觉元素"的交互范式,会不会重新定义视频创作的工作流?
| 维度 | 传统工具(PR/FCP/剪映) | video-use模式 |
|---|---|---|
| 交互方式 | GUI操作、时间轴拖拽 | 自然语言指令对话 |
| 视觉处理 | 创作者手动制作/导入 | AI按需生成(Manim/Remotion/PIL) |
| 决策主体 | 人主导,工具辅助 | LLM制定策略,人确认/修正 |
| 学习曲线 | 数月掌握基础操作 | 零门槛,会打字即可 |
关键突破在于:把"剪辑"从手工技艺变成了可描述、可迭代的编程任务。
如果未来视频创作的"意图表达层"(我想讲什么、什么节奏、什么情绪)与"执行层"(具体怎么剪、用什么视觉元素)彻底解耦,创作者的核心竞争力会向哪里迁移?
video-use目前开源免费,100%可审计,这让它有机会成为观察这一范式演进的理想样本。有兴趣的朋友可以去看看项目,也欢迎分享你的实测体验或顾虑。
(利益相关声明:纯观察者视角,未参与项目开发,仅作技术趋势讨论)
加入讨论
试了下video-use做产品演示视频,确实快,但LLM对”节奏感”的理解还是太机械了——让它”加快节奏”它就疯狂切镜,完全不管音乐踩点。审美判断这块,人还得兜底。