什么是 Edit Mind?
Edit Mind 是一款跨平台的桌面应用,用 AI 帮你为整库视频建立深度索引。它像“剪辑师的第二大脑”,会在本地对视频进行分析,自动生成转写文本、人脸信息、画面主体、主色调、屏幕文字等多维度元数据,让视频素材像搜索文档一样好找。
项目当前处于
积极开发阶段
,尚未完全达到生产级稳定状态,部分功能仍在完善中,也可能存在个别 Bug。对早期版本感兴趣的开发者和创作者,可以通过 GitHub 参与体验和共建:
GitHub 项目地址:
https://github.com/IliasHad/edit-mind
核心功能亮点
AI 驱动的视频深度索引
Edit Mind 会在本地为视频执行一条完整的 AI 分析流水线,为每一段画面生成可检索的结构化数据,包括:
- 🎙 全量音频转写:使用本地 OpenAI Whisper 模型,将音轨转为带时间戳的文本对白。
- 🎞 场景切分:按约 2 秒切分为精细“片段”,实现帧级精度的检索定位。
- 🧩 深度画面分析:通过 Python 插件识别人脸、检测物体、提取屏幕文字(OCR),分析颜色和构图信息。
- 🧠 多模态对齐:将听到的内容与画面信息按时间戳对齐,形成更准确的场景理解。
所有文本、标签和元数据会通过 Google 文本嵌入模型转换为向量,并保存在本地的 ChromaDB 中,构建一套可离线使用的视频数据库。
语义搜索与自然语言检索
Edit Mind 支持通过自然语言直接搜索视频含义,例如:
“找出所有两个人坐在桌边说话的镜头”
“show me all clips where Ilias looks happy”
搜索时,会调用 Google Gemini 2.5 Pro 将自然语言搜索词解析为结构化 JSON 查询,再在本地 ChromaDB 向量库中匹配最相关的场景。
用户不需要记得文件名和时间码,只需描述想找的画面,相关镜头就会自动呈现。
AI 生成智能粗剪
在完成索引和搜索的基础上,Edit Mind 还支持自动生成粗剪序列:
-
使用自然语言描述你想要的片段组合,例如:
“给我所有 @ilias 看起来很开心的镜头” - 应用根据检索结果自动拼接粗剪时间线,帮助剪辑师节省大量“翻素材”的时间。
- 后续可以再用专业剪辑软件进行精修和调色。
隐私优先,本地优先的安全架构
Edit Mind 在设计时强调“隐私优先”和“离线优先”:
- 视频文件、帧数据和分析生成的元数据全部保存在本地设备,不上传原始视频。
- 仅在语义搜索解析和文本嵌入生成环节调用云端 API(Gemini 与 Google 文本嵌入),传输内容为检索指令和文本特征,而非原始视频素材。
- 在未来版本中,将加入离线嵌入与查询模型选项,满足完全断网环境下的使用需求。
对于关注内容安全和商业机密的团队,本地处理与可控的云调用比例,在效率和隐私之间提供了更平衡的方案。
功能一览
🧠 深度 AI 索引
- 自动抽取转写字幕、人脸、物体、画面文字、主色调等多维标签
- 支持对整库视频进行统一管理和搜索
- 通过统一的场景切分,提升检索和粗剪的精度
🔍 语义搜索体验
- 支持自然语言查询视频内容
- 按“含义”而不是“文件名”搜索素材
- 更适合灵感驱动的创作工作流
🎬 AI 智能粗剪
- 根据描述自动拼接粗剪序列
- 适合作为选题、预剪、片段筛选的工作起点
- 支持导出项目工程(计划支持 Adobe Premiere Pro、Final Cut Pro 等)
💻 跨平台桌面应用
- 基于 Electron,支持 macOS、Windows、Linux
- 前端采用 React + TypeScript + Vite,界面简洁现代
- 使用 shadcn/ui 与 Tailwind CSS 提供响应式体验
🧩 插件化架构
- 所有深度分析能力通过 Python 插件扩展
- 已支持目标检测、人脸识别、镜头类型分析、环境识别、主色调提取等插件
- 为未来的 Logo 检测、音频事件检测、情绪分析等场景预留扩展空间
- 计划构建插件文档、示例以及插件生态
性能表现与硬件建议
在实际测试中(M1 MacBook Max + 64GB 内存、启用多种插件),Edit Mind 的性能大致表现为:
- 每 1 小时视频内容,大约需要 2–3 小时分析时间(开启全部插件时)
- 内存峰值约在 5–11 GB 之间,会随视频复杂度和编码参数变化
- 不同编码格式(如 HEVC)在性能上存在明显差异
为了取得更顺畅的体验,建议:
- 关闭当前项目中不需要的插件,缩短分析时间并降低内存占用
- 将大体积文件安排在非工作时间批量处理
- 尽量使用 16GB 及以上内存配置
- 使用 SSD 作为素材与索引存储,提升读写性能
技术栈与开发者信息
Edit Mind 面向开发者和重度创作者开放源码,主要技术栈包括:
- 应用框架:Electron
- 前端:React、TypeScript、Vite
- 后端主进程:Node.js
- AI / ML:Python、OpenCV、PyTorch、Whisper
- 向量数据库:ChromaDB
- 打包与分发:Electron Builder
- 代码质量:ESLint、Prettier
项目结构清晰,将前端界面、主进程逻辑、IPC 通信、Python 服务与静态资源分门别类,便于二次开发和团队协作。
更多安装和构建命令,可在 GitHub 仓库中查看详细说明
GitHub地址:
https://github.com/IliasHad/edit-mind
谁适合使用 Edit Mind?
- 需要管理大量素材的短视频创作者与剪辑师
- 负责企业宣传片、活动记录、课程录制的内容团队
- 希望搭建自有本地视频知识库的机构与工作室
- 对 AI 视频分析、语义检索、向量数据库感兴趣的开发者与研究者
如果你希望在不牺牲隐私的前提下,用 AI 为视频工作流“加一颗大脑”,Edit Mind 会是一款值得关注和参与的开源工具。
爱站程序员基地
