什么是 Edit Mind?

Edit Mind 是一款跨平台的桌面应用,用 AI 帮你为整库视频建立深度索引。它像“剪辑师的第二大脑”,会在本地对视频进行分析,自动生成转写文本、人脸信息、画面主体、主色调、屏幕文字等多维度元数据,让视频素材像搜索文档一样好找。

项目当前处于

积极开发阶段

,尚未完全达到生产级稳定状态,部分功能仍在完善中,也可能存在个别 Bug。对早期版本感兴趣的开发者和创作者,可以通过 GitHub 参与体验和共建:

GitHub 项目地址:

https://github.com/IliasHad/edit-mind



核心功能亮点


AI 驱动的视频深度索引

Edit Mind 会在本地为视频执行一条完整的 AI 分析流水线,为每一段画面生成可检索的结构化数据,包括:

  • 🎙 全量音频转写:使用本地 OpenAI Whisper 模型,将音轨转为带时间戳的文本对白。
  • 🎞 场景切分:按约 2 秒切分为精细“片段”,实现帧级精度的检索定位。
  • 🧩 深度画面分析:通过 Python 插件识别人脸、检测物体、提取屏幕文字(OCR),分析颜色和构图信息。
  • 🧠 多模态对齐:将听到的内容与画面信息按时间戳对齐,形成更准确的场景理解。

所有文本、标签和元数据会通过 Google 文本嵌入模型转换为向量,并保存在本地的 ChromaDB 中,构建一套可离线使用的视频数据库。


语义搜索与自然语言检索

Edit Mind 支持通过自然语言直接搜索视频含义,例如:

“找出所有两个人坐在桌边说话的镜头”

“show me all clips where Ilias looks happy”

搜索时,会调用 Google Gemini 2.5 Pro 将自然语言搜索词解析为结构化 JSON 查询,再在本地 ChromaDB 向量库中匹配最相关的场景。

用户不需要记得文件名和时间码,只需描述想找的画面,相关镜头就会自动呈现。


AI 生成智能粗剪

在完成索引和搜索的基础上,Edit Mind 还支持自动生成粗剪序列:

  • 使用自然语言描述你想要的片段组合,例如:

    “给我所有 @ilias 看起来很开心的镜头”
  • 应用根据检索结果自动拼接粗剪时间线,帮助剪辑师节省大量“翻素材”的时间。
  • 后续可以再用专业剪辑软件进行精修和调色。


隐私优先,本地优先的安全架构

Edit Mind 在设计时强调“隐私优先”和“离线优先”:

  • 视频文件、帧数据和分析生成的元数据全部保存在本地设备,不上传原始视频。
  • 仅在语义搜索解析和文本嵌入生成环节调用云端 API(Gemini 与 Google 文本嵌入),传输内容为检索指令和文本特征,而非原始视频素材。
  • 在未来版本中,将加入离线嵌入与查询模型选项,满足完全断网环境下的使用需求。

对于关注内容安全和商业机密的团队,本地处理与可控的云调用比例,在效率和隐私之间提供了更平衡的方案。



功能一览


🧠 深度 AI 索引

  • 自动抽取转写字幕、人脸、物体、画面文字、主色调等多维标签
  • 支持对整库视频进行统一管理和搜索
  • 通过统一的场景切分,提升检索和粗剪的精度


🔍 语义搜索体验

  • 支持自然语言查询视频内容
  • 按“含义”而不是“文件名”搜索素材
  • 更适合灵感驱动的创作工作流


🎬 AI 智能粗剪

  • 根据描述自动拼接粗剪序列
  • 适合作为选题、预剪、片段筛选的工作起点
  • 支持导出项目工程(计划支持 Adobe Premiere Pro、Final Cut Pro 等)


💻 跨平台桌面应用

  • 基于 Electron,支持 macOS、Windows、Linux
  • 前端采用 React + TypeScript + Vite,界面简洁现代
  • 使用 shadcn/ui 与 Tailwind CSS 提供响应式体验


🧩 插件化架构

  • 所有深度分析能力通过 Python 插件扩展
  • 已支持目标检测、人脸识别、镜头类型分析、环境识别、主色调提取等插件
  • 为未来的 Logo 检测、音频事件检测、情绪分析等场景预留扩展空间
  • 计划构建插件文档、示例以及插件生态


性能表现与硬件建议

在实际测试中(M1 MacBook Max + 64GB 内存、启用多种插件),Edit Mind 的性能大致表现为:

  • 每 1 小时视频内容,大约需要 2–3 小时分析时间(开启全部插件时)
  • 内存峰值约在 5–11 GB 之间,会随视频复杂度和编码参数变化
  • 不同编码格式(如 HEVC)在性能上存在明显差异

为了取得更顺畅的体验,建议:

  • 关闭当前项目中不需要的插件,缩短分析时间并降低内存占用
  • 将大体积文件安排在非工作时间批量处理
  • 尽量使用 16GB 及以上内存配置
  • 使用 SSD 作为素材与索引存储,提升读写性能


技术栈与开发者信息

Edit Mind 面向开发者和重度创作者开放源码,主要技术栈包括:

  • 应用框架:Electron
  • 前端:React、TypeScript、Vite
  • 后端主进程:Node.js
  • AI / ML:Python、OpenCV、PyTorch、Whisper
  • 向量数据库:ChromaDB
  • 打包与分发:Electron Builder
  • 代码质量:ESLint、Prettier

项目结构清晰,将前端界面、主进程逻辑、IPC 通信、Python 服务与静态资源分门别类,便于二次开发和团队协作。

更多安装和构建命令,可在 GitHub 仓库中查看详细说明

GitHub地址:

https://github.com/IliasHad/edit-mind



谁适合使用 Edit Mind?

  • 需要管理大量素材的短视频创作者与剪辑师
  • 负责企业宣传片、活动记录、课程录制的内容团队
  • 希望搭建自有本地视频知识库的机构与工作室
  • 对 AI 视频分析、语义检索、向量数据库感兴趣的开发者与研究者

如果你希望在不牺牲隐私的前提下,用 AI 为视频工作流“加一颗大脑”,Edit Mind 会是一款值得关注和参与的开源工具。