AI Video Transcriber概览

AI Video Transcriber是一款开源的AI视频转录与摘要工具,基于

Faster-Whisper

进行高精度语音转写,结合

yt-dlp

抓取主流视频站点内容,覆盖 YouTube、Bilibili、抖音在内的 30+ 平台。提供自动纠错、句子补全、智能分段与多语言摘要能力,并在选定摘要语言与语音检测语言不一致时调用

GPT-4o

做条件式翻译。


AI Video Transcriber核心功能


  • 多平台支持

    :依托 yt-dlp,适配 YouTube、抖音、B站等大量站点。

  • 智能转录

    :采用 Faster-Whisper,速度与内存占用更优,保持与原版 Whisper 相近的准确率。

  • 文本优化

    :自动错别字修正、句子完整化与智能分段,便于直接发布与检索。(据项目 README 描述)

  • 多语言摘要与条件式翻译

    :当摘要语言与检测语言不一致时,自动用 GPT-4o 生成翻译与总结。

  • 移动适配

    :前端界面适配移动端,支持 Markdown 渲染(Marked.js)。


快速上手


环境要求

  • Python 3.8+
  • FFmpeg(音视频处理必备)
  • 可选:OpenAI API Key(启用 AI 摘要/翻译)

    项目 README 与 FFmpeg 官方仓库均有说明。


使用步骤

  1. 粘贴视频链接(支持 YouTube、B站、抖音等)。
  2. 选择输出摘要语言。
  3. 点击「开始」,系统执行以下流水线:下载与解析 → Faster-Whisper 转写 → AI 优化(纠错、补全、分段)→ 生成所选语言摘要/翻译。
  4. 查看转写与摘要结果,可下载 Markdown 文件保存。


技术架构


  • 后端

    :FastAPI 提供接口;yt-dlp 负责下载与解析;Faster-Whisper 负责转写;OpenAI API 用于摘要/翻译。

  • 前端

    :HTML5/CSS3 + 原生 JavaScript,使用 Marked.js 渲染 Markdown;图标库使用 Font Awesome。


常见问题


  • 转录速度偏慢?

    与视频时长、模型大小与硬件性能相关。选择

    tiny



    base

    等较小模型可提速。

  • 平台覆盖面?

    以 yt-dlp 支持的站点为准,覆盖数千网站与变体。

  • AI 优化不可用?

    未配置 OpenAI API Key 时,仅输出 Whisper 原始转写与简化摘要。

  • 环境报错/白屏?

    按 README 检查虚拟环境、依赖、

    OPENAI_API_KEY

    /

    OPENAI_BASE_URL

    、FFmpeg 安装与端口占用。


适用人群与场景

  • 内容创作者、运营与新媒体团队:批量转写口播与长视频,快速生成多语言摘要与文稿。
  • 教育与会议记录:课程、讲座、访谈转写与要点提炼。
  • 知识整理:剪辑脚本、字幕草稿、SEO 素材沉淀与复用。


AI Video Transcriber项目地址

GitHub 地址:

https://github.com/wendy7756/AI-Video-Transcriber