AI Video Transcriber概览
AI Video Transcriber是一款开源的AI视频转录与摘要工具,基于
Faster-Whisper
进行高精度语音转写,结合
yt-dlp
抓取主流视频站点内容,覆盖 YouTube、Bilibili、抖音在内的 30+ 平台。提供自动纠错、句子补全、智能分段与多语言摘要能力,并在选定摘要语言与语音检测语言不一致时调用
GPT-4o
做条件式翻译。
AI Video Transcriber核心功能
-
多平台支持
:依托 yt-dlp,适配 YouTube、抖音、B站等大量站点。 -
智能转录
:采用 Faster-Whisper,速度与内存占用更优,保持与原版 Whisper 相近的准确率。 -
文本优化
:自动错别字修正、句子完整化与智能分段,便于直接发布与检索。(据项目 README 描述) -
多语言摘要与条件式翻译
:当摘要语言与检测语言不一致时,自动用 GPT-4o 生成翻译与总结。 -
移动适配
:前端界面适配移动端,支持 Markdown 渲染(Marked.js)。
快速上手
环境要求
:
- Python 3.8+
- FFmpeg(音视频处理必备)
-
可选:OpenAI API Key(启用 AI 摘要/翻译)
项目 README 与 FFmpeg 官方仓库均有说明。
使用步骤
:
- 粘贴视频链接(支持 YouTube、B站、抖音等)。
- 选择输出摘要语言。
- 点击「开始」,系统执行以下流水线:下载与解析 → Faster-Whisper 转写 → AI 优化(纠错、补全、分段)→ 生成所选语言摘要/翻译。
- 查看转写与摘要结果,可下载 Markdown 文件保存。
技术架构
-
后端
:FastAPI 提供接口;yt-dlp 负责下载与解析;Faster-Whisper 负责转写;OpenAI API 用于摘要/翻译。 -
前端
:HTML5/CSS3 + 原生 JavaScript,使用 Marked.js 渲染 Markdown;图标库使用 Font Awesome。
常见问题
-
转录速度偏慢?
与视频时长、模型大小与硬件性能相关。选择
tiny
或
base
等较小模型可提速。 -
平台覆盖面?
以 yt-dlp 支持的站点为准,覆盖数千网站与变体。 -
AI 优化不可用?
未配置 OpenAI API Key 时,仅输出 Whisper 原始转写与简化摘要。 -
环境报错/白屏?
按 README 检查虚拟环境、依赖、
OPENAI_API_KEY
/
OPENAI_BASE_URL
、FFmpeg 安装与端口占用。
适用人群与场景
- 内容创作者、运营与新媒体团队:批量转写口播与长视频,快速生成多语言摘要与文稿。
- 教育与会议记录:课程、讲座、访谈转写与要点提炼。
- 知识整理:剪辑脚本、字幕草稿、SEO 素材沉淀与复用。
AI Video Transcriber项目地址
GitHub 地址:
https://github.com/wendy7756/AI-Video-Transcriber