一句话总结
把各种格式的文件(PDF、Word、PPT、Excel、图片、音频、YouTube 视频等)转换成 Markdown,方便喂给 LLM 做分析。
核心能力
| 格式 | 支持情况 |
|---|---|
| ✅ 文本提取 + 表格/列表结构保留 | |
| Word (docx) | ✅ 标题、列表、表格、链接 |
| PowerPoint (pptx) | ✅ 幻灯片内容转结构化 Markdown |
| Excel (xlsx/xls) | ✅ 表格转 Markdown 表格 |
| 图片 | ✅ EXIF 元数据 + OCR 文字识别 |
| 音频 | ✅ 元数据 + 语音转文字 |
| HTML/EPUB | ✅ 保留结构 |
| YouTube URL | ✅ 抓取字幕/转录 |
| ZIP | ✅ 遍历解压处理 |
亮点
- LLM 友好 —— 输出是 Markdown,token 效率高,LLM 天生懂
- 结构保留 —— 不只是纯文本,标题层级、列表、表格、链接都保留
- MCP 支持 —— 提供 Model Context Protocol 服务器,可以接入 Claude Desktop 等
- 插件系统 —— 支持第三方插件(比如
markitdown-ocr用 LLM Vision 做 PDF 图片 OCR) - Azure Document Intelligence —— 可选接入微软的文档智能服务
基本用法
Copy
# 安装
pip install 'markitdown[all]'
# 命令行
markitdown file.pdf -o output.md
# Python API
from markitdown import MarkItDown
md = MarkItDown()
result = md.convert("file.pdf")
print(result.text_content)
对你有什么用?
- 批量处理 PDF/Word 文档喂给 LLM 做知识库
- 把 PPT 转成 Markdown 方便做笔记/分享
- 提取 YouTube 视频字幕做内容分析
- 图片 OCR + 结构化的文档处理
一句话:文档 → Markdown → LLM 的标准化流水线。
地址:
https://github.com/microsoft/markitdown
本文地址:https://www.163264.com/10802