Microsoft MarkItDown —— 微软出的文档转 Markdown 工具

Table of Contents

一句话总结

把各种格式的文件（PDF、Word、PPT、Excel、图片、音频、YouTube 视频等）转换成 Markdown，方便喂给 LLM 做分析。

核心能力

格式	支持情况
PDF	✅ 文本提取 + 表格/列表结构保留
Word (docx)	✅ 标题、列表、表格、链接
PowerPoint (pptx)	✅ 幻灯片内容转结构化 Markdown
Excel (xlsx/xls)	✅ 表格转 Markdown 表格
图片	✅ EXIF 元数据 + OCR 文字识别
音频	✅ 元数据 + 语音转文字
HTML/EPUB	✅ 保留结构
YouTube URL	✅ 抓取字幕/转录
ZIP	✅ 遍历解压处理

亮点

LLM 友好 —— 输出是 Markdown，token 效率高，LLM 天生懂
结构保留 —— 不只是纯文本，标题层级、列表、表格、链接都保留
MCP 支持 —— 提供 Model Context Protocol 服务器，可以接入 Claude Desktop 等
插件系统 —— 支持第三方插件（比如 markitdown-ocr 用 LLM Vision 做 PDF 图片 OCR）
Azure Document Intelligence —— 可选接入微软的文档智能服务

基本用法

Copy

# 安装
pip install 'markitdown[all]'

# 命令行
markitdown file.pdf -o output.md

# Python API
from markitdown import MarkItDown
md = MarkItDown()
result = md.convert("file.pdf")
print(result.text_content)

对你有什么用？

批量处理 PDF/Word 文档喂给 LLM 做知识库
把 PPT 转成 Markdown 方便做笔记/分享
提取 YouTube 视频字幕做内容分析
图片 OCR + 结构化的文档处理

一句话：文档 → Markdown → LLM 的标准化流水线。

地址：

https://github.com/microsoft/markitdown

本文地址：https://www.163264.com/10802

Microsoft MarkItDown —— 微软出的文档转 Markdown 工具

一句话总结

核心能力

亮点

基本用法

对你有什么用？

相关推荐