Microsoft MarkItDown —— 微软出的文档转 Markdown 工具

一句话总结

把各种格式的文件(PDF、Word、PPT、Excel、图片、音频、YouTube 视频等)转换成 Markdown,方便喂给 LLM 做分析。


核心能力

格式支持情况
PDF✅ 文本提取 + 表格/列表结构保留
Word (docx)✅ 标题、列表、表格、链接
PowerPoint (pptx)✅ 幻灯片内容转结构化 Markdown
Excel (xlsx/xls)✅ 表格转 Markdown 表格
图片✅ EXIF 元数据 + OCR 文字识别
音频✅ 元数据 + 语音转文字
HTML/EPUB✅ 保留结构
YouTube URL✅ 抓取字幕/转录
ZIP✅ 遍历解压处理

亮点

  1. LLM 友好 —— 输出是 Markdown,token 效率高,LLM 天生懂
  2. 结构保留 —— 不只是纯文本,标题层级、列表、表格、链接都保留
  3. MCP 支持 —— 提供 Model Context Protocol 服务器,可以接入 Claude Desktop 等
  4. 插件系统 —— 支持第三方插件(比如 markitdown-ocr 用 LLM Vision 做 PDF 图片 OCR)
  5. Azure Document Intelligence —— 可选接入微软的文档智能服务

基本用法

Copy

# 安装
pip install 'markitdown[all]'

# 命令行
markitdown file.pdf -o output.md

# Python API
from markitdown import MarkItDown
md = MarkItDown()
result = md.convert("file.pdf")
print(result.text_content)

对你有什么用?

  • 批量处理 PDF/Word 文档喂给 LLM 做知识库
  • 把 PPT 转成 Markdown 方便做笔记/分享
  • 提取 YouTube 视频字幕做内容分析
  • 图片 OCR + 结构化的文档处理

一句话:文档 → Markdown → LLM 的标准化流水线。

地址:

https://github.com/microsoft/markitdown

本文地址:https://www.163264.com/10802

(0)
上一篇 2天前
下一篇 14分钟前

相关推荐