可以处理各种复杂的OCR任务的 OCR 模型 – GOT-OCR2.0

可以处理各种复杂的OCR任务的 OCR 模型 - GOT-OCR2.0

可以处理各种复杂的OCR任务,不仅包括普通文本,还可以识别公式、表格、乐谱等复杂内容。

  • OCR-2.0主要支持中文和英文字符识别,并能够通过进一步的微调扩展到更多语言。
  • 场景文本识别:能够处理自然场景中的文本识别任务,如街道标志、广告牌上的文字等。
  • 文档OCR:处理文档中完整页面的文字识别,无论是纯文本文档,还是含有表格、公式等的复杂文档。
  • 格式化文本OCR:支持将光学文档中的文本直接转换为 Markdown、Latex 等格式,保持复杂文档的原始排版和格式。
  • 动态分辨率:GOT 支持对超高分辦率图像(如大幅海报、拼接PDF页面)进行OCR处理,使用动态分辨率技术确保在图像过大时保持识别准确性。
  • 多页OCR:GOT 能够批量处理多页文档,例如长篇PDF文件或包含多张图片的OCR任务,极大提升了处理效率。
  • 公式、表格、图表识别:除了基本文本识别,GOT 还能识别和处理文档中的数学公式、化学分子式、表格、图表等复杂结构,并将其转换为可编辑的格式(如LaTex 或 Python 字典格式)。
  • 格式化输出:OCR-2.0支持生成多种格式化输出,包括Markdown、TikZ、SMILES、LATEX等,能够将识别到的字符以结构化的方式输出,例如表格、数学公式、分子结构等。

项目地址:

https://github.com/Ucas-HaoranWei/GOT-OCR2.0

本文地址:https://www.163264.com/9835

(1)
上一篇 2024年9月13日 上午2:55
下一篇 2024年9月23日 上午2:30