PDF 转换工具与开源项目
1. Doc2x
功能: 将 PDF 文件转换为 Markdown、LaTeX、DOCX,可以解析排版、数学公式、表格、图片、图表等,对包含表格和公式的文档处理效果较好,支持中英文档处理,效果比 Mathpix 好。
体验地址: Doc2x
2. gptpdf(开源)
特点: 使用 293 行代码,解析排版、数学公式、表格、图片、图表等。依托 GPT-4o 的能力,未来版本将进一步优化。
方法:
- 使用 PyMuPDF 库解析 PDF 中所有非文本区域并做好标记。
- 使用视觉大模型(如 GPT-4o)解析并生成 Markdown 文件。
GitHub: gptpdf
3. RAGFlow(开源)
简介: 基于深度文档理解的开源 RAG(检索增强生成)引擎,解决幻觉问题,采用自创的 deep document understanding 方法。
支持: Word、幻灯片、Excel、txt、图像、扫描件、结构化数据、网页等非结构化数据解析,支持发票、简历、财报等不同场景模版。
GitHub: RAGFlow
4. Mathpix
功能: 解析文本、数学、化学、手写识别、表格、外语和完整 PDF 文档,输出 LaTeX、Markdown、Word 等格式。
支持: 类似谷歌的搜索功能。
体验地址: Mathpix
5. 庖丁PDFlux
功能: 提取 PDF / 图片中的表格和文字,AI 智能生成摘要、搜索、改写、翻译。
体验地址: 庖丁PDFlux
6. Pix2Text(开源)
支持: 多语言,识别图片中的版面、表格、图片、文字、数学公式等,输出 Markdown 格式。支持 PDF 文件(包括扫描图片和其他格式)转换为 Markdown。
体验地址: Pix2Text-Demo
GitHub: Pix2Text
7. TextIn
功能: 识别文档或图片中的文字信息,按常见阅读顺序进行还原。
支持: 标准的年报、文书、函件、合同等文档,兼容扫描文档和电子 PDF 文件。
体验地址: TextIn
8. 腾讯云文档识别
功能: 将图片或 PDF 文件转换成 Markdown 格式文件,包括表格、公式、图片和文本等,并按阅读顺序排列。
体验地址: 腾讯云文档识别
9. Marker(开源)
支持: 多语言多文档类型,针对书籍和科学论文优化。
GitHub: Marker
10. Paddle
特点: 飞桨特色的端到端表格识别系统,精准预测论文、报告等文档中的表格位置和内容。
体验地址: Paddle