docling v2.49.0¶
为什么要使用 Docling
在信息爆炸的时代,我们被海量的文档所淹没——PDF报告、Excel表格、Word文件……它们堆积如山,却难以挖掘其中的宝藏。你是否曾花费数小时手动提取数据,复制粘贴到眼花缭乱?是否渴望从复杂的文件中一键获取所需信息,而不是深陷于格式混乱的泥潭?Docling正是为了解决这一矛盾而生:它不仅是工具,更是解放生产力的钥匙,将你从繁琐的文档处理中彻底解脱,让你专注于真正创造价值的工作。
Docling 是什么
Docling 是一个智能文档处理库,能够解析和提取多种格式文档(如PDF、Word、Excel等)中的内容。它通过统一的数据模型,将不同格式的文档转换为结构化的数据,方便进一步处理和分析。简单来说,它就像是文档的“翻译官”和“整理师”,让机器能够读懂并利用文档中的信息。
入门示例
想象一下,你是一名财务分析师,每天需要从上百份PDF财报中提取关键数据并录入系统。手动操作不仅耗时,还容易出错。使用Docling,你可以编写一个简单的脚本,自动解析这些PDF文件,提取表格和文本内容,然后直接导入数据库或生成分析报告。
开发示例:以下是一个使用Docling处理PDF文档的Python代码片段:
from docling import DocumentParser
# 初始化解析器
parser = DocumentParser()
# 加载PDF文件
doc = parser.parse("financial_report.pdf")
# 提取所有表格
tables = doc.tables
for table in tables:
print(table.as_df())
# 提取纯文本内容
text = doc.text
print(text)
这段代码展示了如何快速从PDF中提取表格和文本,极大提升了数据处理的效率。
Docling v2.49.0 版本更新内容
- 新增了基于模式的提取功能(Beta版),允许用户通过定义Schema来精准提取所需内容。
- 改进了Excel处理,现在会标记不可见工作表为不可见层。
- 修复了pypdfium2库中因旋转元数据不匹配导致的OCR边界框错位问题。
- 优化了离线模式,扩展了对RapidOCR字体的支持。
- 丰富了文档落地页,提升了用户体验。
更新日志
功能¶
修复¶
- pypdfium2:修复因旋转元数据不匹配导致的OCR边界框错位问题(#2039)(4d94e38)
- 翻译示例(#2166)(9f0286b)
- 扩展离线模式以支持RapidOCR字体(#2155)(9904d14)
文档¶
- 丰富了落地页内容(#2165)(96cab6b)
总结
Docling v2.49.0 版本主要引入了基于模式的提取功能,提升了Excel和PDF处理的准确性,同时扩展了离线支持并优化了文档体验。