跳转至

docling v2.49.0

为什么要使用 Docling

在信息爆炸的时代,我们被海量的文档所淹没——PDF报告、Excel表格、Word文件……它们堆积如山,却难以挖掘其中的宝藏。你是否曾花费数小时手动提取数据,复制粘贴到眼花缭乱?是否渴望从复杂的文件中一键获取所需信息,而不是深陷于格式混乱的泥潭?Docling正是为了解决这一矛盾而生:它不仅是工具,更是解放生产力的钥匙,将你从繁琐的文档处理中彻底解脱,让你专注于真正创造价值的工作。

Docling 是什么

Docling 是一个智能文档处理库,能够解析和提取多种格式文档(如PDF、Word、Excel等)中的内容。它通过统一的数据模型,将不同格式的文档转换为结构化的数据,方便进一步处理和分析。简单来说,它就像是文档的“翻译官”和“整理师”,让机器能够读懂并利用文档中的信息。

入门示例

想象一下,你是一名财务分析师,每天需要从上百份PDF财报中提取关键数据并录入系统。手动操作不仅耗时,还容易出错。使用Docling,你可以编写一个简单的脚本,自动解析这些PDF文件,提取表格和文本内容,然后直接导入数据库或生成分析报告。

开发示例:以下是一个使用Docling处理PDF文档的Python代码片段:

from docling import DocumentParser

# 初始化解析器
parser = DocumentParser()

# 加载PDF文件
doc = parser.parse("financial_report.pdf")

# 提取所有表格
tables = doc.tables
for table in tables:
    print(table.as_df())

# 提取纯文本内容
text = doc.text
print(text)

这段代码展示了如何快速从PDF中提取表格和文本,极大提升了数据处理的效率。

Docling v2.49.0 版本更新内容

  1. 新增了基于模式的提取功能(Beta版),允许用户通过定义Schema来精准提取所需内容。
  2. 改进了Excel处理,现在会标记不可见工作表为不可见层。
  3. 修复了pypdfium2库中因旋转元数据不匹配导致的OCR边界框错位问题。
  4. 优化了离线模式,扩展了对RapidOCR字体的支持。
  5. 丰富了文档落地页,提升了用户体验。

更新日志

功能

  • [Beta] 支持基于模式的提取(#2138)(9f4bc5b)
  • msexcel:将不可见工作表设置为ContentLayer.INVISIBLE(#1876)(a283ccf)

修复

  • pypdfium2:修复因旋转元数据不匹配导致的OCR边界框错位问题(#2039)(4d94e38)
  • 翻译示例(#2166)(9f0286b)
  • 扩展离线模式以支持RapidOCR字体(#2155)(9904d14)

文档

  • 丰富了落地页内容(#2165)(96cab6b)

总结

Docling v2.49.0 版本主要引入了基于模式的提取功能,提升了Excel和PDF处理的准确性,同时扩展了离线支持并优化了文档体验。