docling v2.49.0¶

为什么要使用 Docling

在信息爆炸的时代，我们被海量的文档所淹没——PDF报告、Excel表格、Word文件……它们堆积如山，却难以挖掘其中的宝藏。你是否曾花费数小时手动提取数据，复制粘贴到眼花缭乱？是否渴望从复杂的文件中一键获取所需信息，而不是深陷于格式混乱的泥潭？Docling正是为了解决这一矛盾而生：它不仅是工具，更是解放生产力的钥匙，将你从繁琐的文档处理中彻底解脱，让你专注于真正创造价值的工作。

Docling 是什么

Docling 是一个智能文档处理库，能够解析和提取多种格式文档（如PDF、Word、Excel等）中的内容。它通过统一的数据模型，将不同格式的文档转换为结构化的数据，方便进一步处理和分析。简单来说，它就像是文档的“翻译官”和“整理师”，让机器能够读懂并利用文档中的信息。

入门示例

想象一下，你是一名财务分析师，每天需要从上百份PDF财报中提取关键数据并录入系统。手动操作不仅耗时，还容易出错。使用Docling，你可以编写一个简单的脚本，自动解析这些PDF文件，提取表格和文本内容，然后直接导入数据库或生成分析报告。

开发示例：以下是一个使用Docling处理PDF文档的Python代码片段：

from docling import DocumentParser

# 初始化解析器
parser = DocumentParser()

# 加载PDF文件
doc = parser.parse("financial_report.pdf")

# 提取所有表格
tables = doc.tables
for table in tables:
    print(table.as_df())

# 提取纯文本内容
text = doc.text
print(text)

这段代码展示了如何快速从PDF中提取表格和文本，极大提升了数据处理的效率。

Docling v2.49.0 版本更新内容

新增了基于模式的提取功能（Beta版），允许用户通过定义Schema来精准提取所需内容。
改进了Excel处理，现在会标记不可见工作表为不可见层。
修复了pypdfium2库中因旋转元数据不匹配导致的OCR边界框错位问题。
优化了离线模式，扩展了对RapidOCR字体的支持。
丰富了文档落地页，提升了用户体验。

更新日志

功能¶

[Beta] 支持基于模式的提取（#2138）（9f4bc5b）
msexcel：将不可见工作表设置为ContentLayer.INVISIBLE（#1876）（a283ccf）

修复¶

pypdfium2：修复因旋转元数据不匹配导致的OCR边界框错位问题（#2039）（4d94e38）
翻译示例（#2166）（9f0286b）
扩展离线模式以支持RapidOCR字体（#2155）（9904d14）

文档¶

丰富了落地页内容（#2165）（96cab6b）

总结

Docling v2.49.0 版本主要引入了基于模式的提取功能，提升了Excel和PDF处理的准确性，同时扩展了离线支持并优化了文档体验。