docling v2.46.0¶

为什么要使用 Docling

你是否曾在堆积如山的合同、报告或研究论文中浪费数小时，只为了寻找一个关键数据？是否曾在混乱的PDF表格和杂乱无章的扫描文档中感到寸步难行？我们正处在一个“文档过载”的时代——信息唾手可得，但真正的洞察却深埋于令人头痛的非结构化数据之中。

传统的手动处理不仅效率低下，更是创新和决策的隐形杀手。而Docling的出现，正是为了终结这种矛盾：它不只是另一个文档工具，而是将混沌转化为清晰智能数据的革命性答案，让你从繁琐的文档苦役中彻底解放。

Docling是什么

Docling 是一个强大的文档解析库，能够将各种格式的文档（如PDF、Word等）转换为结构化的、机器可读的数据。它旨在理解文档的布局和内容，高效地提取文本、表格、图像等元素，让开发者可以轻松地将文档内容集成到数据分析、机器学习或其他自动化流程中。

入门示例

想象一下，你是一家金融科技公司的数据分析师。每天，你需要从上百份银行对账单和年度财报PDF中提取关键财务数据，并录入数据库。手动操作不仅速度慢，还极易出错。

使用Docling，你可以快速自动化这一流程。以下是一个简单的开发示例，展示如何用几行代码解析一个银行对账单PDF并提取所有表格数据：

from docling import DocumentParser

# 初始化解析器
parser = DocumentParser()

# 加载并解析PDF文档
doc = parser.parse(‘bank_statement.pdf’)

# 提取文档中的所有表格
tables = doc.tables

for i, table in enumerate(tables):
    # 将表格转换为易于处理的Pandas DataFrame
    df = table.as_dataframe()
    print(f"Table {i+1}:")
    print(df)
    # 这里可以将df存入数据库或进行进一步分析

这个简单的脚本立刻能将非结构化的PDF文档转化为清晰、可操作的结构化数据，极大提升了数据处理的效率和准确性。

Docling v2.46.0版本更新内容

该版本引入了全新的代码公式识别模型，提升了对文档中嵌入代码或公式的解析能力。它修复了HTML解析中footer标签的处理问题，将其正确归类。在性能上，通过升级底层库并默认不再输出解析页面来清理资源占用，同时优化了页面方向判断函数的执行速度，从而整体提升了处理效率。

更新日志

Feature¶

新增代码公式模型 (#2042) (d2494da)

Fix¶

HTML: 在家具内容层中将 footer 标签解析为一个组 (#2106) (c5f2e2f)

Performance¶

通过升级 docling-parse 至 v4 版本清理资源，默认不再输出 parsed_page (#2105) (5f57ff2)
加速函数 _parse_orientation 的执行 (#1934) (8820b55)

版本更新总结

本次更新主要带来了代码公式识别的新功能，修复了HTML解析的细节问题，并从资源清理和函数优化两方面显著提升了库的运行性能。