docling v2.50.0¶

为什么要使用docling¶

在信息爆炸的时代，我们每天被各种文档格式淹没：PDF报告、Word合同、Excel表格、扫描图像……这些杂乱无章的非结构化数据就像一座座孤岛，阻碍着知识的流动和效率的爆发。传统处理方式如同徒手拆解迷宫——耗时、易错且难以规模化。这正是docling诞生的理由：它不仅是工具，更是通往文档智能化的革命性钥匙。它将人类从繁琐的格式解析中解放出来，直接瞄准数据核心，让机器真正“读懂”文档。拒绝被格式绑架，拥抱结构化自由——这就是你必须使用docling的矛盾与魅力所在。

docling是什么¶

Docling是一个开源Python库，专门将各类文档（如PDF、Word、Excel等）转换为结构化数据。它通过智能解析技术提取文本、表格、图像等内容，并生成易于处理的JSON格式，让非结构化文档变得机器可读、可分析。

入门示例¶

真实场景：某财务团队需要每日处理上百份供应商发票PDF，手动录入系统耗时且易出错。
开发示例：使用docling快速提取发票关键信息并自动化财务流程。

import docling

# 加载发票PDF
converter = docling.DocumentConverter()
result = converter.convert("invoice.pdf")

# 提取结构化数据
print(result.document.export_to_json())  # 输出包含发票号、金额、日期的JSON

docling v2.50.0版本更新内容¶

将Heron布局模型设为新的默认解析引擎，提升文档结构识别精度。
修复HTML模块中变量未声明导致的访问错误，增强稳定性。
优化了代码合并流程（通过Pull Request #1971和#2171实现）。
更新依赖兼容性，适配更广泛的文档处理场景。

更新日志¶

Feature¶

将Heron布局模型设为新的默认配置（#1971）（e38aa0f）

Fix¶

html: 修复访问未声明变量的问题（#2171）（293e81b）

总结¶

本次更新主要引入了更高效的Heron布局模型作为默认引擎，并修复了HTML解析中的变量声明缺陷，进一步提升了文档处理的准确性和稳定性。