docling v2.50.0¶
为什么要使用docling¶
在信息爆炸的时代,我们每天被各种文档格式淹没:PDF报告、Word合同、Excel表格、扫描图像……这些杂乱无章的非结构化数据就像一座座孤岛,阻碍着知识的流动和效率的爆发。传统处理方式如同徒手拆解迷宫——耗时、易错且难以规模化。这正是docling诞生的理由:它不仅是工具,更是通往文档智能化的革命性钥匙。它将人类从繁琐的格式解析中解放出来,直接瞄准数据核心,让机器真正“读懂”文档。拒绝被格式绑架,拥抱结构化自由——这就是你必须使用docling的矛盾与魅力所在。
docling是什么¶
Docling是一个开源Python库,专门将各类文档(如PDF、Word、Excel等)转换为结构化数据。它通过智能解析技术提取文本、表格、图像等内容,并生成易于处理的JSON格式,让非结构化文档变得机器可读、可分析。
入门示例¶
真实场景:某财务团队需要每日处理上百份供应商发票PDF,手动录入系统耗时且易出错。
开发示例:使用docling快速提取发票关键信息并自动化财务流程。
import docling
# 加载发票PDF
converter = docling.DocumentConverter()
result = converter.convert("invoice.pdf")
# 提取结构化数据
print(result.document.export_to_json()) # 输出包含发票号、金额、日期的JSON
docling v2.50.0版本更新内容¶
- 将Heron布局模型设为新的默认解析引擎,提升文档结构识别精度。
- 修复HTML模块中变量未声明导致的访问错误,增强稳定性。
- 优化了代码合并流程(通过Pull Request #1971和#2171实现)。
- 更新依赖兼容性,适配更广泛的文档处理场景。
更新日志¶
Feature¶
- 将Heron布局模型设为新的默认配置(#1971)(e38aa0f)
Fix¶
- html: 修复访问未声明变量的问题(#2171)(293e81b)
总结¶
本次更新主要引入了更高效的Heron布局模型作为默认引擎,并修复了HTML解析中的变量声明缺陷,进一步提升了文档处理的准确性和稳定性。