跳转至

docling v2.50.0

为什么要使用docling

在信息爆炸的时代,我们每天被各种文档格式淹没:PDF报告、Word合同、Excel表格、扫描图像……这些杂乱无章的非结构化数据就像一座座孤岛,阻碍着知识的流动和效率的爆发。传统处理方式如同徒手拆解迷宫——耗时、易错且难以规模化。这正是docling诞生的理由:它不仅是工具,更是通往文档智能化的革命性钥匙。它将人类从繁琐的格式解析中解放出来,直接瞄准数据核心,让机器真正“读懂”文档。拒绝被格式绑架,拥抱结构化自由——这就是你必须使用docling的矛盾与魅力所在。

docling是什么

Docling是一个开源Python库,专门将各类文档(如PDF、Word、Excel等)转换为结构化数据。它通过智能解析技术提取文本、表格、图像等内容,并生成易于处理的JSON格式,让非结构化文档变得机器可读、可分析。

入门示例

真实场景:某财务团队需要每日处理上百份供应商发票PDF,手动录入系统耗时且易出错。
开发示例:使用docling快速提取发票关键信息并自动化财务流程。

import docling

# 加载发票PDF
converter = docling.DocumentConverter()
result = converter.convert("invoice.pdf")

# 提取结构化数据
print(result.document.export_to_json())  # 输出包含发票号、金额、日期的JSON

docling v2.50.0版本更新内容

  1. 将Heron布局模型设为新的默认解析引擎,提升文档结构识别精度。
  2. 修复HTML模块中变量未声明导致的访问错误,增强稳定性。
  3. 优化了代码合并流程(通过Pull Request #1971和#2171实现)。
  4. 更新依赖兼容性,适配更广泛的文档处理场景。

更新日志

Feature

  • 将Heron布局模型设为新的默认配置(#1971)(e38aa0f)

Fix

  • html: 修复访问未声明变量的问题(#2171)(293e81b)

总结

本次更新主要引入了更高效的Heron布局模型作为默认引擎,并修复了HTML解析中的变量声明缺陷,进一步提升了文档处理的准确性和稳定性。