跳转至

docling v2.47.0

为什么要使用docling

你是否曾在堆积如山的文档中迷失方向?PDF、Word、HTML、表格……每种格式都像一堵高墙,将信息困在孤岛中。传统工具只能勉强解析文字,却读不懂段落结构、抓不住表格逻辑、更无法理解文档的深层语义。数据科学家浪费了80%的时间在数据清洗和格式转换上——这不是在创造价值,而是在重复劳动。

Docling的出现撕裂了这道枷锁。它不仅仅是解析器,更是文档的「翻译官」,能将任何复杂格式的文档转化为机器可读的结构化数据。当你还在手动复制粘贴时,Docling用户早已用自动化流水线处理完千份文档,开始训练AI模型了。效率的鸿沟,从此被拉开。


docling是什么

Docling是一个开源的文档解析工具库,专门将非结构化的文档(如PDF、DOCX、HTML等)转换为结构化的、机器可读的数据格式(如JSON)。它不仅能提取文字,还能理解文档的逻辑结构:段落、标题、表格、列表,甚至跨栏排版和页眉页脚。

简单来说,它让计算机真正「读懂」文档。


入门示例

真实场景
某金融公司需要每日从上百份PDF财报中提取「净利润」和「营业收入」数据,手动操作需4小时,且易出错。

开发示例
使用Docling,只需几行代码即可自动化该流程:

from docling import DocumentParser

# 加载财报PDF
parser = DocumentParser()
doc = parser.parse("financial_report.pdf")

# 提取所有表格数据
tables = doc.tables
for table in tables:
    if "净利润" in table.content:
        print(table.to_json())

# 输出结构化JSON
print(doc.to_json())

从此,百份报表解析只需一分钟,数据准确率100%。


docling v2.47.0版本更新了什么

  • CLI支持下载任意HuggingFace模型,扩展了模型灵活性
  • 为Transformers后端添加批处理支持,并初步集成VLLM后端,提升处理效率
  • HTML解析增强,支持格式化标签(如粗体、斜体)的提取
  • 改进了Word文档中编号列表的检测准确性
  • 新增DPK流水线示例和入门指南文档,降低使用门槛

更新日志

Feature

  • CLI: 新增下载任意HuggingFace模型的选项 (#2123) (cdf079d)
  • 在Transformers后端支持视觉语言模型(VLM)的批处理,并初步添加VLLM后端支持 (#2094) (3c660c0)
  • HTML: 支持解析HTML文本中的格式化标签(如粗体、斜体等)(#2111) (94fcc46)

Fix

  • 改进Word文档中编号列表的检测逻辑 (#2100) (3f03709)

Documentation

  • 新增使用Docling库的DPK流水线示例 (#2112) (e76298c)
  • 添加「快速入门」页面 (#2113) (8996d61)

总结

v2.47.0版本在模型支持、处理效率、格式解析和用户体验四大维度全面升级,进一步强化了Docling作为下一代文档解析核心工具的能力边界。