docling v2.47.0¶

为什么要使用docling¶

你是否曾在堆积如山的文档中迷失方向？PDF、Word、HTML、表格……每种格式都像一堵高墙，将信息困在孤岛中。传统工具只能勉强解析文字，却读不懂段落结构、抓不住表格逻辑、更无法理解文档的深层语义。数据科学家浪费了80%的时间在数据清洗和格式转换上——这不是在创造价值，而是在重复劳动。

Docling的出现撕裂了这道枷锁。它不仅仅是解析器，更是文档的「翻译官」，能将任何复杂格式的文档转化为机器可读的结构化数据。当你还在手动复制粘贴时，Docling用户早已用自动化流水线处理完千份文档，开始训练AI模型了。效率的鸿沟，从此被拉开。

docling是什么¶

Docling是一个开源的文档解析工具库，专门将非结构化的文档（如PDF、DOCX、HTML等）转换为结构化的、机器可读的数据格式（如JSON）。它不仅能提取文字，还能理解文档的逻辑结构：段落、标题、表格、列表，甚至跨栏排版和页眉页脚。

简单来说，它让计算机真正「读懂」文档。

入门示例¶

真实场景：
某金融公司需要每日从上百份PDF财报中提取「净利润」和「营业收入」数据，手动操作需4小时，且易出错。

开发示例：
使用Docling，只需几行代码即可自动化该流程：

from docling import DocumentParser

# 加载财报PDF
parser = DocumentParser()
doc = parser.parse("financial_report.pdf")

# 提取所有表格数据
tables = doc.tables
for table in tables:
    if "净利润" in table.content:
        print(table.to_json())

# 输出结构化JSON
print(doc.to_json())

从此，百份报表解析只需一分钟，数据准确率100%。

docling v2.47.0版本更新了什么¶

CLI支持下载任意HuggingFace模型，扩展了模型灵活性
为Transformers后端添加批处理支持，并初步集成VLLM后端，提升处理效率
HTML解析增强，支持格式化标签（如粗体、斜体）的提取
改进了Word文档中编号列表的检测准确性
新增DPK流水线示例和入门指南文档，降低使用门槛

更新日志¶

Feature¶

CLI: 新增下载任意HuggingFace模型的选项 (#2123) (cdf079d)
在Transformers后端支持视觉语言模型（VLM）的批处理，并初步添加VLLM后端支持 (#2094) (3c660c0)
HTML: 支持解析HTML文本中的格式化标签（如粗体、斜体等）(#2111) (94fcc46)

Fix¶

改进Word文档中编号列表的检测逻辑 (#2100) (3f03709)

Documentation¶

新增使用Docling库的DPK流水线示例 (#2112) (e76298c)
添加「快速入门」页面 (#2113) (8996d61)

总结¶

v2.47.0版本在模型支持、处理效率、格式解析和用户体验四大维度全面升级，进一步强化了Docling作为下一代文档解析核心工具的能力边界。