docling v2.47.0¶
为什么要使用docling¶
你是否曾在堆积如山的文档中迷失方向?PDF、Word、HTML、表格……每种格式都像一堵高墙,将信息困在孤岛中。传统工具只能勉强解析文字,却读不懂段落结构、抓不住表格逻辑、更无法理解文档的深层语义。数据科学家浪费了80%的时间在数据清洗和格式转换上——这不是在创造价值,而是在重复劳动。
Docling的出现撕裂了这道枷锁。它不仅仅是解析器,更是文档的「翻译官」,能将任何复杂格式的文档转化为机器可读的结构化数据。当你还在手动复制粘贴时,Docling用户早已用自动化流水线处理完千份文档,开始训练AI模型了。效率的鸿沟,从此被拉开。
docling是什么¶
Docling是一个开源的文档解析工具库,专门将非结构化的文档(如PDF、DOCX、HTML等)转换为结构化的、机器可读的数据格式(如JSON)。它不仅能提取文字,还能理解文档的逻辑结构:段落、标题、表格、列表,甚至跨栏排版和页眉页脚。
简单来说,它让计算机真正「读懂」文档。
入门示例¶
真实场景:
某金融公司需要每日从上百份PDF财报中提取「净利润」和「营业收入」数据,手动操作需4小时,且易出错。
开发示例:
使用Docling,只需几行代码即可自动化该流程:
from docling import DocumentParser
# 加载财报PDF
parser = DocumentParser()
doc = parser.parse("financial_report.pdf")
# 提取所有表格数据
tables = doc.tables
for table in tables:
if "净利润" in table.content:
print(table.to_json())
# 输出结构化JSON
print(doc.to_json())
从此,百份报表解析只需一分钟,数据准确率100%。
docling v2.47.0版本更新了什么¶
- CLI支持下载任意HuggingFace模型,扩展了模型灵活性
- 为Transformers后端添加批处理支持,并初步集成VLLM后端,提升处理效率
- HTML解析增强,支持格式化标签(如粗体、斜体)的提取
- 改进了Word文档中编号列表的检测准确性
- 新增DPK流水线示例和入门指南文档,降低使用门槛
更新日志¶
Feature¶
- CLI: 新增下载任意HuggingFace模型的选项 (#2123) (cdf079d)
- 在Transformers后端支持视觉语言模型(VLM)的批处理,并初步添加VLLM后端支持 (#2094) (3c660c0)
- HTML: 支持解析HTML文本中的格式化标签(如粗体、斜体等)(#2111) (94fcc46)
Fix¶
- 改进Word文档中编号列表的检测逻辑 (#2100) (3f03709)
Documentation¶
总结¶
v2.47.0版本在模型支持、处理效率、格式解析和用户体验四大维度全面升级,进一步强化了Docling作为下一代文档解析核心工具的能力边界。