docling v2.46.0¶
为什么要使用 Docling
你是否曾在堆积如山的合同、报告或研究论文中浪费数小时,只为了寻找一个关键数据?是否曾在混乱的PDF表格和杂乱无章的扫描文档中感到寸步难行?我们正处在一个“文档过载”的时代——信息唾手可得,但真正的洞察却深埋于令人头痛的非结构化数据之中。
传统的手动处理不仅效率低下,更是创新和决策的隐形杀手。而Docling的出现,正是为了终结这种矛盾:它不只是另一个文档工具,而是将混沌转化为清晰智能数据的革命性答案,让你从繁琐的文档苦役中彻底解放。
Docling是什么
Docling 是一个强大的文档解析库,能够将各种格式的文档(如PDF、Word等)转换为结构化的、机器可读的数据。它旨在理解文档的布局和内容,高效地提取文本、表格、图像等元素,让开发者可以轻松地将文档内容集成到数据分析、机器学习或其他自动化流程中。
入门示例
想象一下,你是一家金融科技公司的数据分析师。每天,你需要从上百份银行对账单和年度财报PDF中提取关键财务数据,并录入数据库。手动操作不仅速度慢,还极易出错。
使用Docling,你可以快速自动化这一流程。以下是一个简单的开发示例,展示如何用几行代码解析一个银行对账单PDF并提取所有表格数据:
from docling import DocumentParser
# 初始化解析器
parser = DocumentParser()
# 加载并解析PDF文档
doc = parser.parse(‘bank_statement.pdf’)
# 提取文档中的所有表格
tables = doc.tables
for i, table in enumerate(tables):
# 将表格转换为易于处理的Pandas DataFrame
df = table.as_dataframe()
print(f"Table {i+1}:")
print(df)
# 这里可以将df存入数据库或进行进一步分析
这个简单的脚本立刻能将非结构化的PDF文档转化为清晰、可操作的结构化数据,极大提升了数据处理的效率和准确性。
Docling v2.46.0版本更新内容
该版本引入了全新的代码公式识别模型,提升了对文档中嵌入代码或公式的解析能力。它修复了HTML解析中footer标签的处理问题,将其正确归类。在性能上,通过升级底层库并默认不再输出解析页面来清理资源占用,同时优化了页面方向判断函数的执行速度,从而整体提升了处理效率。
更新日志
Feature¶
- 新增代码公式模型 (#2042) (d2494da)
Fix¶
- HTML: 在家具内容层中将 footer 标签解析为一个组 (#2106) (c5f2e2f)
Performance¶
- 通过升级 docling-parse 至 v4 版本清理资源,默认不再输出 parsed_page (#2105) (5f57ff2)
- 加速函数
_parse_orientation的执行 (#1934) (8820b55)
版本更新总结
本次更新主要带来了代码公式识别的新功能,修复了HTML解析的细节问题,并从资源清理和函数优化两方面显著提升了库的运行性能。