docling v2.64.0¶
为什么要使用Docling¶
你是否曾在堆积如山的PDF、Word和Excel文件中迷失,像个数字考古学家一样,徒手挖掘那些被深埋在混乱格式下的关键信息?每一天,无数的报告、合同和表格在吞噬着我们的时间与耐心。这就是现代知识工作的核心矛盾:我们拥有前所未有的数据,却深陷于结构化信息的贫瘠沙漠之中。
Docling,正是为终结这种困境而生。它不是一个简单的文件转换器,而是一位智能的文档“解构师”。当你的团队还在手动复制粘贴表格、为扫描件中的模糊文字头疼、或是纠结于不同文档中矛盾的数据时,Docling已经在后台,将这一切杂乱无章的非结构化数据,悄然转化为清晰、准确、随时可用的结构化宝藏。使用它,不是为了跟上潮流,而是为了在信息洪流中,抢先一步掌控真正的价值,将人力从枯燥繁琐的重复劳动中彻底解放出来。
Docling是什么¶
简单来说,Docling是一个强大的Python工具包。它能理解你的各种文档——无论是PDF、Word、Excel、PPT还是图片——并精准地从中提取出文本、表格、图片等结构化内容,为你后续的分析、存储或处理铺平道路。
入门示例¶
想象一下,你是一家投资公司的分析师,每天需要从上百家上市公司发布的PDF版财务报告中,快速提取利润表数据。手动操作不仅缓慢,还极易出错。
有了Docling,你可以轻松自动化这一过程。以下是一个开发示例,展示如何从一份PDF财报中提取所有表格:
from docling.document import Document
# 加载你的财务报告PDF
doc = Document("annual_report_2023.pdf")
doc.parse()
# 访问提取出的所有表格
for table in doc.tables:
# 将表格转换为易于处理的Pandas DataFrame
df = table.as_dataframe()
print(f"找到表格,形状为:{df.shape}")
# 接下来,你可以将df存入数据库,或进行进一步分析
# 例如,自动识别并提取利润表
if "Revenue" in df.to_string():
process_income_statement(df)
这个简单的脚本,就能替代数小时的人工翻阅和复制粘贴工作,让你能立即聚焦于真正的数据分析。
Docling v2.64.0版本更新了什么¶
本次更新主要围绕布局与表格模型的功能增强和问题修复。它引入了布局与表格模型的工厂模式和插件化能力,为高级定制打开了大门。同时,实验性地增加了新的表格布局模型。在修复方面,解决了图片处理管道、Excel单例单元格识别以及Word文档列表项丢失等多个具体问题。文档也同步更新,补充了关于使用外部OCR和GPU性能的示例。
更新日志¶
新功能¶
- 实验性功能: 新增实验性的 TableCropsLayoutModel (#2669) (1344362)
- 为布局(Layout)和表格(Table)模型添加了工厂模式和插件能力 (#2637) (ad97e52)
修复¶
- 确保 InputFormat.IMAGE 使用正确的处理管道 (#2707) (6ef4ffd)
- 不再将 Excel 文件中的单例单元格识别为表格项,而是归类为文本项 (#2589) (54cd6d7)
- docx: 修复了编号标题后列表项丢失的问题 (#2665) (e580554)
文档¶
- 新增关于如何应用外部 OCR 进行后处理的示例 (#2517) (fa21128)
- 在示例文档中增加了更多 GPU 运行结果和改进说明 (#2674) (b75c646)
- 修正了 jobkit 页面上的拼写错误 (#2671) (146b4f0)
总结¶
总而言之,v2.64.0 版本是一次以增强系统扩展性和解决实际痛点为核心的稳步迭代。它通过架构优化为开发者提供了更多自定义空间,并切实修复了若干影响用户体验的具体问题,同时持续完善帮助文档以辅助用户更好地使用工具。