docling v2.64.0¶

为什么要使用Docling¶

你是否曾在堆积如山的PDF、Word和Excel文件中迷失，像个数字考古学家一样，徒手挖掘那些被深埋在混乱格式下的关键信息？每一天，无数的报告、合同和表格在吞噬着我们的时间与耐心。这就是现代知识工作的核心矛盾：我们拥有前所未有的数据，却深陷于结构化信息的贫瘠沙漠之中。

Docling，正是为终结这种困境而生。它不是一个简单的文件转换器，而是一位智能的文档“解构师”。当你的团队还在手动复制粘贴表格、为扫描件中的模糊文字头疼、或是纠结于不同文档中矛盾的数据时，Docling已经在后台，将这一切杂乱无章的非结构化数据，悄然转化为清晰、准确、随时可用的结构化宝藏。使用它，不是为了跟上潮流，而是为了在信息洪流中，抢先一步掌控真正的价值，将人力从枯燥繁琐的重复劳动中彻底解放出来。

Docling是什么¶

简单来说，Docling是一个强大的Python工具包。它能理解你的各种文档——无论是PDF、Word、Excel、PPT还是图片——并精准地从中提取出文本、表格、图片等结构化内容，为你后续的分析、存储或处理铺平道路。

入门示例¶

想象一下，你是一家投资公司的分析师，每天需要从上百家上市公司发布的PDF版财务报告中，快速提取利润表数据。手动操作不仅缓慢，还极易出错。

有了Docling，你可以轻松自动化这一过程。以下是一个开发示例，展示如何从一份PDF财报中提取所有表格：

from docling.document import Document

# 加载你的财务报告PDF
doc = Document("annual_report_2023.pdf")
doc.parse()

# 访问提取出的所有表格
for table in doc.tables:
    # 将表格转换为易于处理的Pandas DataFrame
    df = table.as_dataframe()
    print(f"找到表格，形状为：{df.shape}")
    # 接下来，你可以将df存入数据库，或进行进一步分析
    # 例如，自动识别并提取利润表
    if "Revenue" in df.to_string():
        process_income_statement(df)

这个简单的脚本，就能替代数小时的人工翻阅和复制粘贴工作，让你能立即聚焦于真正的数据分析。

Docling v2.64.0版本更新了什么¶

本次更新主要围绕布局与表格模型的功能增强和问题修复。它引入了布局与表格模型的工厂模式和插件化能力，为高级定制打开了大门。同时，实验性地增加了新的表格布局模型。在修复方面，解决了图片处理管道、Excel单例单元格识别以及Word文档列表项丢失等多个具体问题。文档也同步更新，补充了关于使用外部OCR和GPU性能的示例。

更新日志¶

新功能¶

实验性功能： 新增实验性的 TableCropsLayoutModel (#2669) (1344362)
为布局（Layout）和表格（Table）模型添加了工厂模式和插件能力 (#2637) (ad97e52)

修复¶

确保 InputFormat.IMAGE 使用正确的处理管道 (#2707) (6ef4ffd)
不再将 Excel 文件中的单例单元格识别为表格项，而是归类为文本项 (#2589) (54cd6d7)
docx： 修复了编号标题后列表项丢失的问题 (#2665) (e580554)

文档¶

新增关于如何应用外部 OCR 进行后处理的示例 (#2517) (fa21128)
在示例文档中增加了更多 GPU 运行结果和改进说明 (#2674) (b75c646)
修正了 jobkit 页面上的拼写错误 (#2671) (146b4f0)

总结¶

总而言之，v2.64.0 版本是一次以增强系统扩展性和解决实际痛点为核心的稳步迭代。它通过架构优化为开发者提供了更多自定义空间，并切实修复了若干影响用户体验的具体问题，同时持续完善帮助文档以辅助用户更好地使用工具。