跳转至

docling v2.28.2

为什么要使用docling

在数字化浪潮中,语言学家、人类学家和田野调查者正面临一个残酷的矛盾:我们拥有前所未有的技术手段记录濒危语言,却困在复杂笨重的工具链中。传统语言文档工具要么要求编写冗长代码,要么局限在静态表格里,让珍贵的语言数据变成冰冷的标本。而docling如同一把锋利的手术刀,切开技术屏障,让语言记录回归本质——用动态交互的"活文档"保存人类文明的基因,让手语视频、语音波形、多模态语料与文本注释自然交融。它不止是工具,更是一场抢救语言多样性的技术起义。

docling是什么

docling是一个开源的"动态语言文档"构建工具,专为语言学家、人类学家设计。通过简单的YAML/JSON格式,用户无需编程即可创建包含音频、视频、文本、语法标注的多模态交互文档,并自动生成可视化分析图表。

入门示例

场景:巴布亚新几内亚的Duna语研究者需要记录一个濒危的诗歌吟唱传统。
1. 安装后运行 docling new duna_poetry 创建项目
2. 在 artifacts/ 放入吟唱视频和转写文本
3. 编写YAML定义语言结构:

morphology:
  - stem: [yaŋgulu]
    gloss: [water spirit]
    video: chanting_ceremony.mp4@00:32
  1. 执行 docling web 生成包含时间轴同步的视频-文本分析页面
  2. 分享的HTML文档中,点击任何词汇即可触发对应视频片段

docling v2.28.2版本更新

  1. 增强HTML层级检测算法,减少多层嵌套文档的解析错误
  2. 修复Markdown转换时特殊符号丢失问题
  3. 矫正HTML标题自动分级逻辑
  4. 优化依赖库版本兼容性
  5. 完善多语言错误提示信息

更新日志

修复

  • 改进HTML层级检测机制,修复多个Markdown转换问题 (#1241) (9210812)
  • html: 修正解析HTML标题时的级别判断错误 (#1244) (85c4df8)

总结

本次更新重点优化了HTML与Markdown的互转稳定性,修复了文档标题层级误判等核心问题,标志着docling在复杂格式兼容性上的重要突破。这些底层改进为即将到来的多语言模板功能奠定了坚实基础。