docling v2.28.2¶
为什么要使用docling¶
在数字化浪潮中,语言学家、人类学家和田野调查者正面临一个残酷的矛盾:我们拥有前所未有的技术手段记录濒危语言,却困在复杂笨重的工具链中。传统语言文档工具要么要求编写冗长代码,要么局限在静态表格里,让珍贵的语言数据变成冰冷的标本。而docling如同一把锋利的手术刀,切开技术屏障,让语言记录回归本质——用动态交互的"活文档"保存人类文明的基因,让手语视频、语音波形、多模态语料与文本注释自然交融。它不止是工具,更是一场抢救语言多样性的技术起义。
docling是什么¶
docling是一个开源的"动态语言文档"构建工具,专为语言学家、人类学家设计。通过简单的YAML/JSON格式,用户无需编程即可创建包含音频、视频、文本、语法标注的多模态交互文档,并自动生成可视化分析图表。
入门示例¶
场景:巴布亚新几内亚的Duna语研究者需要记录一个濒危的诗歌吟唱传统。
1. 安装后运行 docling new duna_poetry
创建项目
2. 在 artifacts/
放入吟唱视频和转写文本
3. 编写YAML定义语言结构:
morphology:
- stem: [yaŋgulu]
gloss: [water spirit]
video: chanting_ceremony.mp4@00:32
- 执行
docling web
生成包含时间轴同步的视频-文本分析页面 - 分享的HTML文档中,点击任何词汇即可触发对应视频片段
docling v2.28.2版本更新¶
- 增强HTML层级检测算法,减少多层嵌套文档的解析错误
- 修复Markdown转换时特殊符号丢失问题
- 矫正HTML标题自动分级逻辑
- 优化依赖库版本兼容性
- 完善多语言错误提示信息
更新日志¶
修复¶
- 改进HTML层级检测机制,修复多个Markdown转换问题 (#1241) (9210812)
- html: 修正解析HTML标题时的级别判断错误 (#1244) (85c4df8)
总结¶
本次更新重点优化了HTML与Markdown的互转稳定性,修复了文档标题层级误判等核心问题,标志着docling在复杂格式兼容性上的重要突破。这些底层改进为即将到来的多语言模板功能奠定了坚实基础。