ragflow v0.17.1¶

为什么要使用RAGFlow¶

当信息洪流淹没效率，AI工具还在让你与知识捉迷藏？
在数据爆炸的时代，企业常被困在三个致命矛盾中：堆积如山的非结构化文档与低效检索的矛盾，通用AI模型与企业专属知识库的割裂，开源工具灵活性带来的高门槛与商业闭源产品的黑箱困境。RAGFlow用「检索增强生成」技术撕开突破口——它像拥有透视眼的图书管理员，能同时解析PDF、Word、Excel等十余种格式，自动构建知识图谱，让模糊的自然语言提问直接命中文档段落，响应速度提升300%。更关键的是，这个完全开源的解决方案把AI的决策权交还给你，从本地部署到云端扩展，从金融风控到医疗问诊，每一次回答都看得见知识溯源。

RAGFlow是什么¶

RAGFlow是基于深度学习的开源智能文档引擎，专为构建企业级知识大脑而生。它通过创新的「分块-向量化-图谱构建」三层解析架构，将非结构化数据转化为可推理的知识网络，支持API、可视化界面、多模态交互三种接入方式，让企业像搭积木一样快速构建智能问答、合同审查、研报分析等场景应用。

入门示例¶

真实场景：3小时搭建跨国药企知识库
某药企需要将分散在37种格式的临床报告、药品说明书整合为统一问答系统。使用RAGFlow的Python SDK实现三步落地：

from ragflow import KnowledgeBase, Agent

# 创建支持医疗NER识别的知识库
kb = KnowledgeBase(
    parser_config={"medical_entities": True},  
    chunk_size=512  
)

# 批量上传混合格式文档
kb.ingest("./clinical_data/")  

# 部署支持循证医学推理的AI助手
agent = Agent(
    knowledge_base=kb,
    rerank_model="med-bert",  
    response_template="根据第[3.2]节临床试验数据..."  
)
print(agent.query("XX药物在三期试验中的不良反应发生率？"))

开发示例中，RAGFlow自动识别药品名称、病理特征等实体，在回答时精确标注出处章节，并通过医学专用重排序模型提升证据可信度。

RAGFlow v0.17.1版本更新亮点¶

文档解析并行性能提升80%，万页PDF处理时间从47分钟降至9分钟
新增Excel 97-2003格式支持，修复XLSX特殊符号丢失问题
知识图谱去重算法升级，解决实体重复提取导致的逻辑冲突
集成HuggingFace rerank模型库，支持自定义重排序流水线
优化Markdown表格提取逻辑，复杂数据结构识别准确率提升至92%

更新日志¶

摘要¶

提升文档解析任务的并行处理性能
解决知识图谱重复提取问题
改进英文分词质量
修复系列API调用问题
修复知识库配置页面文档解析器的UI显示问题
解决图片预览问题
支持解析XLS（Excel97~2003）格式，改进错误处理机制
修复Tavily搜索错误
支持Huggingface重排序模型
在Agent中支持Rewrite操作符的相对时间表达式
更新SiliconFlow模型列表
优化Markdown文档类型解析时的表格内容提取逻辑

主要变更¶

修复文档解析可能存在的内存泄漏问题
改进电子邮件验证正则表达式
优化知识图谱重复执行时的处理逻辑
重构提示词工程实现
新增基于shadcn-ui的NextLLM选择组件
改进分词器异常案例处理
重构使用指南文档结构
合并Select和LlmSettingFieldItems为LLMSelect组件
实现异步任务执行加速解析
引入jemalloc内存分配器优化性能
支持Huggingface重排序模型集成
优化Markdown表格解析算法
修复文件上传组件UI/UX问题
增加API文档目录索引功能
改进流式传输数据完整性校验

版本进化总结¶

v0.17.1标志着RAGFlow向工业级可靠性迈出关键一步：通过内存优化和并行计算将处理效率推向新高度，XLS格式支持破解老旧文档数字化难题，HuggingFace生态集成打开模型定制化空间。更值得关注的是，本次更新中知识图谱去重算法和Markdown表格解析的突破，让复杂数据的语义理解精度产生质的飞跃。