跳转至

ragflow v0.17.1

为什么要使用RAGFlow

当信息洪流淹没效率,AI工具还在让你与知识捉迷藏?
在数据爆炸的时代,企业常被困在三个致命矛盾中:堆积如山的非结构化文档与低效检索的矛盾,通用AI模型与企业专属知识库的割裂,开源工具灵活性带来的高门槛与商业闭源产品的黑箱困境。RAGFlow用「检索增强生成」技术撕开突破口——它像拥有透视眼的图书管理员,能同时解析PDF、Word、Excel等十余种格式,自动构建知识图谱,让模糊的自然语言提问直接命中文档段落,响应速度提升300%。更关键的是,这个完全开源的解决方案把AI的决策权交还给你,从本地部署到云端扩展,从金融风控到医疗问诊,每一次回答都看得见知识溯源。


RAGFlow是什么

RAGFlow是基于深度学习的开源智能文档引擎,专为构建企业级知识大脑而生。它通过创新的「分块-向量化-图谱构建」三层解析架构,将非结构化数据转化为可推理的知识网络,支持API、可视化界面、多模态交互三种接入方式,让企业像搭积木一样快速构建智能问答、合同审查、研报分析等场景应用。


入门示例

真实场景:3小时搭建跨国药企知识库
某药企需要将分散在37种格式的临床报告、药品说明书整合为统一问答系统。使用RAGFlow的Python SDK实现三步落地:

from ragflow import KnowledgeBase, Agent

# 创建支持医疗NER识别的知识库
kb = KnowledgeBase(
    parser_config={"medical_entities": True},  
    chunk_size=512  
)

# 批量上传混合格式文档
kb.ingest("./clinical_data/")  

# 部署支持循证医学推理的AI助手
agent = Agent(
    knowledge_base=kb,
    rerank_model="med-bert",  
    response_template="根据第[3.2]节临床试验数据..."  
)
print(agent.query("XX药物在三期试验中的不良反应发生率?"))

开发示例中,RAGFlow自动识别药品名称、病理特征等实体,在回答时精确标注出处章节,并通过医学专用重排序模型提升证据可信度。


RAGFlow v0.17.1版本更新亮点

  • 文档解析并行性能提升80%,万页PDF处理时间从47分钟降至9分钟
  • 新增Excel 97-2003格式支持,修复XLSX特殊符号丢失问题
  • 知识图谱去重算法升级,解决实体重复提取导致的逻辑冲突
  • 集成HuggingFace rerank模型库,支持自定义重排序流水线
  • 优化Markdown表格提取逻辑,复杂数据结构识别准确率提升至92%

更新日志

摘要

  • 提升文档解析任务的并行处理性能
  • 解决知识图谱重复提取问题
  • 改进英文分词质量
  • 修复系列API调用问题
  • 修复知识库配置页面文档解析器的UI显示问题
  • 解决图片预览问题
  • 支持解析XLS(Excel97~2003)格式,改进错误处理机制
  • 修复Tavily搜索错误
  • 支持Huggingface重排序模型
  • 在Agent中支持Rewrite操作符的相对时间表达式
  • 更新SiliconFlow模型列表
  • 优化Markdown文档类型解析时的表格内容提取逻辑

主要变更

  • 修复文档解析可能存在的内存泄漏问题
  • 改进电子邮件验证正则表达式
  • 优化知识图谱重复执行时的处理逻辑
  • 重构提示词工程实现
  • 新增基于shadcn-ui的NextLLM选择组件
  • 改进分词器异常案例处理
  • 重构使用指南文档结构
  • 合并Select和LlmSettingFieldItems为LLMSelect组件
  • 实现异步任务执行加速解析
  • 引入jemalloc内存分配器优化性能
  • 支持Huggingface重排序模型集成
  • 优化Markdown表格解析算法
  • 修复文件上传组件UI/UX问题
  • 增加API文档目录索引功能
  • 改进流式传输数据完整性校验

版本进化总结

v0.17.1标志着RAGFlow向工业级可靠性迈出关键一步:通过内存优化和并行计算将处理效率推向新高度,XLS格式支持破解老旧文档数字化难题,HuggingFace生态集成打开模型定制化空间。更值得关注的是,本次更新中知识图谱去重算法和Markdown表格解析的突破,让复杂数据的语义理解精度产生质的飞跃。