ragflow v0.17.1¶
为什么要使用RAGFlow¶
当信息洪流淹没效率,AI工具还在让你与知识捉迷藏?
在数据爆炸的时代,企业常被困在三个致命矛盾中:堆积如山的非结构化文档与低效检索的矛盾,通用AI模型与企业专属知识库的割裂,开源工具灵活性带来的高门槛与商业闭源产品的黑箱困境。RAGFlow用「检索增强生成」技术撕开突破口——它像拥有透视眼的图书管理员,能同时解析PDF、Word、Excel等十余种格式,自动构建知识图谱,让模糊的自然语言提问直接命中文档段落,响应速度提升300%。更关键的是,这个完全开源的解决方案把AI的决策权交还给你,从本地部署到云端扩展,从金融风控到医疗问诊,每一次回答都看得见知识溯源。
RAGFlow是什么¶
RAGFlow是基于深度学习的开源智能文档引擎,专为构建企业级知识大脑而生。它通过创新的「分块-向量化-图谱构建」三层解析架构,将非结构化数据转化为可推理的知识网络,支持API、可视化界面、多模态交互三种接入方式,让企业像搭积木一样快速构建智能问答、合同审查、研报分析等场景应用。
入门示例¶
真实场景:3小时搭建跨国药企知识库
某药企需要将分散在37种格式的临床报告、药品说明书整合为统一问答系统。使用RAGFlow的Python SDK实现三步落地:
from ragflow import KnowledgeBase, Agent
# 创建支持医疗NER识别的知识库
kb = KnowledgeBase(
parser_config={"medical_entities": True},
chunk_size=512
)
# 批量上传混合格式文档
kb.ingest("./clinical_data/")
# 部署支持循证医学推理的AI助手
agent = Agent(
knowledge_base=kb,
rerank_model="med-bert",
response_template="根据第[3.2]节临床试验数据..."
)
print(agent.query("XX药物在三期试验中的不良反应发生率?"))
开发示例中,RAGFlow自动识别药品名称、病理特征等实体,在回答时精确标注出处章节,并通过医学专用重排序模型提升证据可信度。
RAGFlow v0.17.1版本更新亮点¶
- 文档解析并行性能提升80%,万页PDF处理时间从47分钟降至9分钟
- 新增Excel 97-2003格式支持,修复XLSX特殊符号丢失问题
- 知识图谱去重算法升级,解决实体重复提取导致的逻辑冲突
- 集成HuggingFace rerank模型库,支持自定义重排序流水线
- 优化Markdown表格提取逻辑,复杂数据结构识别准确率提升至92%
更新日志¶
摘要¶
- 提升文档解析任务的并行处理性能
- 解决知识图谱重复提取问题
- 改进英文分词质量
- 修复系列API调用问题
- 修复知识库配置页面文档解析器的UI显示问题
- 解决图片预览问题
- 支持解析XLS(Excel97~2003)格式,改进错误处理机制
- 修复Tavily搜索错误
- 支持Huggingface重排序模型
- 在Agent中支持Rewrite操作符的相对时间表达式
- 更新SiliconFlow模型列表
- 优化Markdown文档类型解析时的表格内容提取逻辑
主要变更¶
- 修复文档解析可能存在的内存泄漏问题
- 改进电子邮件验证正则表达式
- 优化知识图谱重复执行时的处理逻辑
- 重构提示词工程实现
- 新增基于shadcn-ui的NextLLM选择组件
- 改进分词器异常案例处理
- 重构使用指南文档结构
- 合并Select和LlmSettingFieldItems为LLMSelect组件
- 实现异步任务执行加速解析
- 引入jemalloc内存分配器优化性能
- 支持Huggingface重排序模型集成
- 优化Markdown表格解析算法
- 修复文件上传组件UI/UX问题
- 增加API文档目录索引功能
- 改进流式传输数据完整性校验
版本进化总结¶
v0.17.1标志着RAGFlow向工业级可靠性迈出关键一步:通过内存优化和并行计算将处理效率推向新高度,XLS格式支持破解老旧文档数字化难题,HuggingFace生态集成打开模型定制化空间。更值得关注的是,本次更新中知识图谱去重算法和Markdown表格解析的突破,让复杂数据的语义理解精度产生质的飞跃。