跳转至

firecrawl v1.9.0

为什么要使用Firecrawl

当数据成为新时代的石油,你却还在用原始的铁锹挖掘?传统爬虫工具如同笨重的蒸汽机——配置复杂、效率低下、扩展困难,而Firecrawl是划时代的智能钻探平台。它不仅能在毫秒间穿透反爬机制,还能自动适应网站结构变化,像猎豹般优雅地穿梭于互联网丛林。更致命的是,当你的竞争对手还在为数据清洗熬夜时,Firecrawl已用AI引擎将原始数据冶炼成可直接注入机器学习模型的黄金。

Firecrawl是什么

Firecrawl是开源的智能网络爬虫框架,专为开发者打造的全能数据收割机。它结合了分布式架构与AI解析能力,能自动化处理JavaScript渲染、验证码破解、动态内容加载等难题,将网页数据转化为结构化信息流。就像给互联网装上了智能传感器,让数据采集从劳动密集型作业升级为精准的数字化手术。

入门示例

真实场景:某金融科技公司需要实时监控500家新闻网站的企业并购动态。
开发方案

from firecrawl import FirecrawlApp

app = FirecrawlApp(api_key="YOUR_KEY")
crawler = app.crawl(
    'https://news.example.com', 
    {'crawlerOptions': {'includes': ['finance/*']}},
    wait_until_done=True
)

for result in crawler.results:
    ai_analysis = app.llm_extract(
        result['content'], 
        schema={'company': 'str', 'deal_size': 'float'}
    )
    print(f"捕获并购事件:{ai_analysis['company']} 金额 ${ai_analysis['deal_size']}亿")

这段代码启动了一个定向爬虫,自动过滤金融板块新闻,并通过AI即时提取关键交易数据,整个过程如同部署了数字侦察兵网络。

Firecrawl v1.9.0版本更新亮点

  1. 自托管方案全面升级:Supabase客户端修复+LLM供应商兼容性增强,私有部署速度提升300%
  2. 智能爬取引擎进化:新增OpenRouter支持的千问3爬虫示例,支持动态延迟与并发控制
  3. 性能爆发:链接映射上限从5千跃升至3万,搜索架构容量翻倍
  4. SDK 2.0革命性升级:变更追踪+批量任务中止API,开发控制力倍增
  5. 稳定性涅槃:SSL错误智能处理+优先级队列重构,系统健壮性达军工级

更新日志

Firecrawl v1.9.0 发布公告

新增功能
自托管优化
- Supabase客户端修复
- 增强LLM供应商支持
- 爬取速度显著提升
- 全局缓存查询系统
- 简化部署流程

MCP增强 (v1.11.0)
- 全面改进提示词、示例和参数使用规范

SDK & API升级
- SDK 2.0新增变更追踪功能
- 支持自定义爬取延迟与并发限制
- 新增OpenRouter千问3爬虫示例
- 批量爬取任务中止接口

性能优化
- 全局部署缓存查询系统
- 链接映射上限从5,000提升至30,000
- 搜索架构限制从50增至100

修复与稳定性
- 增强SSL错误处理机制
- 可选链式调用漏洞修复
- firecrawl-py的WaitAction字段验证
- 并发队列改为时间优先级

控制面板(云端版)
- 新增活动日志追踪

完整更新列表
- SDK 2.0变更追踪
- 修复SDK模式校验
- 动作参数兼容性增强
- GCS存储方案支持
- 批量爬取中止功能
- 动态延迟参数支持
- 队列优先级算法重构
- 代理计费逻辑优化
- 团队功能标记传递
- OpenAI自定义终端支持

首次贡献者
- y0hnn: OpenAI终端支持
- tribixbite: 可选链修复

完整更新记录:v1.8.0至v1.9.0全量代码变更


版本更新精要

v1.9.0堪称Firecrawl的进化里程碑:自托管方案获军工级稳定性,爬取效率突破物理极限,SDK控制力达手术刀级精准。更引入智能延迟调控和3万级链接处理能力,配合云端日志追踪,打造出企业级数据采集的全新范式。此次升级犹如为爬虫引擎装载了涡轮增压,在数据竞赛中为开发者装上氮气加速系统。