firecrawl v1.9.0¶

为什么要使用Firecrawl¶

当数据成为新时代的石油，你却还在用原始的铁锹挖掘？传统爬虫工具如同笨重的蒸汽机——配置复杂、效率低下、扩展困难，而Firecrawl是划时代的智能钻探平台。它不仅能在毫秒间穿透反爬机制，还能自动适应网站结构变化，像猎豹般优雅地穿梭于互联网丛林。更致命的是，当你的竞争对手还在为数据清洗熬夜时，Firecrawl已用AI引擎将原始数据冶炼成可直接注入机器学习模型的黄金。

Firecrawl是什么¶

Firecrawl是开源的智能网络爬虫框架，专为开发者打造的全能数据收割机。它结合了分布式架构与AI解析能力，能自动化处理JavaScript渲染、验证码破解、动态内容加载等难题，将网页数据转化为结构化信息流。就像给互联网装上了智能传感器，让数据采集从劳动密集型作业升级为精准的数字化手术。

入门示例¶

真实场景：某金融科技公司需要实时监控500家新闻网站的企业并购动态。
开发方案：

from firecrawl import FirecrawlApp

app = FirecrawlApp(api_key="YOUR_KEY")
crawler = app.crawl(
    'https://news.example.com', 
    {'crawlerOptions': {'includes': ['finance/*']}},
    wait_until_done=True
)

for result in crawler.results:
    ai_analysis = app.llm_extract(
        result['content'], 
        schema={'company': 'str', 'deal_size': 'float'}
    )
    print(f"捕获并购事件：{ai_analysis['company']} 金额 ${ai_analysis['deal_size']}亿")

这段代码启动了一个定向爬虫，自动过滤金融板块新闻，并通过AI即时提取关键交易数据，整个过程如同部署了数字侦察兵网络。

Firecrawl v1.9.0版本更新亮点¶

自托管方案全面升级：Supabase客户端修复+LLM供应商兼容性增强，私有部署速度提升300%
智能爬取引擎进化：新增OpenRouter支持的千问3爬虫示例，支持动态延迟与并发控制
性能爆发：链接映射上限从5千跃升至3万，搜索架构容量翻倍
SDK 2.0革命性升级：变更追踪+批量任务中止API，开发控制力倍增
稳定性涅槃：SSL错误智能处理+优先级队列重构，系统健壮性达军工级

更新日志¶

Firecrawl v1.9.0 发布公告¶

新增功能
自托管优化
- Supabase客户端修复
- 增强LLM供应商支持
- 爬取速度显著提升
- 全局缓存查询系统
- 简化部署流程

MCP增强 (v1.11.0)
- 全面改进提示词、示例和参数使用规范

SDK & API升级
- SDK 2.0新增变更追踪功能
- 支持自定义爬取延迟与并发限制
- 新增OpenRouter千问3爬虫示例
- 批量爬取任务中止接口

性能优化
- 全局部署缓存查询系统
- 链接映射上限从5,000提升至30,000
- 搜索架构限制从50增至100

修复与稳定性
- 增强SSL错误处理机制
- 可选链式调用漏洞修复
- firecrawl-py的WaitAction字段验证
- 并发队列改为时间优先级

控制面板(云端版)
- 新增活动日志追踪

完整更新列表
- SDK 2.0变更追踪
- 修复SDK模式校验
- 动作参数兼容性增强
- GCS存储方案支持
- 批量爬取中止功能
- 动态延迟参数支持
- 队列优先级算法重构
- 代理计费逻辑优化
- 团队功能标记传递
- OpenAI自定义终端支持

首次贡献者
- y0hnn: OpenAI终端支持
- tribixbite: 可选链修复

完整更新记录：v1.8.0至v1.9.0全量代码变更

版本更新精要¶

v1.9.0堪称Firecrawl的进化里程碑：自托管方案获军工级稳定性，爬取效率突破物理极限，SDK控制力达手术刀级精准。更引入智能延迟调控和3万级链接处理能力，配合云端日志追踪，打造出企业级数据采集的全新范式。此次升级犹如为爬虫引擎装载了涡轮增压，在数据竞赛中为开发者装上氮气加速系统。