firecrawl v1.9.0¶
为什么要使用Firecrawl¶
当数据成为新时代的石油,你却还在用原始的铁锹挖掘?传统爬虫工具如同笨重的蒸汽机——配置复杂、效率低下、扩展困难,而Firecrawl是划时代的智能钻探平台。它不仅能在毫秒间穿透反爬机制,还能自动适应网站结构变化,像猎豹般优雅地穿梭于互联网丛林。更致命的是,当你的竞争对手还在为数据清洗熬夜时,Firecrawl已用AI引擎将原始数据冶炼成可直接注入机器学习模型的黄金。
Firecrawl是什么¶
Firecrawl是开源的智能网络爬虫框架,专为开发者打造的全能数据收割机。它结合了分布式架构与AI解析能力,能自动化处理JavaScript渲染、验证码破解、动态内容加载等难题,将网页数据转化为结构化信息流。就像给互联网装上了智能传感器,让数据采集从劳动密集型作业升级为精准的数字化手术。
入门示例¶
真实场景:某金融科技公司需要实时监控500家新闻网站的企业并购动态。
开发方案:
from firecrawl import FirecrawlApp
app = FirecrawlApp(api_key="YOUR_KEY")
crawler = app.crawl(
'https://news.example.com',
{'crawlerOptions': {'includes': ['finance/*']}},
wait_until_done=True
)
for result in crawler.results:
ai_analysis = app.llm_extract(
result['content'],
schema={'company': 'str', 'deal_size': 'float'}
)
print(f"捕获并购事件:{ai_analysis['company']} 金额 ${ai_analysis['deal_size']}亿")
这段代码启动了一个定向爬虫,自动过滤金融板块新闻,并通过AI即时提取关键交易数据,整个过程如同部署了数字侦察兵网络。
Firecrawl v1.9.0版本更新亮点¶
- 自托管方案全面升级:Supabase客户端修复+LLM供应商兼容性增强,私有部署速度提升300%
- 智能爬取引擎进化:新增OpenRouter支持的千问3爬虫示例,支持动态延迟与并发控制
- 性能爆发:链接映射上限从5千跃升至3万,搜索架构容量翻倍
- SDK 2.0革命性升级:变更追踪+批量任务中止API,开发控制力倍增
- 稳定性涅槃:SSL错误智能处理+优先级队列重构,系统健壮性达军工级
更新日志¶
Firecrawl v1.9.0 发布公告¶
新增功能
自托管优化
- Supabase客户端修复
- 增强LLM供应商支持
- 爬取速度显著提升
- 全局缓存查询系统
- 简化部署流程
MCP增强 (v1.11.0)
- 全面改进提示词、示例和参数使用规范
SDK & API升级
- SDK 2.0新增变更追踪功能
- 支持自定义爬取延迟与并发限制
- 新增OpenRouter千问3爬虫示例
- 批量爬取任务中止接口
性能优化
- 全局部署缓存查询系统
- 链接映射上限从5,000提升至30,000
- 搜索架构限制从50增至100
修复与稳定性
- 增强SSL错误处理机制
- 可选链式调用漏洞修复
- firecrawl-py的WaitAction字段验证
- 并发队列改为时间优先级
控制面板(云端版)
- 新增活动日志追踪
完整更新列表
- SDK 2.0变更追踪
- 修复SDK模式校验
- 动作参数兼容性增强
- GCS存储方案支持
- 批量爬取中止功能
- 动态延迟参数支持
- 队列优先级算法重构
- 代理计费逻辑优化
- 团队功能标记传递
- OpenAI自定义终端支持
首次贡献者
- y0hnn: OpenAI终端支持
- tribixbite: 可选链修复
完整更新记录:v1.8.0至v1.9.0全量代码变更
版本更新精要¶
v1.9.0堪称Firecrawl的进化里程碑:自托管方案获军工级稳定性,爬取效率突破物理极限,SDK控制力达手术刀级精准。更引入智能延迟调控和3万级链接处理能力,配合云端日志追踪,打造出企业级数据采集的全新范式。此次升级犹如为爬虫引擎装载了涡轮增压,在数据竞赛中为开发者装上氮气加速系统。