firecrawl v1.7.0¶

为什么要使用FireCrawl¶

在这个数据即石油的时代，网络爬虫工具早已成为数字淘金者的必备装备。但当你面对反爬虫机制如同铜墙铁壁的现代网站，当你的脚本在AJAX动态加载的迷雾中迷失方向，当你的数据采集效率被层层验证码拖入泥潭——传统爬虫工具正在经历一场无声的崩溃。

FireCrawl的诞生，是对这场数据困局的革命性突围。它像一柄熔岩铸就的密钥，能轻松穿透Cloudflare的防护结界；它配备AI驱动的视觉引擎，让JavaScript渲染的暗网无所遁形；它的分布式架构如同精密交响乐团，在反爬策略的枪林弹雨中奏响数据狂想曲。当竞争对手还在为单机IP被封禁焦头烂额时，FireCrawl用户已在云端调度千个节点，以量子纠缠般的效率收割目标数据。

FireCrawl是什么¶

FireCrawl是新一代智能网络爬虫框架，专为征服现代网站设计。它通过融合无头浏览器技术、AI元素识别和分布式代理网络，能自动适应各类反爬机制，将动态网页转化为结构化数据。支持从简单页面抓取到深度全网爬取，开发者只需关注数据逻辑，复杂的技术对抗交给框架自动化解。

入门示例¶

真实场景：某跨境电商需要实时监控Shopify独立站价格变化，目标站点采用动态渲染+行为验证码。

from firecrawl import DeepCrawler

# 配置智能等待策略
crawler = DeepCrawler(
    anti_detect=True,
    render_js=True,
    proxy_rotation='global'
)

# 定义数据抽取逻辑
@crawler.schema
class Product:
    name: css('h1.product-title')
    price: xpath('//div[@class="price-box"]/span[contains(@class,"final-price")]')
    variants: javascript('window.productVariants')

# 启动云端爬虫集群
job = crawler.start(
    urls=['https://target-store.com'],
    max_depth=3,
    speed='turbo'
)

# 获取实时数据流
for data in job.stream():
    send_to_data_warehouse(data)

FireCrawl v1.7.0版本更新¶

开放深度研究功能Alpha版，支持结构化输出定制
推出llmstxt生成器，即时创建网站AI配置文件
优化并发浏览器性能，提升全用户速率上限
新增/scrape和/crawl端点页面变更对比功能(Beta)
扩展/extract端点灵活性，URL参数改为可选

更新日志¶

v1.7.0 - 版本说明¶

新功能¶

深度研究开放测试：支持结构化输出和自定义配置
llmstxt生成：通过llmstxt.new/网站域名快速创建AI配置文件
并发浏览器优化：全面提升用户速率限制
页面对比测试版：直接在/scrape和/crawl端点查看网页变更
/extract端点升级：URL参数改为可选
新增爬取深度控制：加入maxDiscoveryDepth参数
模型示例扩展：新增Claude 3.7、Gemini 2.5等模型实现

修复与改进¶

修复搜索功能循环JSON错误
重构信用统计系统
解决网站地图污染爬虫问题
增加爬虫状态失败重试机制(最多3次)
优化信用超额处理逻辑
修复路径过滤漏洞
移除llmExtract不支持的架构

完整更新记录¶

查看版本对比

版本总结¶

v1.7.0版本标志着FireCrawl向智能爬虫领域迈出关键一步：深度研究功能开启结构化数据新时代，llmstxt生成器实现网站AI配置即时化，并发优化让数据采集速度突破物理限制。此次更新既夯实了基础架构的稳定性，更通过前沿的AI集成，为开发者提供了对抗复杂反爬场景的超级武器库。