firecrawl v2.1.0¶
为什么要使用Firecrawl¶
在信息泛滥的时代,数据是新的石油,但获取高质量数据却如同大海捞针。传统爬虫工具要么复杂难用,要么功能有限,让你在数据泥潭中越陷越深。Firecrawl 的出现,正是为了解决这一矛盾——它让数据提取变得简单、高效,且强大到足以应对各种复杂场景。无论你是开发者、研究员,还是数据驱动型企业的决策者,Firecrawl 都能帮你从杂乱无章的网页中提炼出有价值的信息,让你专注于洞察而非技术细节。
Firecrawl是什么¶
Firecrawl 是一个开源的网络爬虫和数据提取工具,旨在帮助用户轻松地从网页中抓取和结构化数据。它支持多种数据格式和网站类型,并提供简洁的 API 和 SDK,使开发者能够快速集成和使用。
入门示例¶
假设你正在开发一个市场分析工具,需要从多个电商网站提取产品信息、价格和评论。使用 Firecrawl,你可以通过几行代码实现这一需求:
from firecrawl import FirecrawlApp
# 初始化 Firecrawl 应用
app = FirecrawlApp(api_key="你的API密钥")
# 抓取指定URL的数据
response = app.scrape_url("https://example.com/product-page", params={
"extract_rules": {
"title": "h1",
"price": ".price",
"description": ".product-description"
}
})
print(response)
这段代码会提取指定页面的标题、价格和描述,并以结构化的 JSON 格式返回数据。Firecrawl 还支持批量抓取和自定义提取规则,适合各种复杂场景。
Firecrawl v2.1.0版本更新内容¶
Firecrawl v2.1.0 引入了多项新功能和改进,包括: 1. 支持按类别筛选搜索结果,如 GitHub 和研究类网站。 2. 新增图像提取功能,并支持抓取 data-* 属性。 3. 改进了 Google Drive 文件(TXT、PDF、Sheets)的抓取能力。 4. 增强了 API 功能,支持最多 10 万条结果的映射端点。 5. 提升了安全性和错误处理能力。
更新日志¶
Firecrawl v2.1.0 发布!¶
✨ 新功能¶
- 搜索分类:使用
categories参数按特定类别筛选搜索结果: github:在 GitHub 仓库、代码、问题和文档中搜索research:在学术和研究网站(如 arXiv、Nature、IEEE、PubMed 等)中搜索-
更多分类即将推出
-
图像提取:在 v2 版本的 scrape 端点中新增图像提取支持。
-
数据属性抓取:现在支持提取
data-*属性。 -
基于哈希的路由:爬虫端点现在支持基于哈希的路由。
-
改进的 Google Drive 抓取:新增对 Google Drive 中 TXT、PDF 和 Sheets 文件的抓取能力。
-
PDF 增强:提取 PDF 标题并在元数据中显示。
-
API 增强:
-
映射端点支持最多 10 万条结果。
-
Helm Chart:新增用于 Firecrawl 部署的初始 Helm chart。
-
安全性:改进对 XFF 欺骗的防护能力。
🛠 修复¶
- 修复了 Google 搜索爬虫中的 UTF-8 编码问题。
- 恢复了预览模式中的爬虫状态显示。
- 修复了 Python SDK 中缺失的方法。
- 修正了使用
scrapeOptions.formats时 v2 搜索的 JSON 响应处理。 - 修复了 v0 版本 scrape 中
credits_billed字段的填充问题。 - 改进了 v2 搜索中的文档字段覆盖逻辑。
🔗 完整更新日志
总结¶
Firecrawl v2.1.0 版本带来了多项重要更新,包括搜索分类、图像提取、数据属性抓取等新功能,同时改进了 Google Drive 抓取能力和 PDF 处理效率。此外,API 功能的增强和安全性的提升进一步优化了用户体验。此次更新不仅丰富了工具的功能性,还修复了多个已知问题,确保了系统的稳定性和可靠性。