Lzh on GitHub

Deploying Spiders (部署爬虫)

本节介绍您可以选择的不同选项,用于部署您的 Scrapy 爬虫,以便定期运行它们。在您的本地机器上运行 Scrapy 爬虫对于(早期)开发阶段非常方便,但当您需要执行长时间运行的爬虫或将爬虫移动到生产环境持续运行时,则不太方便。这就是部署 Scrapy 爬虫的解决方案发挥作用的地方。

部署 Scrapy 爬虫的流行选择是:

  • Scrapyd (开源)
  • Zyte Scrapy Cloud (基于云)

Deploying to a Scrapyd Server (部署到 Scrapyd 服务器)

Scrapyd 是一个开源应用程序,用于运行 Scrapy 爬虫。它提供了一个带有 HTTP API 的服务器,能够运行和监控 Scrapy 爬虫。

要将爬虫部署到 Scrapyd,您可以使用 scrapyd-client 包提供的 scrapyd-deploy 工具。有关更多信息,请参阅 scrapyd-deploy 文档

Scrapyd 由一些 Scrapy 开发者维护。

Deploying to Zyte Scrapy Cloud (部署到 Zyte Scrapy Cloud)

Zyte Scrapy Cloud 是由 Scrapy 背后的公司 Zyte 提供的一项托管的、基于云的服务。

Zyte Scrapy Cloud 消除了设置和监控服务器的需要,并提供了一个友好的用户界面来管理爬虫并查看抓取到的项目、日志和统计数据。

要将爬虫部署到 Zyte Scrapy Cloud,您可以使用 shub 命令行工具。有关更多信息,请参阅 Zyte Scrapy Cloud 文档

Zyte Scrapy Cloud 与 Scrapyd 兼容,可以根据需要进行切换——配置像 scrapyd-deploy 一样从 scrapy.cfg 文件中读取。