Lzh on GitHub

Scrapy 2.13 文档

Scrapy 是一个快速的高级 网络爬虫 和 网络抓取 框架,用于爬取网站并从中提取结构化数据。它可以用于广泛的用途,从数据挖掘到监控和自动化测试。

获取帮助

遇到麻烦了吗?我们很乐意提供帮助!

第一步

  • Scrapy 概览
    了解 Scrapy 是什么以及它如何帮助你。
  • 安装指南
    在你的电脑上安装 Scrapy。
  • Scrapy 教程
    编写你的第一个 Scrapy 项目。
  • 示例
    通过玩一个预制的 Scrapy 项目来了解更多。

基本概念

内置服务

  • 日志
    了解如何在 Scrapy 中使用 Python 的内置日志功能。
  • 统计收集
    收集有关你的抓取爬虫的统计信息。
  • 发送电子邮件
    在某些事件发生时发送电子邮件通知。
  • Telnet 控制台
    使用内置的 Python 控制台检查正在运行的爬虫。

解决具体问题

扩展 Scrapy

  • 架构概览
    了解 Scrapy 架构。
  • 附加组件
    启用和配置第三方扩展。
  • 下载器中间件
    自定义页面如何被请求和下载。
  • 爬虫中间件
    自定义爬虫的输入和输出。
  • 扩展
    使用你的自定义功能扩展 Scrapy。
  • 信号
    查看所有可用的信号以及如何使用它们。
  • 调度器
    了解调度器组件。
  • Item 导出器
    快速将你抓取的 Item 导出到文件(XML、CSV 等)。
  • 组件
    了解构建自定义 Scrapy 组件时的通用 API 和一些良好实践。
  • 核心 API
    在扩展和中间件中使用它来扩展 Scrapy 功能。

所有其余部分