每个优先级队列将请求存储在单独的内部队列中，每个优先级值一个。内存优先级队列使用 SCHEDULER_MEMORY_QUEUE 队列，而磁盘优先级队列使用 SCHEDULER_DISK_QUEUE 队列。当请求具有相同优先级时，内部队列决定请求顺序。启动请求默认存储在单独的内部队列中，并且排序方式不同。

重复请求通过 DUPEFILTER_CLASS 的实例进行过滤。

请求顺序

在默认设置下，挂起的请求存储在 LIFO 队列中（启动请求除外）。因此，抓取以 DFO 顺序发生，这通常是最方便的抓取顺序。但是，你可以强制使用 BFO 或自定义顺序（前几个请求除外）。

启动请求顺序

启动请求按照它们从 start() 中产生时的顺序发送，并且给定相同的优先级，其他请求优先于启动请求。

你可以将 SCHEDULER_START_MEMORY_QUEUE 和 SCHEDULER_START_DISK_QUEUE 设置为 None，以便在顺序和优先级方面与其他请求一样处理启动请求。

以 BFO 顺序抓取

如果你确实想以 BFO 顺序抓取，可以通过设置以下设置来实现：

DEPTH_PRIORITY = 1
SCHEDULER_DISK_QUEUE = "scrapy.squeues.PickleFifoDiskQueue"
SCHEDULER_MEMORY_QUEUE = "scrapy.squeues.FifoMemoryQueue"

以自定义顺序抓取

你可以手动设置请求的 priority 以强制执行特定的请求顺序。

并发影响顺序

当挂起的请求低于 CONCURRENT_REQUESTS、CONCURRENT_REQUESTS_PER_DOMAIN 或 CONCURRENT_REQUESTS_PER_IP 的配置值时，这些请求将并发发送。

因此，抓取的前几个请求可能不会遵循期望的顺序。将这些设置降低到 1 可以强制执行期望的顺序（除了第一个请求），但这会显著减慢整个抓取速度。

`init(dupefilter: BaseDupeFilter, jobdir: str | None = None, dqclass: type[BaseQueue] | None = None, mqclass: type[BaseQueue] | None = None, logunser: bool = False, stats: StatsCollector | None = None, pqclass: type[ScrapyPriorityQueue] | None = None, crawler: Crawler | None = None)[source]`

初始化调度器。

参数：

dupefilter (scrapy.dupefilters.BaseDupeFilter 实例或类似：实现 BaseDupeFilter 接口的任何类) – 负责检查和过滤重复请求的对象。默认使用 DUPEFILTER_CLASS 设置的值。
jobdir (str 或 None) – 用于持久化抓取状态的目录路径。默认使用 JOBDIR 设置的值。请参阅作业：暂停和恢复抓取。
dqclass (类) – 用作持久请求队列的类。默认使用 SCHEDULER_DISK_QUEUE 设置的值。
mqclass (类) – 用作非持久请求队列的类。默认使用 SCHEDULER_MEMORY_QUEUE 设置的值。
logunser (bool) – 一个布尔值，指示是否应记录不可序列化的请求。默认使用 SCHEDULER_DEBUG 设置的值。
stats (scrapy.statscollectors.StatsCollector 实例或类似：实现 StatsCollector 接口的任何类) – 一个统计信息收集器对象，用于记录请求调度过程的统计信息。默认使用 STATS_CLASS 设置的值。
pqclass (类) – 用作请求优先级队列的类。默认使用 SCHEDULER_PRIORITY_QUEUE 设置的值。
crawler (scrapy.crawler.Crawler) – 对应于当前抓取的爬虫对象。

如果请求成功存储，则返回 True，否则返回 False。

项目导出器

调度器

覆盖默认调度器

最小调度器接口

class scrapy.core.scheduler.BaseSchedulersource

`close(reason: str) -> Deferred[None] | None[source]`

`abstract enqueue_request(request: Request) -> bool[source]`

`classmethod from_crawler(crawler: Crawler) -> Self[source]`

`abstract has_pending_requests() -> bool[source]`

`abstract next_request() -> Request | None[source]`

`open(spider: Spider) -> Deferred[None] | None[source]`

默认调度器

class scrapy.core.scheduler.Schedulersource

请求顺序

启动请求顺序

以 BFO 顺序抓取

以自定义顺序抓取

并发影响顺序

`init(dupefilter: BaseDupeFilter, jobdir: str | None = None, dqclass: type[BaseQueue] | None = None, mqclass: type[BaseQueue] | None = None, logunser: bool = False, stats: StatsCollector | None = None, pqclass: type[ScrapyPriorityQueue] | None = None, crawler: Crawler | None = None)[source]`

`len() -> int[source]`

`close(reason: str) -> Deferred[None] | None[source]`

`enqueue_request(request: Request) -> bool[source]`

`classmethod from_crawler(crawler: Crawler) -> Self[source]`

`has_pending_requests() -> bool[source]`

`next_request() -> Request | None[source]`

`open(spider: Spider) -> Deferred[None] | None[source]`