scrapy 2.3 宽爬行

2021-06-16 10:58 更新

Scrapy 默认值针对爬行特定站点进行了优化。这些站点通常由一个残缺的蜘蛛来处理，尽管这不是必需的或必需的（例如，有一些普通的蜘蛛来处理任何向它们抛出的给定站点）。

除了这种“集中的爬行”之外，还有另一种常见的爬行类型，它覆盖了大量（可能是无限的）域，并且只受时间或其他任意约束的限制，而不是在域被爬行到完成或没有更多的请求执行时停止。这些被称为“宽爬虫”，是搜索引擎使用的典型爬虫。

这些是一些常见的特性，通常在广泛的爬行中发现：

如上所述，Scrapy的默认设置是针对重点爬行而不是广泛爬行而优化的。然而，由于其异步体系结构，Scrapy非常适合执行快速的广泛爬行。本页总结了在使用Scrapy进行宽范围爬行时需要记住的一些事情，以及为实现高效的宽范围爬行而调整Scrapy设置的具体建议。

以上内容是否对您有帮助：

写笔记

我要补充

推荐文章