scrapy 2.3 工具

2021-06-09 10:04 更新

您可以通过运行无参数的scrapy工具开始,它将打印一些用法帮助和可用的命令:

Scrapy X.Y - no active project

Usage:
  scrapy <command> [options] [args]

Available commands:
  crawl         Run a spider
  fetch         Fetch a URL using the Scrapy downloader
[...]

如果您在一个零碎的项目中,第一行将打印当前活动的项目。在本例中,它是从项目外部运行的。如果从项目内部运行,它将打印如下内容:

Scrapy X.Y - project: myproject

Usage:
  scrapy <command> [options] [args]

[...]

创建项目

你通常会做的第一件事就是 ​scrapy​ 工具是创建零碎项目:

scrapy startproject myproject [project_dir]

它将在 ​project_dir​ 目录。如果 ​project_dir​ 没有指定, ​project_dir​ 将与 ​myproject​ .

接下来,进入新的项目目录:

cd project_dir

你已经准备好使用 ​scrapy​ 从那里管理和控制项目的命令。

控制性项目

你使用 ​scrapy​ 从项目内部使用工具来控制和管理它们。

例如,要创建新的蜘蛛:

scrapy genspider mydomain mydomain.com

一些下流的命令(比如 ​crawl​ )必须从零碎的项目内部运行。见 commands reference 下面是关于必须从项目内部运行哪些命令的详细信息,而不是。

还要记住,当从内部项目运行某些命令时,它们的行为可能略有不同。例如,fetch命令将使用蜘蛛重写的行为(例如 ​user_agent​ 属性来重写用户代理)如果要获取的URL与某个特定的蜘蛛相关联。这是故意的,因为 ​fetch​ 命令用于检查蜘蛛如何下载页面。

以上内容是否对您有帮助:
在线笔记
App下载
App下载

扫描二维码

下载编程狮App

公众号
微信公众号

编程狮公众号