快速上手

2020-07-27 19:55 更新

使用colly之前请确保已经按照上一节配置好开发环境。 下面通过一些简单的例子,带你快速上手colly。

首先,你需要在代码中引入colly包:

  1. import "github.com/gocolly/colly"

接下来介绍colly中几个关键概念:

Collector

Colly的首要入口是一个 Collector 对象。 Collector 管理网络通信并负责在 Collector job 运行时执行附加的回调。使用colly,你必须初始化一个Collector:

  1. c := colly.NewCollector()

为 Collector 添加回调函数

回调 你可以把不同类型的回调函数附加到收集器上来控制收集任务,然后取回信息

  1. c.OnRequest(func(r *colly.Request) {
  2. fmt.Println("Visiting", r.URL)
  3. })
  4. c.OnError(func(_ *colly.Response, err error) {
  5. log.Println("Something went wrong:", err)
  6. })
  7. c.OnResponse(func(r *colly.Response) {
  8. fmt.Println("Visited", r.Request.URL)
  9. })
  10. c.OnHTML("a[href]", func(e *colly.HTMLElement) {
  11. e.Request.Visit(e.Attr("href"))
  12. })
  13. c.OnHTML("tr td:nth-of-type(1)", func(e *colly.HTMLElement) {
  14. fmt.Println("First column of a table row:", e.Text)
  15. })
  16. c.OnXML("//h1", func(e *colly.XMLElement) {
  17. fmt.Println(e.Text)
  18. })
  19. c.OnScraped(func(r *colly.Response) {
  20. fmt.Println("Finished", r.Request.URL)
  21. })

回调函数的执行顺序

  1. OnRequest 请求发出之前调用

  1. OnError 请求过程中出现Error时调用

  1. OnResponse 收到response后调用

  1. OnHTML 如果收到的内容是HTML,就在onResponse执行后调用

  1. OnXML 如果收到的内容是HTML或者XML,就在onHTML执行后调用

  1. OnScraped OnXML执行后调用
以上内容是否对您有帮助:
在线笔记
App下载
App下载

扫描二维码

下载编程狮App

公众号
微信公众号

编程狮公众号