关于爬虫工具 colly 的问题

c.OnHTML("div[class] p", func(element *colly.HTMLElement) {
        //能否在此处获取所有想获取的 html 元素信息并插入数据库获取其他
        //用途,而不是另外再开辟一个 c.OnHTML 回调函数?
    })

比如说我不止想获得所有的 "div[class] p" ,还想获得 "div[class] a" 等等,根据我的测试,当我执行多个 c.OnHTML 代码块时,回调总是按照上下顺序依次执行,这样我就不能同时获取到 同一个 "div[class]" 下面的元素信息了。 因为刚接触爬虫技术,并且对 html 不是那么熟悉,不知道我描述得清不清楚?

已邀请:

zi

赞同来自:

DOM 会一个 *goquery.Selection 类型, 可以使用拥有方法进行更细的查找 goquery 文档

// 大概用法
c.OnHTML("div[class]", func(e *colly.HTMLElement) {
        // e.DOM.Find('p')
        // e.DOM.First() 
})

要回复问题请先登录注册