WebScraper入门教程第7课

WebScraper是谷歌Chrome浏览器插件,可自动化提取网页数据,实现不敲代码,指哪爬哪的目标,属于居家出行杀人越货之必备神器。

第1课内容:抓取案例、流程

第2课内容:环境设置

第3课内容:SitemapStartURL设计

第4课内容:建立Sitemap

第5课内容:实操、导入Sitemap

第6课内容:Sitemap精讲

下面开始第7课,选择器(Selectors)。

一、定义及分类

选择器顾名思义用于选择要抓取的网页元素。

创建完Sitemap后接下来要做的就是为其添加选择器。

选择器以树状结构添加,WebScraper按此次序抓取网页。

选择器大致分为3类:

1)数据提取选择器:用于提取数据。

2)链接选择器:用于站点导航,便于同时从多个页面提取数据。

3)元素选择器:用于将网页元素分组,方便后续数据提取。

进一步分类如下图,注意标蓝的两个选择器,它们同时属于两个分类:

二、设定选项

选择器的常见设置如下图

1)ID(名称):用于为选择器命名。规则如下:

1、最少3个字符;

2、不能以_开头,不能包含.及$。

当然如果采用我的第4课第二部分命名方案可完美规避记忆此劳什子规则。

2)Tyep(类型):切换选择器类型,从上面脑图中列出来的选择。

3)Selector(选择器):用于选择元素,后面三个按钮:

1、「Select(选择)」:点击后可在页面选择元素。

2、「Elementpreview(元素预览)」:点击后可预览选择效果。

3、「Datapreview(数据预览)」:点击后可预览按之前选择可抓取到的数据。

4)Multiple(多选):选中后会从页面中所有符合要求的元素提取数据。

5)Regex(正则表达式):神器,随后我们会花1节课的时间来讲它。

6)Delay(延迟):抓取数据前的延时,通常设置ms。此选项存在有3个原因:

1、抓取数据是要占用人家服务器流量的,抓取数据过于频繁会影响正常用户使用,做人还是要厚道。

2、有些网站有反爬虫机制,监测到非正常访问(0.1秒一次点击这特么是人能做出来的吗?)会将此IP封掉或关小黑屋。

3、网页加载是分步逐步完成的,有时网络速度比较慢,你需要的元素还没加载出来就抓取,自然结果会受影响。

7)ParentSelectors(母元素):还记得第1课第二部分那张选择器树形图不,在讲到Element及Link选择器的时候我们会用到它。

三、互动环节

本节课内容就讲到这里,从下节课开始我们会逐项讲解各常用选择器的使用方法,精彩在后面,欢迎继续







































哪医院治白癜风比较好
北京治白癜风的大医院



转载请注明:http://www.92nongye.com/zyjs/204620037.html