WebScraper入门教程第7课

WebScraper是谷歌Chrome浏览器插件，可自动化提取网页数据，实现不敲代码，指哪爬哪的目标，属于居家出行杀人越货之必备神器。

第1课内容：抓取案例、流程

第2课内容：环境设置

第3课内容：SitemapStartURL设计

第4课内容：建立Sitemap

第5课内容：实操、导入Sitemap

第6课内容：Sitemap精讲

下面开始第7课，选择器（Selectors）。

一、定义及分类

选择器顾名思义用于选择要抓取的网页元素。

创建完Sitemap后接下来要做的就是为其添加选择器。

选择器以树状结构添加，WebScraper按此次序抓取网页。

选择器大致分为3类：

1）数据提取选择器：用于提取数据。

2）链接选择器：用于站点导航，便于同时从多个页面提取数据。

3）元素选择器：用于将网页元素分组，方便后续数据提取。

进一步分类如下图，注意标蓝的两个选择器，它们同时属于两个分类：

二、设定选项

选择器的常见设置如下图

1）ID（名称）：用于为选择器命名。规则如下：

1、最少3个字符；

2、不能以_开头，不能包含.及$。

当然如果采用我的第4课第二部分命名方案可完美规避记忆此劳什子规则。

2）Tyep（类型）：切换选择器类型，从上面脑图中列出来的选择。

3）Selector（选择器）：用于选择元素，后面三个按钮：

1、「Select（选择）」：点击后可在页面选择元素。

2、「Elementpreview（元素预览）」：点击后可预览选择效果。

3、「Datapreview（数据预览）」：点击后可预览按之前选择可抓取到的数据。

4）Multiple（多选）：选中后会从页面中所有符合要求的元素提取数据。

5）Regex（正则表达式）：神器，随后我们会花1节课的时间来讲它。

6）Delay（延迟）：抓取数据前的延时，通常设置ms。此选项存在有3个原因：

1、抓取数据是要占用人家服务器流量的，抓取数据过于频繁会影响正常用户使用，做人还是要厚道。

2、有些网站有反爬虫机制，监测到非正常访问（0.1秒一次点击这特么是人能做出来的吗？）会将此IP封掉或关小黑屋。

3、网页加载是分步逐步完成的，有时网络速度比较慢，你需要的元素还没加载出来就抓取，自然结果会受影响。

7）ParentSelectors（母元素）：还记得第1课第二部分那张选择器树形图不，在讲到Element及Link选择器的时候我们会用到它。

三、互动环节

本节课内容就讲到这里，从下节课开始我们会逐项讲解各常用选择器的使用方法，精彩在后面，欢迎继续

哪医院治白癜风比较好
 北京治白癜风的大医院