WebScraper是谷歌Chrome浏览器插件,可自动化提取网页数据,实现不敲代码,指哪爬哪的目标,属于居家出行杀人越货之必备神器。
第1课内容:抓取案例、流程
第2课内容:环境设置
第3课内容:SitemapStartURL设计
第4课内容:建立Sitemap
第5课内容:实操、导入Sitemap
第6课内容:Sitemap精讲
下面开始第7课,选择器(Selectors)。
一、定义及分类
选择器顾名思义用于选择要抓取的网页元素。
创建完Sitemap后接下来要做的就是为其添加选择器。
选择器以树状结构添加,WebScraper按此次序抓取网页。
选择器大致分为3类:
1)数据提取选择器:用于提取数据。
2)链接选择器:用于站点导航,便于同时从多个页面提取数据。
3)元素选择器:用于将网页元素分组,方便后续数据提取。
进一步分类如下图,注意标蓝的两个选择器,它们同时属于两个分类:
二、设定选项
选择器的常见设置如下图
1)ID(名称):用于为选择器命名。规则如下:
1、最少3个字符;
2、不能以_开头,不能包含.及$。
当然如果采用我的第4课第二部分命名方案可完美规避记忆此劳什子规则。
2)Tyep(类型):切换选择器类型,从上面脑图中列出来的选择。
3)Selector(选择器):用于选择元素,后面三个按钮:
1、「Select(选择)」:点击后可在页面选择元素。
2、「Elementpreview(元素预览)」:点击后可预览选择效果。
3、「Datapreview(数据预览)」:点击后可预览按之前选择可抓取到的数据。
4)Multiple(多选):选中后会从页面中所有符合要求的元素提取数据。
5)Regex(正则表达式):神器,随后我们会花1节课的时间来讲它。
6)Delay(延迟):抓取数据前的延时,通常设置ms。此选项存在有3个原因:
1、抓取数据是要占用人家服务器流量的,抓取数据过于频繁会影响正常用户使用,做人还是要厚道。
2、有些网站有反爬虫机制,监测到非正常访问(0.1秒一次点击这特么是人能做出来的吗?)会将此IP封掉或关小黑屋。
3、网页加载是分步逐步完成的,有时网络速度比较慢,你需要的元素还没加载出来就抓取,自然结果会受影响。
7)ParentSelectors(母元素):还记得第1课第二部分那张选择器树形图不,在讲到Element及Link选择器的时候我们会用到它。
三、互动环节
本节课内容就讲到这里,从下节课开始我们会逐项讲解各常用选择器的使用方法,精彩在后面,欢迎继续哪医院治白癜风比较好北京治白癜风的大医院