作者
XksA
责编
郭芮
本文以Python爬虫、数据分析、后端、数据挖掘、全栈开发、运维开发、高级开发工程师、大数据、机器学习、架构师这10个岗位,从拉勾网上爬取了相应的职位信息和任职要求,并通过数据分析可视化,直观地展示了这10个职位的平均薪资和学历、工作经验要求。
爬虫准备
1、先获取薪资和学历、工作经验要求
由于拉勾网数据加载是动态加载的,需要我们分析。分析方法如下:
F12分析页面数据存储位置
我们发现网页内容是通过post请求得到的,返回数据是json格式,那我们直接拿到json数据即可。
我们只需要薪资和学历、工作经验还有单个招聘信息,返回json数据字典中对应的英文为:positionId,salary,education,workYear(positionId为单个招聘信息详情页面编号)。相关操作代码如下:
文件存储:deffile_do(list_info):#获取文件大小file_size=os.path.getsize(rG:\lagou_anv.csv)iffile_size==0:#表头name=[ID,薪资,学历要求,工作经验]#建立DataFrame对象file_test=pd.DataFrame(columns=name,data=list_info)#数据写入file_test.to_csv(rG:\lagou_anv.csv,encoding=gbk,index=False)else:withopen(rG:\lagou_anv.csv,a+,newline=)asfile_test:#追加到文件后面writer=csv.writer(file_test)#写入文件writer.writerows(list_info)基本数据获取:#1.post请求urlreq_url=