基于网络爬虫的就业数据分析

来源：职称论文发表指导网作者：田编辑发布时间：

　　摘要：要: 随着网络信息量的爆炸式增长，大数据时代的来临，利用网络爬虫对大数据进行分析处理有非常重要的意义。本文以 BOSS 直聘网站为例，在 Python3．7 和 MySQL Server8．0 的基础上，设

　　要: 随着网络信息量的爆炸式增长，大数据时代的来临，利用网络爬虫对大数据进行分析处理有非常重要的意义。本文以 BOSS 直聘网站为例，在 Python3．7 和 MySQL Server8．0 的基础上，设计并实现了一个关于就业信息的数据采集存储系统。并且通过对采集到的就业数据信息做出多个方面的分析，利用这些数据分析结果为大多数人在就业选择以及未来规划的时候提供一个有据可依的参照，起到一个指导就业的作用。

　　关键词: 网络爬虫; 就业信息; 数据分析; 就业指导

　　0 引言

　　随着人工智能的概念逐步的深入展开，人工智能因其高效性和实用性受到越来越多的重视。作为人工智能的重要组成部分，大数据也开始在社会生产中发挥巨大作用，同时还带动了社会生活质量的全面提升，并提供了以往不曾有过的便利性。在国内对高等教育改革正迈向更深层次的时候，各校的毕业生规模也逐年增加。临近毕业时，或多或少都会存在许多迷茫。而在招聘、应聘的过程中，互联网作为当下承载海量招聘信息的重要载体，则给毕业生的择业提供了一条便捷途径。只是互联网的信息检索中却会面临许多用户并不需要的信息，只有通过人工筛选、再经总结对比后，才能得到最终想要的信息。

基于网络爬虫的就业数据分析

　　1爬虫的设计

　　1．1 系统需求及分析网络爬虫系统的开发是否成功取决于确保系统能够实现用户定制功能，达到预期设计目的。因此，在网络爬虫系统开发之前，就需要对该系统需求加以详尽分析，从而对整体的设计有一个清晰的思路。时下，普遍适用的爬虫系统都是模块化的，模块化的程序设计有利于代码块的测试与维护，而且也进一步增加了代码的适用性。在此基础上，只要对各个模块进行组合，就能够构建出一个完整的爬虫系统。本次研究即以 BOSS 直聘为例，开展模块化的编程设计。因为研究旨在通过爬虫系统对当前就业做出科学分析，故而针对此需求就要从 BOSS 直聘网站中获取全部的岗位信息，以及从每个岗位中获得包括各岗位名称、工作地点、薪水、公司规模性质、工作要求在内的各种关键信息。至此，在接下来的功能、模块设计中，就具备了较强的针对性。

　　1．2 爬虫模块设计

　　1．2．1 爬虫整体设计思路爬虫系统的设计思路为: 首先，需要获得所有包括岗位信息网页的源码; 其次，在每一页的网页源码中寻找出与需求相匹配的信息，此时就需要连接爬虫系统和数据库，将每次成功匹配到的信息均存入数据库中，直至所有网页检索完毕。在数据爬取的整个过程中，针对 BOSS 直聘的高度反爬，还要在各个模块中引入适当的反扒策略，以此保证数据爬取的连续性。研究可得整体设计框架如图 1 所示

　　1．2．2 爬虫的网页抓取模块网页抓取模块作为爬虫系统中最重要的部分，也是起始的模块。但是从实际爬取的情况来看，针对同一个 IP 在短时间内的多次爬取，会被网站屏蔽 IP 地址，因此在这里采用代理 IP 池的技术去访问。为了避免被对方发现，还需要加入 User－Agent 将自己伪装成代理服务器。通过构造代理 IP 池以及由众多用户代理组成的代理池，每次随机选择访问 IP 与用户代理的搭配，据此而将自己伪装成来自不同 IP 的用户访问，大大降低了被反爬虫的概率。接下来采用 Requsets 库的 API 去解析当前第一层的 URL。如: resp = requests．get( url， headers = headers， proxies = proxies，timeout = 5)

　　2 数据分析

　　2．1 数据处理

　　通过设计好的网络爬虫系统，从 BOSS 直聘网站上爬取了上海地区 13 万多的岗位招聘信息数据，从招聘岗位、工资待遇、工作地点、工作要求、公司性质这几方面的信息，对上海地区的就业数据做出研究与分析，对广大择业人员可起到一个初步指导的作用。通过 Navicat Premium 将数据库导出成 Excel 文件，在 Python 中通过 pandas 库对数据进行处理，首先将所有的数据通过 read_excel 的 API 读取到处理环境下，将每一列的数据分别提取出来构造出 job、 salary、requirements、situation 四个列表，通过遍历整个 requirements，检索每一个元素的字段，可以统计出上海市每个地区大约能够提供多少个工作岗位; 同理，用上述的方法，可以统计出上海地区提供的工作岗位对学历的要求，以及公司规模的情况。对于就业数据分析来说，至关重要的就是薪资分析，将提取出来的 salary 列表，对每一个元素采用正则表达式匹配前两个数字，也就是这份工作的薪水上下限，求一个平均值，遍历整个列表，对薪水分布进行统计。同时，通过定位以及包含字符段的方法，可以将每个地区的工作以及相对应的薪水提取出来，再通过前文对全上海各地区的工作岗位统计，对上海各地区的平均薪资做出分析。在此基础上，各行各业的薪资水平也能够根据各行业的岗位数以及对应的平均薪资计算得出。

　　2．2 数据分析结果

　　随着应届毕业生的人数每年不断上升，带给社会的就业压力也随即增大，在这种就业形势竞争激烈的就业市场里面如何做出最佳的选择即已成为研究的热点与焦点。

　　3 结束语

　　本文通过 Python 加上 MySQL Server 的配置，创建了一个基于 BOSS 直聘网站的网络爬虫数据收集分析系统，该系统能够登录到 BOSS 直聘，并获取页面信息，分析页面中的 URL，同时对筛选构造后的 URL 再一次进行数据筛选，将用户获取到的数据存储到数据库，在此基础上将对数据进行深层次的挖掘，也就是运用一系列的数据分析手段，获得关于上海各地区、各岗位的薪资待遇、招聘需求等一系列重要信息，为广大的就业人员提供有益的借鉴与参考。

　　参考文献

　　［1］徐远超，刘江华，刘丽珍，等．基于 Web 的网络爬虫的设计与实现［J］．微计算机信息，2007，23( 21) : 119－121．

　　［2］郭丽蓉．基于 Python 的网络爬虫程序设计［J］．电子技术与软件工程，2017( 23) : 248－249．

　　［3］周中华，张惠然，谢江．基于 Python 的新浪微博数据爬虫［J］．计算机应用，2014，34( 11) : 3131－3134

　　作者项博良，唐淳淳，钱前，曹健东

声明:

①文献来自知网、维普、万方等检索数据库，说明本文献已经发表见刊，恭喜作者.

②如果您是作者且不想本平台展示文献信息,可联系学术顾问予以删除.

《道路交通事故责任鉴定标准相关要点分析》

上一篇：河南省农村人才流失问题探究
下一篇：新时期小学体育教学的有效性教学策略分析

论文分类

政治法律职称论文教育职称论文文史艺术职称论文医学职称论文经济管理职称论文理工职称论文电子信息咨询论文农业职称论文建筑职称论文

基于网络爬虫的就业数据分析

论文分类

期刊推荐

SCI指导

SSCI指导

EI指导

SCOPUS指导

英文论文发表

学术问题

中文出版