作为一名数据从业者,当然干什么事都喜欢用数据说话。2020年上半年,在个人正式入职数据分析师前,专门从数据分析的角度探索了一把数据分析师就业现状,近日,刚好自己开启大数据岗位,所以就再分析下大数据相关岗位就业招聘现状,仅供参考。
数据来源:以某直聘平台为数据来源,以“大数据”为关键词,设置搜索条件为:杭州市规模在10000人以上的上市公司。由于平台限制仅可显示10页,每页30条招聘信息,除去个别无效记录,最终获取有效数据大概在280条招聘记录。当然,由于这里仅获取到了10页数据而并非海量数据,所以样本排序先后将对数据真实分布有一定影响。
分析目标:为了从多角度描述大数据岗位就业现状,拟从以下几个方面着手分析:
注:因样本数据随机性以及分析结果主观性,本文所属观点结论仅供参考!
Garbage in,garbage out!
选取某直聘平台,按照目标岗位设置搜索条件,可以直接访问10页数据,以此为目标,分别爬取各招聘记录的如下信息,且各字段信息直接从查询首页即可完整获取,无需分别访问各岗位详情页:
招聘信息搜索结果
这里直接爬取的字段相对较为整齐,多数字段均无需清洗处理,但为了后续分析需要,这里做以下4步处理:
处理后的数据样例如下:
画像的本质的在于降维描述!
分别从6个维度描述杭州人员规模在万人以上的上市公司招聘大数据相关岗位的招聘现状,其中薪资采用直方图刻画,区域和学历信息采用饼图描述,而岗位类型、招聘公司TOP5以及经验要求则采用横向直方图描述。结果如下所示:
从中可以得出以下基本结论:
大数据技术的核心是存储和计算!
为了了解大数据岗位从业技能要求,对岗位招聘的标签信息进行统计分析,得到全样本岗位标签TOP10如下,易见以下结论:大数据50%以上岗位都要求掌握数仓技能(数据存储);大数据的核心语言是java(当然这与阿里主用Java有一定关系,而抓取样本中阿里的招聘记录占大多数);大数据相关的核心环节是ETL(抽取Extract、转换Transform、加载Load);大数据的核心技术栈仍然离不开Hadoop生态圈。
具体到几个头部公司,分别对其招聘岗位技能标签进行分析,结果如下:
对比分析各公司大数据岗位的TOP5技能标签,一定程度上可以管窥各企业的大数据技术栈信息,例如阿里巴巴和海康威视更注重数据分析与挖掘;浙江大华除了Java之外还较多的运用Python以及Spark;而无一例外的,Java都入选了各大公司的技术栈。
不以薪资衡量岗位价值就是不讲武德。
接下来分析打工人最为关心的因素:大数据岗位薪资情况。分别从公司、岗位类型、学历、工作经验以及技能标签等5个维度,分别描绘岗位薪酬分布情况,结果如下图所示。
透过图表,值得关注的几个细节是:
最后,以一张岗位福利词云结束本篇分析,主要是依托jieba分词和wordcloud库,对岗位福利描述绘制词云,得到如下结果:
基本都是互联网公司的常规福利,只能说除了股票期权真的是毫无吸引力……
对于“大数据”(Big data)研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。
上一篇:大数据聊聊关于常用数据类型
¥280.00
¥699.00
¥680.00