数极客首页

数据分析师薪资有多高?爬了29个城市的数据告诉你答案

想要从事数据剖析

师这个岗位,那自然第一
需求
对这个岗位有所了解

。最直接、最真实的方式就是从企业那里取得

需求讯息,这样才最能够

指导自己

的学习方向和简历准备。本文即是要应用
爬虫爬取拉勾网上数据剖析

这一岗位的信息,然后中止

一些探求

和剖析

,以数据剖析

来了解

数据剖析

’。

数据来源

本项目所运用
的数据集全部来自拉勾网,是经过
集搜客这一网络爬虫工具来爬取的。之所以选择拉勾网作为本项目的数据源,主要是由于
相关于
其他招聘网站,拉钩网上的岗位信息十分

完好
、整洁,极少存在信息的缺漏。并且简直

一切
展示

出来的信息都是十分

规范

化的,极大的减少了前期数据清算
和数据整理的工作量。(笔者毕竟是工作之余完成,时间有限,能省则省)本次爬取信息的时分
,主要取得

了以下信息:

内容

字段

岗位称号

title

月薪

month_salary

公司称号

company

所属行业

industry

公司范围

scale

融资阶段

phase

投资人

investors

所在城市

city

阅历

央求

experience

学历央求

qualification

全职/兼职

full_or_parime

职位描画

及任职央求

deion

项目目的

主要是希望经过
理论

的数据来解答针对数据剖析

岗位的一些疑惑,细致

来说,主要针对以下几个问题:

数据剖析

师岗位需求的地域性散布

– 整个群体中薪酬散布

的状况

– 不同城市数据剖析

师的薪酬状况

是怎样的;

– 该岗位关于
工作阅历

的央求

是怎样的;

– 依据

工作阅历

的不同,薪酬是怎样变化的;

– 从用人单位的角度看,数据剖析

师应当具备哪些技艺

– 控制
不同技艺
能否
会对薪酬有影响?影响是怎样的?

技术和工具

本项目主要分为两大部分

,第一部分

是数据爬取,采用的是集搜客网络爬虫工具。第二部分

数据剖析

,以python编程言语
为基础

数据剖析

部分

主要运用
pandas作为数据整理和统计剖析

的工具,matplotlib用于图形的可视化,seaborn库包用于图形美化。在中止

技艺
需求剖析

的时分
,运用
了jieba作为分词工具包,并运用
wordcloud包制造
词云。

数据整理

加载和清算

* 点击图片缩略图可放大,下同。

能够

看到,经过初步清算
后,数据集中有效变量为13个,数据记载
575条。除了投资人这一项之外,其他各字段的数据完好
度十分

好,简直

没有缺失值。这关于
后面的剖析

来说是个大大的好音讯

数据剖析

地域性散布

<matplotlib.text.Text at 0x1102e1f90>

在拉勾网上,全国有29个城市的企业邮数据剖析

师的人才需求,其中将近一半需求产生在北京市,需求量全国第一。排在前5的分别是:北京、上海、深圳、杭州、广州。数据剖析

这一职业大量集中在北上广深四大一线城市,以及杭州这个互联网和电子商务企业的汇集

地。北京市庞大

的需求比重令我稍感不测
,不过,思索
到拉勾网是一个偏重

互联网相关行业的招聘平台,而我国大量互联网企业在北京汇集

,这个结果倒也算合理。以后有时间,能够

对全国互联网行业散布

特性
做个剖析

总而言之,能够

得出一个明晰
的结论:数据剖析

这一岗位,有大量的工作机遇

集中在北上广深以及杭州,等候

往这个方向展开

的同窗
还是要到这些城市去多多尝试。当然,从另一个方面说,这些城市也都集中了大量的各行业人才,竞争压力想必也是很大的。

总体薪酬状况

似乎

大多数其他工作一样,数据剖析

师的薪酬也是一个右偏散布

。大多数人的收入集中在5k-20k每月,只需

少数人能够

取得

更高的薪酬,但有极少数人薪酬极高,让人充溢
等候

。需求
阐明

的是,拉勾网上的薪酬值是一个区间值,并且相互

之间互有堆叠
,为了便于剖析

,我取区间的中值作为代表值中止

的剖析

。因而

,理论

的薪酬散布

状况

可能会比图中的状况

更好一些。总是有人能够

拿到薪酬的上限。综合来看,数据剖析

师的薪酬收入整体还是可观的,从这方面说,选择这个职业还是不错的。

不同城市薪酬散布

状况

<matplotlib.text.Text at 0x115796650>

疏忽

掉那些人才需求量比较

小的城市,我重点关注排名前六的城市。从图上看,这六大城市的薪酬散布

状况

总体来说都比较

集中,这和我们前面看到的全国的薪酬总体状况

散布

是分歧
的。深圳市薪酬散布

中位数大约在15k,居全国首位。第二
是北京,约12.5k,之后是上海和杭州。深圳的确

是个发明

奇迹

的城市,在这里也给了我一个小小的惊喜。从待遇上看,数据剖析

师留在深圳展开

是个不错的选择。

工作阅历

需求

<matplotlib.text.Text at 0x110577dd0>

不出所料的,工作阅历

的需求散布

近似于正态散布

。工作1-3年阅历

的熟手需求量最大,第二
是3-5年工作阅历

的资深剖析

师。工作阅历

缺乏
1年的新人,市场需求量比较

少。另外,工作阅历

要5-10年的需求量十分

稀少,而10年以上的更是凤毛麟角

从这个散布

我们大致能够

猜测

出:

数据剖析

是个年轻的职业方向,大量的工作阅历

需求集中在1-3年;关于
数据剖析

师来说,5年是个瓶颈期,假定

在5年之内没有转型或者质的提升,大约
以后的竞争压力会比较

大。

不同工作阅历

的薪酬散布

<matplotlib.text.Text at 0x11cc58f50>

毫无疑问的,随着阅历

的提升,数据剖析

师的薪酬也在不时
进步
。另外,从现有数据来看,数据剖析

师似乎是个常青的职业方向,在10年内大约
不会由于
年龄的增长招致
收入降落

职业技艺
关键词

词云显现
出的状况

,有点超出了我的预料

。关于
数据剖析

师这一岗位,企业需求频率最高的技艺
并不是Python言语
和R言语
等往常
十分

时兴
数据剖析

言语
,而是传统的结构

化查询言语
SQL和表格神器Excel。这一点需求
各位小同伴
留意
,要想从事数据剖析

师岗位,SQL和Excel看起来是必备技艺
。 从词云上看出,数据剖析

师技艺
需求频率排在前列的有:SQL,Excel, SAS,SPSS, Python, Hadoop和MySQL等。另外,Java, PPT, BI软件等属于第二梯队。

控制
不同技艺
对薪酬收入的影响

<matplotlib.text.Text at 0x11f59b890>

我对需求频率最高的前15个技艺
中止

统计计算,得出每一个技艺
对应的平均

薪酬水平

,如上图。点的大小代表该技艺
需求量的多少。

在前15项技艺
中,shell,Hive, Spark这三者的平均

薪酬水平

最高,并且相对其他技艺
来说有比较

大的差别

。对数据剖析

师工作有所了解

的人应该都知道

,这三个工具中,Hive和Spark都是应用于散布

式数据处置
,而shell脚本则是Linux系统下工作的必需
技艺
。这三者共同指向了一个方向,那就是海量数据的散布

式处置

所以,想要拿高薪的小同伴
留意
了,海量数据处置
、散布

式处置
框架是走向高薪的正确方向。 另外值得留意
的是,在数据剖析

范畴
,Python言语
的平均

薪酬水平

要高于目前如日中天的Java言语
。而SQL言语
和传统的SAS,SPSS两大数据剖析

软件,则能够

让你在保证中等收入的条件下,能够

顺应
更多企业的央求

,也就意味着更多的工作机遇

剖析

结论

经过
上面的剖析

,我们能够

得到的结论有这些: 数据剖析

这一岗位,有大量的工作机遇

集中在北上广深以及杭州。 大多数据剖析

师的收入集中在5k-20k每月,只需

少数人能够

取得

更高的薪酬,但有极少数人薪酬极高,让人充溢
等候

从待遇上看,数据剖析

师留在深圳展开

是个不错的选择,第二
是北京、上海。 数据剖析

是个年轻的职业方向,大量的工作阅历

需求集中在1-3年。

关于
数据剖析

师来说,5年似乎是个瓶颈期,假定

在5年之内没有转型或者质的提升,大约
以后的竞争压力会比较

大。 随着阅历

的提升,数据剖析

师的薪酬也在不时
进步
,10年以上工作阅历

的人,能取得

相当丰厚的薪酬。

数据剖析

师需求频率排在前列的技艺
有:SQL,Excel, SAS,SPSS, Python, Hadoop和MySQL等,其中SQL和Excel简直

能够

说是必备技艺
。 海量数据、散布

式处置
框架是走向高薪的正确方向。 SQL言语
和传统的SAS,SPSS两大数据剖析

软件,能够

让你在保证中等收入的条件下,能够

顺应
更多企业的央求

,也就意味着更多的工作机遇

思索

和总结

关于
数据剖析

师技艺
的剖析

是比较

粗陋
的,在本次剖析

过程中,仅针对工具型的技艺
中止

了剖析

。但其实,数据剖析

师所需求
具备的素质远不止这些,还需求
有扎实的数学、统计学基础

,良好的数据敏感度,开辟

但严谨的思想
等。假定

要对这些内容中止

深化
挖掘

的话,应该会愈加
有趣。不过,要中止

这项内容的话,需求
控制
大量中文分词、关键字提取等方面的学问
和技艺
,难度也会更高。时间所限,在这里不再进一步展开了,希望以后有时间再做一个专项剖析

吧。 让人忍不住吐槽的是,Python2.X环境对中文编码的支持着实不够好,在处置
数据的时分
耗费

了大量的时间和肉体

,也犯了不少错,走了很多弯路。以后这一块的内容要找时间特地
攻坚一下,也能够

思索
换到python3平台去。

特别阐明

:本次数据源完好

来自拉勾网,但拉勾网自身

是专注于互联网相关行业的招聘平台,所以本次剖析

出的结论愈加
适用于互联网行业的相关企业,关于
其他行业的企业,一定
合适

来源:钱塘大数据

作者: 魏凯

发表评论

评论已关闭。

相关文章