数极客首页

数据科学家如何找到心仪的工作?

本文,我们将重点讨论怎样
创建

高大上的数据科学作品集。我们将讨论什么技艺
是雇主希望看到的,以及怎样
创建

一份作品集以有效地展示

一切
的技艺
。我们将举例阐明

作品集中的项目应该怎样
呈现,并给你一些起步的倡议

读完这篇文章之后,你应该能够

了解

为什么要创建

数据科学作品集,以及细致

的办法

雇主想要什么

雇主招人时,想要的是那些能为企业发明

价值的人。这通常意味着,招聘
者需求
控制
能为企业带来收入和机遇的技艺
。而作为数据科学家,能够

经过
以下 4 种方式为企业发明

价值:

  • 对原始数据的敏锐洞察,并向他人

    展示

  • 例子:剖析

    广告点击率,会发现面向 18 到 21 周岁人群的广告比面向 21 到 25 周岁人群的广告带来的本钱
    收益高得多——企业据此调整它的广告投入,这就发明

    了商业价值。

  • 构建能为客户带去直接价值的系统。
  • 例子:Facebook 的一位数据科学家经过
    优化新闻流为用户展示

    更好的结果——这招致
    更多人订阅新闻流,意味着更多的广告订阅,这就为 Facebook 带来直接纳
    入。

  • 构建能为公司其他人

    带去直接价值的系统

  • 例子:编写脚本自动地从 3 个数据库提取数据并聚合,为他人

    中止

    剖析

    经过
    洁净

    的数据集——经过
    进步
    他人

    的工作效率,这也发明

    了价值。

  • 与公司其他人

    分享专业学问

  • 例子:与产品经理讨论怎样
    完成
    用到机器学习算法的功用
    ——经过
    避免

    不真实

    际的时间表和半废品
    ,这也发明

    了价值。

无须
置疑的是,当雇主考核招聘
者时,他们会考核招聘
者能否
具备上述四项技艺
的一项或多项(依据

公司和岗位不同,可能需求
招聘
者同时具备多项技艺
)。为了向企业证明你能在上述所列 4 个范畴
能帮到企业,你需求
展示

自身

具备以下技艺

  • 沟通才干
  • 与他人

    协作才干

  • 技术才干
  • 数据推断才干
  • 客观
    能动性

一个面面俱到

的作品集应该足以展示

你在上述各方面的技艺
,并且对他人

而言是易审视的——作品集中的每一项都应该具备丰厚
的文档,明晰
明了,这样,招聘经理才干
快速地对你的作品集中止

评价

为什么要打造作品集

假定

你具有
顶尖学府的机器学习或相关范畴
的学位,取得

数据科学相关的工作会相对容易。由于
顶尖学府的名誉

以及专业对口的事实,雇主置信
你能为企业发明

价值。但假定

你没有来自顶尖学府的相关学位,你就不得不为自己

树立
这份信任。

这样说吧:关于
雇主而言,需求的岗位有多达 200 份的申请。假定
HR 总共花 10 小时过滤申请以肯定
电话面试哪些人。这意味着平均

每个申请只需

3 分钟的评价
时间。开端
时,HR 不置信
你能为企业发明

价值,而你有 3 分钟的时间来树立
他们对你的这份信任,进而为自己

发明

电话面试的机遇

数据科学的一大特征是,你在自己

的项目中所做的工作,和你被录用之后所做的工作简直

一样。作为数据科学家,在 Lending Club 剖析

信贷数据,可能与剖析

他们发布的匿名贷款数据有很大的相似

之处。

数据科学家怎样找到心仪的工作?

Lending Club 匿名数据的前几行

树立
HR 对你的信任,最重要的就是证明你能做他们需求
你做的工作。关于
数据科学而言,这就需求
我们创建

一套项目作品集。项目越“真实”,HR 越置信
你将是企业的有用之人,你取得

电话面试的机遇

就越大。

数据科学作品集需求
包含哪些内容

既然我们知道

了需求
一个作品集,我们就需求
弄分明

它需求
包含哪些内容。至少,你应该在 GitHub或你的博客上有一些项目,代码是可见的,并配有良好的文档。HR 越是容易找到这些项目,他们就越容易对你的技艺
中止

评价
。每个项目都应该尽可能配有良好的文档,用 README 文件阐明

怎样
中止

设置,并引见
数据的特性

数据科学家怎样找到心仪的工作?

? s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s GitHub 上一个组织良好的项目

我们将讨论一些应该放入作品集的项目类型。倡议

每种类

型都有多个项目,特别
是与你希望从事的岗位相关的项目类型。比如

说,假定

你申请的岗位需求
大量机器学习的学问
技艺
,那么多创建

一些用到机器学习的项目会很有辅佐

。另一方面,假定

你申请的是剖析

师的岗位,那么数据清算
和数据呈现项目就更关键了。

数据清算
项目

数据清算
项目向 HR 展示

了你能够

提取不同的数据集并加以应用
。数据清算
是数据科学家做的最多的工作,因而

,它是需求
展示

的关键技艺
。这类项目触及
提取杂乱数据,然后清算
,并做剖析

。数据清算
项目证明了你的数据推理才干

,以及你将多个数据源的数据提取整合为单个数据集的才干

。数据清算
是一切
数据科学家工作的重要部分

,展示

你曾经
具备该项才干

将是一大优势。

你将需求
把原始数据清算
成易于剖析

的方式
。要做到这一点,你需求

  • 找一个杂乱的数据集
  • 能够

    在 data.gev,/r/datasets,或 Kaggle DataSets 上找找看

  • 不要挑清算
    后的数据——选择
    有多个数据文件,并且数据有细微差别

    的那种。

  • 假定

    能够

    ,找一些附加数据集——比如

    说,假定

    你下载了一个航班的数据集,那么经过
    谷歌能否
    能够

    找到一些相关的,可与之分别

    的数据集?

  • 尝试去挑一些你个人感兴味
    的——这样,你将完成一个更好的最终项目。
  • 选一个可用数据作答的问题
  • 探求

    数据

  • 发现有趣的探求

    角度

  • 清算
    数据
  • 假定

    有多个数据文件,将它们整合到一同

  • 确保你希望中止

    探求

    的角度,在数据层面是可完成

  • 做一些基础

    剖析

  • 尝试着回答

    你起初选择的问题

  • 展示

    结果

  • 倡议

    用 Jupyter Notebook 或 R Markdown 中止

    数据清算
    和剖析

  • 确保代码和逻辑是可了解

    的,尽可能多地运用
    注释和 Markdown 单元格阐明

    过程

  • 将项目上传到 GitHub
  • 由于允许

    的问题,不是总能将原始数据一并提交到 Git 仓库,因而

    你至少要描画

    一下原始数据,并阐明

    出处。

本系列的第一篇文章在第一部分

引见
了怎样
一步步创建

一个完好
的数据清算
项目。你能够

在这里查看。

数据科学家怎样找到心仪的工作?

部分

纽约市学校数据的数据字典

假定

你在寻觅
一个好的数据集上有艰难

,以下是一些例子:

  • 美国航班数据
  • 纽约市地铁旋转门数据
  • 足球数据

数据科学家怎样找到心仪的工作?

纽约市地铁,人来人往

假定

你想要一些灵感,以下是一些优秀的数据清算
项目的例子:

数据呈现项目

数据呈现项目展示

了你对数据的洞察力,从数据中提取洞见并用数听说
话的才干

。用数据讲故事对商业价值有庞大

影响,因而

,这将是你简历的重要组成部分

。这个项目触及
提取一组数据,并用数据呈现一个令人信服的结论。例如,你能够

应用
航班数听说
明某些机场存在显著的航班延迟现象,而这也允许

以经过
改动
航线改善。

一个优秀的数据呈现项目会用到大量的可视化,并能一步步地引导读者了解

剖析

结果。以下是创建

一个优秀的数据呈现项目的参考步骤:

  • 找一个有趣的数据集
  • 能够

    在 data.gev,r/datasets,或 Kaggle DataSets 上找找看

  • 挑一个与近期发作
    的事情
    有关的内容,以惹起
    读者的兴味
  • 尝试去挑一些你个人感兴味
    的——这样,你将完成一个更好的最终项目。
  • 从不同角度探求

    数据

  • 探求

    数据

  • 从数据中找出有趣的相关性
  • 创建

    图表并一步步展示

    你的发现

  • 细致
    记载
    这个引人注目

    的过程

  • 从一切
    的探求

    当选


    一个最有趣的角度

  • 记载
    从原始数据到最终发现的探求

    过程

  • 创建

    令人信服的图表

  • 就探求

    过程中每一步的思索

    ,中止

    充沛

    论述

    ,也能够

    对代码中止

    解释

  • 就每一步的结果,做丰厚
    的剖析

    ,以明晰
    地通知
    读者

  • 通知
    读者你在剖析

    数据过程中的所思所想

  • 展示

    结果

  • 倡议

    用 Jupyter Notebook 或 R Markdown 中止

    数据剖析

  • 确保代码和逻辑是可了解

    的,尽可能多地运用
    注释和 Markdown 单元阐明

    过程

  • 将项目上传到 GitHub

本系列的第一篇文章的第二部分

,曾经
引见
了怎样
一步一步让数据发声。你能够

在这里查看。

数据科学家怎样找到心仪的工作?

按街区 SAT 成果
划分的纽约市地图

假定

你在寻觅
一个好的数据集上有艰难

,这里有一些例子:

  • Lending club 的贷款数据
  • FiveThirtyEight 的数据集
  • Hacker new 的数据

假定

你想要一些灵感,以下是一些优秀的数据呈现项目的例子:

  • Hip-hop 与美国总统候选人特朗普
  • 纽约市出租车与优步数据剖析
  • 跟踪研讨
    NBA 球员的运动

数据科学家怎样找到心仪的工作?

提及 2016 年美国总统大选候选人的歌词(图片来自以上第一个项目)

端到端项目

到目前为止,我们曾经
引见
了触及
探求

性数据清算
和剖析

的项目。这些项目能让 HR 更好地认识到你对数据的洞察力以及呈现数据的才干

。但是
,它们并缺乏
以展示

你的创建

面向客户的系统的才干

。面向客户的系统触及
高性能的代码,这意味着系统能够

运用
不同数据,运转
多次

,产生不同输出。举个例子,一个能够

对股市中止

预测的系统——每天早上,它会自动下载最新的股市数据,然后据此预测当天哪些股票会走红。

为了展示

我们能够

创建

业务系统,我们需求
创建

一个端到端的项目。端到端的项目接纳
并处置
数据,然后产生输出。通常,这些输出都是机器学习算法的结果,但也能够

是其他输出,比如

契合
某一规范

的行总数。

这里的关键是,要让系统能灵活

地处置
新的数据(比如

股市数据),并具有高性能。此外,使代码易于装置

设置与运转
也很重要。以下是创建

一个优秀的端到端项目的参考步骤:

  • 找一个有趣的话题
  • 我们不会仅处置
    一个单一的静态数据集,因而

    ,你需求
    定一个话题

  • 该话题下应该有公开的、经常更新的数据
  • 以下是一些例子:
    • 天气
    • NBA 游戏
    • 航班
    • 电价
  • 导入并解析多个数据集
  • 在你的才干

    范围内,下载尽可能多的数据

  • 阅读了解

    数据

  • 找出你所希冀
    的预测内容
  • 创建

    预测

  • 计算所需的特征
  • 构建锻炼
    和测试数据
  • 做出预测
  • 整理代码并配上文档
  • 将代码合成
    为多个文件
  • 在项目中添加一个 REAME 文件,论述

    怎样
    装置

    和运转
    该项目

  • 添加内联文档
  • 使代码能轻松地从命令行运转
  • 上传项目到 GitHub

本系列的第三篇文章中曾经
引见
了怎样
一步一步创建

端到端的机器学习项目。你能够

在这里查看。

假定

你在定一个好的话题上有艰难

,以下是一些例子:

  • 历史上的 S&P 500 数据
  • 流式 Twier 数据

数据科学家怎样找到心仪的工作?

S&P 500 数据

假定

你想要一些灵感,以下是一些优秀的端到端项目例子:

  • 股票价钱
    预测
  • 自动音乐生成器

阐明

性文章

了解

并解释复杂的数据科学概念很重要,比如

机器学习的算法。这能够

让 HR 认识到,你擅长
向公司内的其他人

或客户解释复杂的概念。这也是数据科学作品集的关键点,由于
它是理想
世界中数据科学工作的重要部分

。这同时还展示

了你对概念及其工作原理有深化
的了解

,而不是仅仅停留在语法层面。深化
的了解

有助于你更好地判别
并做出更好的选择,以及向他人

引见
你的工作。

为了写一篇阐明

性的文章,我们第一
需求
挑一个数据科学的话题,然后撰写博客。这篇文章需求
带领

读者从一无所知到对概念有一个明晰
的了解

。而写文章的关键是,运用
质朴
的、简单的的言语
——你写得越专业,HR 就越难知道

你是真懂还是装懂。

写阐明

性文章的几个重要的步骤是:挑一个你熟习
的话题,带领

读者了解

概念,然后应用
最终的概念做一些有趣的事。以下是一些的参考步骤:

  • 找一个你熟习
    的或想要去学习的概念
  • 机器学习的算法,比如

    k-nearest neighbors (最近邻居法) 就是一个可选的例子

  • 统计学的概念,也是不错的选择
  • 确保这个概念有一些精妙之处值得挖掘
  • 确保你真的了解

    了这个概念,并且解释起来并不复杂

  • 挑一个数据集辅助解释
  • 比如

    说,假定

    你选择对 k-nearest nerghbors 中止

    论述

    ,你能够

    借助 NBA 的数据(寻觅
    球路相似

    的球员)

  • 列一个文章的大纲
  • 假定
    读者完好

    不了解

    你将论述

    的概念

  • 将概念合成
    成几个部分

    • 比如

      ,k-nearest neighbors,能够

      合成
      为:

    • 应用
      相似

      性中止

      预测

    • 相似

      度量

    • 欧式距离
    • 应用
      k = 1 中止

      匹配

    • 应用
      k > 1 中止

      匹配

  • 撰写文章
  • 用直白的言语
    中止

    明晰
    的描画

  • 盘绕
    一个中心点写
  • 试着找一个非技术人员读一读这篇文章,看看他们的反响
  • 分享文章
  • 最好发布到你自己

    的博客

  • 假定

    没有博客,就上传到 GitHub

假定

你在找一个好的概念上有艰难

,以下是一些例子:

  • k-平均

    算法

  • 矩阵乘法
  • 卡方检验

数据科学家怎样找到心仪的工作?

k-平均

算法的可视化

假定

你想要一些灵感,下面是一些比较

好的阐明

性文章的例子:

  • 线性回归
  • 自然言语
    处置
  • 朴素贝叶斯
  • k-nearest neighbors

可选的作品集构件

固然
上传至 GitHub 和博客的项目很关键,但是添加一些其他的组件也会很有辅佐

,比如

Quora 上的回答

、演讲以及数据科学竞赛的结果。这些通常是 HR 第二关怀

的,但它们也是突出和证明你才干

的一种很好的方式。

演讲

演讲是一种辅佐

教导

他人

的有效方式,它还能够

向 HR 证明你对某个话题曾经
熟习
到足以为人师的地步。它能够

辅佐

HR 认识你的沟通与演说才干

。这些技艺
与作品集的其他部分

在一定水平

上会有堆叠
,但依然

是很好的证明。

最常见的演讲地点是当地的 Meetup。Meetup 上的演讲都是盘绕
细致

主题展开的,比如

“Python”,或者“应用
D3 中止

数据可视化”。

要做好演讲,以下是几个值得参考的步骤:

  • 找一个你从事过的项目或熟习
    的概念
  • 最好先看一看作品集中的项目和博客文章
  • 无论你最终挑了什么,它应该与聚会的主题是分歧
  • 合成
    项目,并用幻灯片演示
  • 你需求
    将项目中止

    合成
    ,并用一系列幻灯片中止

    演示

  • 每张幻灯片上的文字阐明

    尽量少

  • 多练习几次演讲
  • 正式演讲
  • 将幻灯片上传到 GitHub 或你的博客

假定

你需求
一些灵感,以下是一些优秀的演讲例子:

  • 计算统计学
  • Scikit-learn vs Spark for ML pipelines
  • NHL(国度
    冰球联盟) 点球剖析

数据科学竞赛

数据科学竞赛触及
用大量数据锻炼
最精确

的机器学习模型。因而

参与
竞赛是很好的学习方式。从 HR 的视角来看,数据科学竞赛能够

证明你的技术才干

(假定

你做得够好的话),你的主动性(假定

你的确

付出了很多努力)以及你的协作才干

(假定

你是与他人

协作
参赛的)。这同样与作品集的其他项目有堆叠
,但它也是突出你才干

的第二种方式。

大多数数据科学竞赛都由 Kaggle 和 DrivenData举行

要参与
(以上的)的数据科学竞赛,你只需求
在相应的网站上注册,然后就能够

开端
了!你能够

从这里开端
一项竞赛,你也能够

在这里找到一些教程。

数据科学家怎样找到心仪的工作?

Kaggle 上一项赛事的排行榜

小结

往常

,你关于
要在作品集中展示

哪些才干

,以及怎样
打造作品集,应该有了一个明晰
的概念。往常

就能够

行动起来了!

假定

你曾经
有一份简历,想秀一下,请在评论区通知
我们!

点此查看原文链接

作者:Vik Paruchuri,

译者:赵喧典,校正
:EarlGrey,

出品:PythonTG 翻译组/编程派

发表评论

评论已关闭。

相关文章