数极客首页

萌新误入数据科学歧途怎么办?这是16位顶级大牛的入坑指南

译者 | 无明编辑 | Natalie微信公众号 | AI 前线(ID:ai-front)

为什么说数据科学很性感?这与众多新应用和整个行业在运用
大数据不无关系。这样的例子不胜枚举,如语音辨认

、计算机视觉中的物体辨认

、机器人和自动驾驶、生物信息学、神经科学、系外行星的发现和对宇宙来源
的了解

。在这些例子中,数据科学家是整个企业的中心
。他们必需
将范畴
学问
和统计专业学问
分别

起来,并运用
最新的计算机科学思想来应用这些学问

说到底,性感最终
还是要归结为有效。最近,我阅读了 Sebastian Gutierrez 的“Data Scientists at Work”一书。Sebastian 采访了来自 16 个不同行业的 16 位数据科学家,包括 Facebook 人工智能研讨
总监 Yann LeCun,了解

他们怎样
中止

理论思索

、他们在处置

什么问题、数据能够

为我们带来什么益处

,以及怎样才干
在这方面取得

胜利

。这 16 位受访者身处从大数据中获取价值的最前沿,逾越
了各种公共和私有组织(从创业公司和成熟企业到研讨
团体和人道主义非营利组织)——广告、电子商务、电子邮件营销、企业云计算、时兴

、工业互联网、互联网电视和文娱
、音乐、非营利组织、神经生物学、报纸和媒体、专业和社交网络、批发
、销售情报微风
险投资。

Sebastian 问了一些开放性的问题,让每位受访者能够

明晰
而精确

地表达出他们的个性和自发性思索

过程。这些数据科学家们分享了他们对数据科学的一些想法,比如

数据科学对他们来说意味着什么、他们怎样
看待

数据科学、他们对参与

该范畴
的人有哪些倡议

,以及一个数据科学家要怎样才干
在这个范畴
取得

胜利

1.Chris Wiggins,纽约时报首席数据科学家、哥伦比亚应用数学副教授

“发明

力和关怀

。你必需
真正喜欢某件事情,这样才干
在这件事情上中止

长时间的思索

。你还应该具备狐疑

肉体
。关于
博士生来说,五年时间足以让你发现一些东西,让你认识
到一路上自己

犯过哪些错。你会发现自己

搞砸了很多东西,然后一点一点去修复它们。取得

博士学位的过程锻炼了你的狐疑

肉体
,特别是在研讨
工作中,它会让你对那些看起来很肯定
的事情心存疑虑。我以为
这很重要,否则的话,你会很容易选择一条错误的道路,只是由于
在第一次找到这条路时,你觉得
它是对的。

固然
这听起来有点无聊,但我还是要说,数据科学家需求
真正的技术深度。经过
维基百科来了解

机器学习并责难
事。但理论

上,要真正做到这一点,需求
知道

哪些工具适用于什么样的任务,并充沛

了解

每种工具的局限性。这个过程是没有捷径可走的,你必然会犯下很多错误。 你必需
学会怎样
将分类问题归为聚类问题,或将聚类问题归为假定
检验问题。

你开端
尝试某些事情,并置信
自己

做的是对的,但到最终
才认识
到自己

完好

搞错了——这样的过程会不时
呈现
,而且没有捷径可走。你要坚持下去,并不时
犯错误。成为专家需求
很长时间,需求
阅历
多年的试错,几个世纪以来不时

如此。著名物理学家 Niels Bohr 曾经说过,要想成为一个范畴
的专家,就要在这个范畴
中犯下一切
可能的错误。

2.Caitlin Smallwood,Netflix 科学与算法副总裁

“我想说,在尝试做其他事情之前,先下功夫了解

数据基础

学问
,固然

这样做并不性感,也不那么有趣。换句话说,就是要努力了解

怎样
捕获数据,了解

每个数据字段的定义方式,了解

能否
发作
数据丧失
。假定

呈现
数据缺失,这能否
意味着什么?它是不是只在某些状况

下丧失
?你真的会遇到这类巧妙

的数据圈套
,真的。

无论你对建模中最有趣的部分

感到多么兴奋,都不能对原始数据视而不见。在开端
建模之前,务必先检查有关底层数据的一切。

随着时间的推移,我学到了另一件事:混合算法比单一算法更好,由于
不同的技术会应用
不同的数据方式

,特别是在复杂的大型数据集中。固然

我们能够

采用一种特定的算法,并经过
迭代来改进

它,但我所看到的是,算法组合常常
比单一算法更好
。”

3.Yann LeCun,Facebook 人工智能研讨
总监,纽约大学数据科学 / 计算机科学 / 神经科学教授

“我总是给出同样的倡议

,由于
我经常被问到这个问题。我以为
假定

你是一名本科生,能够

选择一门专业,让你能够

尽可能多地学习数学和物理。我要说的内容可能听起来似是而非,但工程学或物理学专业可能比数学、计算机科学或经济学更合适

当然,你需求
学习编程,所以需求
学习计算机科学课程,学会怎样
编程。然后再学习数据科学研讨
生课程,学习机器学习、人工智能或计算机视觉课程,由于
你需求
接触这些技术。在那之后,尽可能多地学习数学和物理课程,特别是连续性应用数学课程,这些在以后的实战中都用得上。

在数据科学或人工智能范畴
有许多不同类型的工作,就看你想要做什么。人们应该想分明

他们想要做什么,然后花时间去研讨
相应的课题。深度学习是当前的一个抢手
话题,所以能够

学习和了解

与神经网络相关的经典著作,学习优化,学习线性代数和其他相似

的课题。这样有助于你了解

我们每天都要面对的底层数学技术和普通
性概念。”

4.Erin Shellman,Zymergen 数据科学经理,Nordstrom 数据实验室和 AWS S3 前数据科学家

“关于
那些仍在思索
研讨
什么的人来说,我想通知
他们的是,STEM 范畴
是最容易的,特别是 TEM。经过
学习 STEM 能够

更好天文

这个范畴
,我也是这么看待

数学、统计和机器学习的。我对数学自身

不是十分

感兴味
,但我对运用
数学来描画

事物很感兴味
。毕竟它们都是工具,所以即便

你没有兴味
学习数学或统计学,花点时间学习它们依然

是值得的,并思索
怎样
将它们应用在你真正酷爱

的事情上。

关于
想转型的人来说,我想通知
他们的是,这是一条艰难

的路。要知道

,改行是很难的,你不得不付出百倍的努力。这个问题不是数据科学独有的——生活原本

就是如此。在这个陌生

的范畴
里生存很艰难

,不过你能够

经常参与
技术会议,认识这个范畴
的优秀人物。我的头号生活格言是“跟进”,假定

你以为
你能从某人那里学到东西,那么就跟他们交谈,并努力跟进。

数据科学家的帖子可能会令人生畏,由于
大多数内容看起来就像数据科学术语表一样难懂。事实上,技术变化如此之快,没有人能够

控制
一切
的东西,并把他们的阅历

写成帖子。当你看到这些帖子,可能会觉得,“这不适合

我,我没有这些技艺
,也没有什么能够

贡献

的。”我倡议

你改动
这种想法,只需
你愿意做出改动
,一切皆有可能。

最终
,公司需求
的是能够

严厉
定义问题并设计处置

计划

的人,他们也需求
擅长
学习的人。我以为
这些才是中心
技艺
。”

5.Daniel Tunkelang,Twiggle 首席搜索推行
官,领英搜索质量总监

“关于
来自数学或物文科
学范畴
的人,我倡议

他们花些肉体

在学习软件技艺
上,特别是 Hadoop 和 R 言语
,它们是运用
最普遍
的工具。而来自软件工程范畴
的人应该参与
机器学习课程,并运用
真实的数据集来开发项目,往常

有很多免费的数据集。正多么
多人所说的,成为数据科学家最好的办法

是参与到数据科学项目中。数据曾经
有了,况且数据科学并不难学,特别是关于
来自数学、科学或工程范畴
的专业人士来说。

阅读“数据的不合理有效性”(http://www.cs.columBIa.edu/igert/courses/E6898/Norvig.pdf ),这篇文章很经典,是由 Google 研讨
人员 Alon Halevy、Peter Norvig 和 Fernando Pereira 共同撰写。这篇文章的中心
观念
是“更多的数据比好的算法更重要”。这篇文章值得一读,由于
它概述了运用
网络范围
数据来改善语音辨认

和机器翻译的最新成果。然后,请看一下 Monica Rogati 关于更好的数据怎样
击败更多数据的评论(https://www.youtube.com/watch?v=F7iopLnhDik )
。假定

你能了解

和内化上述的两个观念
,那么你曾经
走在了成为一名数据科学家的路上。”

6.John Foreman,MailChimp 产品管理副总裁兼前首席数据科学家

“我发现招到合适

的人很难。这的确

是一件很艰难

的事情,由于
在我们的大学系统中,无论是在校生还是毕业生,他们只关注一件事情,也就是他们所在的专业。但数据科学家有点像新兴的文艺复兴人士,由于
数据科学实质

上是多学科的。

这就是为什么数据科学家比普通的计算机程序员更了解

统计学,同时又比统计学家更会编程。为什么这么说?这阐明

数据科学家需求
对这两件事情都需求
略知一二。不过,我想说的是,他们不只
需求
同时知道

这两件事情,他们也必需
知道

怎样
与人沟通。他们不只
需求
知道

基本

的统计学,还需求
知道

概率论、组合数学、微积分等。他们还需求
知道

怎样
围着数据转,怎样
运用
数据库,致使

可能需求
懂一点 OR(比值比)。有很多事情他们都需求
知道

。所以很难找到契合
条件的人,由于
他们必需
接触很多学科,必需
能够

聪明地表达出他们的阅历

。关于
申请人来说,这是一项艰巨的任务。

聘用契合
条件的人需求
很长时间,这就是为什么人们不时

在讨论往常

的数据科学范畴
没有足够人才。我以为
在某种水平

上,人们的顾忌
是对的。我以为
一些新开设的学位课程对这一问题会有所缓解。但即便

如此,关于
那些从这些学位课程中走出来的人,比如

MailChimp,我们还是会调查
他们,看看他们怎样
将这些课程教给他们的学问
应用在理论

当中。这个过程将淘汰掉很多人。我希望有更多的课程将重点放在数据科学家的沟通和协作方面。”

7.Roger Ehrenberg,IA Ventures 执行合伙人

“我以为
最大的机遇也是最大的应战
。除此之外,在面对需求
整合多个数据集的问题时,僵化的官僚主义、僵化的基础

设备
和数据孤岛让处置

这些问题难上加难。这种状况

将会发作
,而且我以为
我们正在讨论的很多技术都直接关系到怎样
让医疗保健变得更好、更实惠、更进步

。这是我们一整代人的机遇

早期的另一个重要范畴
是风险管理,包括融资、买卖
和保险。在将新数据集归入
风险评价
时,问题会变得十分

棘手,特别是在将这些技术应用于像保险这样的行业时,存在大量的隐私和数据问题。与此同时,这些公司开端
逐步

走向开放,并尝试与创业社区中止

互动,以便应用
新的技术。这是我发现的令人难以置信的另一个范畴

我热衷的第三个范畴
是重塑制造业并让其变得更有效率。制造业曾经
呈现
回归本土的趋向
。更强大的制造业可能是在美国重建一个充溢
生机

中产阶级的桥梁。我以为
技术有助于加速这一趋向
。”

8.Claudia Perlich,Dstillery 首席科学家

“我以为
,到了最终
,学习数据科学就像学习滑雪一样,变成了一件必做的事情。你看了很多教学视频,然后带上该死的滑雪板,沿着山坡滑下去。你会在途中摔几次跤,不过没关系,这是你应该取得

的学习体验。理论

上,我更倾向于向受访者讯问
那些不顺利的事情,而不是那些顺理成章的事情,由于
这样才干
通知
我们,他们在这个过程中学到了什么。

每当有人问我“我该做什么”时,我会说:“能够

参与
机器学习在线课程,毫无疑问,这些课程很有用。当然,你必需
会编程,至少懂一些。你不一定要是 Java 程序员,但你必需
以某种方式完成某件事,不论

你是怎样
做到的。”

最终
,无论是在 DataKind 做意愿
者,花时间帮非政府组织做事,还是去 Kaggle 网站参与
他们的数据挖掘

竞赛,只需
让自己

参与其中即可。假定

是在 Kaggle 网站上,就去逛逛论坛,看看其他人

怎样
讨论这些问题,由于
那里正是你了解

人们在做什么、什么管用以及什么不论

用的中央
。因而

,即便

你没有从中取得

任何报答
,但至少参与了与数据有关的事情,这自身

就是一件好事。

记住,除了滑下那座山,别无他法。因而

,花时间去做意愿
者吧,以任何你能想到的方式让自己

参与其中,假定

你有机遇

实习,那就再圆满
不过了。除此之外,你还有很多机遇

能够

把握,所以放手去做吧。”

9.Jonathan Lenaghan,PlaceIQ 首席科学家兼产品开发高级副总裁

“第一
,自我批判
是十分

重要的。总是质疑自己

提出的假定
,对自己

的产出坚持
偏执的态度,做到这点其实很容易。从技艺
方面来看,假定

人们真的想在数据科学范畴
取得

胜利

,最好是先控制
软件工程技艺
。固然

我们可能会雇佣那些只需

很少编程阅历

的人,但我们也会很努力地让他们认识
到工程、工程理论
,以及矫捷
编程理论
的重要性。这对他们和我们来说都很有辅佐

,由于
这些往常

简直

都能够

应用在数据科学中。

在 DevOps 范畴
,他们曾经
具有
诸如持续集成、持续构建、自动化测试和测试框架这些东西——一切
这些都能够

很容易地从 DevOps 范畴
映射到 DataOps 范畴
。我以为
这是一个十分

强大的概念。测试框架对数据来说十分

重要,假定

更改了代码,能够

针对数据中止

回归测试。要想在数据科学范畴
取得

快速的展开

,控制
工程学思想是十分

重要的。阅读“Code Complete”和“The Pragmatic Programmer”这两本书比阅读机器学习相关书籍会让你收获更多——当然,阅读机器学习相关书籍也是必需的。”

10.Anna Smith,Spotify 高级数据工程师,Rent the Runway 前剖析

工程师

假定

你刚刚开端
从事数据科学工作,你最需求
明白的是,应该大胆地向他人

讨教
问题
。我也以为
谦逊是十分

重要的。你必需
确保你没有被约束
在你正在做的事情当中,你能够

随时做出改动
,并重新开端
。我以为
,在刚开端
时能够

舍弃代码真的很难,但最重要的是要着手去做一些事情。

即便

你没有从事数据科学工作,依然

能够

在平常
探求

数据集,并从数据中取得

一些洞见。在我的个人业余时间里,我运用
过 Reddit 的数据。我问自己

,“我能够

从 Reddit 的数据中挖掘

出些什么?”一旦开端
问自己

这样的问题,你就会看到其他人

是怎样
处置

同样的问题的。带着你的直觉阅读他人

的文章,就似乎

“我能够

依照

自己

的方式来运用
这种技术”一样。放慢脚步,缓缓向前。在刚开端
时尝试阅读很多东西,但这样做并没有太大辅佐

,除非你曾经
充沛

应用
代码和数据,并了解

它们的工作原理。人们在书里展示

的东西一切都很美好

,但在理想
生活中,事实并非如此。

我以为
多做一些尝试也是十分

重要的。我从没有想过我会出往常

这里,我也不知道

五年后我会在哪里。但或许
这就是我的学习办法

,经过
在不同窗
科中做一些事情来尝试了解

最适合

自己

的东西。”

11.Andre Kargeistsenko,Taxify 数据科学主管,PlanetOS 分别

开创

人和研讨
主管

“固然
这只是泛泛的倡议

,但我还是想说,你应该置信
自己

,并跟随
你的内心。我们很容易受媒体的影响,选择一条你不想走的路。说到数据科学,你应该把它看作是职业生活
的起点。具有
这样的背景对任何事情都有益处

。开发软件技艺
和运用
统计数据的才干

将有助于你在选择范畴
时做出更明智的决策。我们能够

了解

怎样
经过
数据来提升运发起

的表现,比如

一个运发起

经过
优化和练习腾跃
的角度而成为跳远金牌得主。这些是体育范畴
运用
数据作为驱动的例子。

至于更细致

的技术倡议

,要取决于接受

倡议

的人的志向
。假定

这个人想要创建

新的办法

和工具,那么就需求
不一样的倡议

。你要坚持,并继续朝着你的方向行进
,你一定会胜利

。但是,假定

你的企图
具有多样性和灵活

性,那么你就需求
一系列不同的工具。

一位斯坦福大学教授曾经给过我最好的倡议

,我之前参与
了他的课程。他倡议

塑造自己

的 T 型竞争力,但在中心
才干

之外还需求
一些其他的竞争力,在必要的状况

下,你就有另外一条路能够

走。除了单个垂直范畴
的专业学问
外,他还倡议

我们具备足够普遍

的背景,以便能够

在不同的状况

下与不同的人一同
工作。所以,在你大学期间,树立
一种包含其他才干

的 T 形竞争力可能是最好的选择。

或许,最重要的是要盘绕
在比你优秀的人身边,并向他们学习,这是最好的倡议

。假定

你在念大学,那么这是察看

人们才干

多样化的最佳环境。假定

能与最优秀的人一同
工作,将辅佐

你取得

胜利

。”

12.Amer Heineike,PrimerAI 技术副总裁,Quid 前数学任主管

“我想,或许
他们需求
先想分明

自己

真正关怀

的是什么。他们想要做什么?目前,数据科学是一个抢手
话题,所以我以为
有很多人以为
假定

他们能够

给自己

打上‘数据科学家’的标签,那么快乐和金钱就会随之而来。所以我真的倡议

你先搞分明

自己

真正关怀

的是数据科学的哪些方面,这是你应该问自己

的第一个问题,然后再想办法

做好这项工作。你也会开端
思索
哪些才是自己

真正感兴味
的工作。

第一种办法

是深化
了解

你需求
知道

的部分

。我们的团队中有自然言语
处置
博士,也有物理学博士,他们运用
了许多不同的剖析

办法

。所以你能够

深化
到一个范畴
,然后找到同样注重
相似

问题的人,或者找到能够

运用
同样思想
来处置

的相似

问题。

另一种办法

是尝试做一些东西。往常

有很多可用的数据集。假定

你正在尝试换工作,那就试着想一下,你能够

在当前角色中运用
哪些数据,然后以有趣的方式去处置

问题。找一个借口去尝试一些事情,看看这能否
真的是你想要做的。你致使

能够

在家门口四处游荡,看看能找到什么。我以为
这是一个很好的开端
。往常

有很多不同的角色都与“数据科学”有关,而且还有很多角色看起来与数据科学有关,但没有正式打上标签,由于
往常

还不是时分
。所以,想想你真正想要的是什么。”

13.Victor Hu,QBE 保险公司数据科学主管,Next BIg Sound 前首席数据科学家

“第一
,你一定要学会讲故事。毕竟,你是在真正地去了解

一个系统、组织或行业的基本

运作原理。但你必需
学会讲故事,让人们也了解

这些学问
,让这些学问
变得真正有用。

学会把你做的东西写下来,把你的工作成果说出来,这是十分

重要的。另外,少去担忧
你运用
了什么算法。更多的数据或更好的数据胜过更好的算法,所以假定

你能够

树立
一种办法

,剖析

并取得

很多好的、洁净

的、有用的数据,那是再好不过了!”

14.Kira Radinsky,eBay 首席科学家兼数据科学主管,SalesPredict 前 CTO 和分别

开创

“找到你感兴味
的问题。对我而言,每次开端
尝试新事物时,假定

只是在没有遇到任何问题的状况

下中止

研讨
,真的觉得
很无聊。开端
阅读资料

,并尽快用它们来处置

你的问题,你很快就会找到问题所在。这样将引导你去学习其他东西,它们可能是书籍、论文或人。所以,花时间处置

问题,和其他人

待在一同
,你就会做得更好。

深化
了解

基础

学问
。了解

一些基本

的数据结构

和计算机科学学问
,了解

你运用
的工具和它们背后的数学原理,而不只
仅是知道

怎样
运用
它们。了解

输入、输出以及内部流程,否则你就不知道

在何时以及怎样
应用它。当然,这也取决于你正在处置
什么样的问题。关于
不同的问题,需求
运用
不同的工具。你必需
知道

每种工具都能够

做什么,而且必需
十分

了解

正在处置

的问题,这样才干
知道

运用
哪一种工具或技术。”

15.Eric Jonas,UC Berkeley EECS 博士后,Salesforce 首席预测科学家

“他们应该透彻天文

概率论。现阶段,我所学的任何东西,都会再映射回概率论。它提供了一个深化
而丰厚
的基础

,用于投射其他一切
的东西。 E.T. Jaynes 有一本书叫作《概率论:科学的逻辑》,对我们来说,它就是一本圣经级的作品。我之所以喜欢概率生成办法

,是由于
它提供了两个正交轴——建模轴和推理轴。从贝叶斯角度来看,它的益处

是能够

独立设计每个轴。当然,它们并不是完好

独立的,不过也足够接近独立,致使

于你能够

把它们看成是独立的。

深度学习或基于 LASSO 的线性回归系统都是机器学习的重要组成部分

,它们沿着一个轴或另一个轴中止

工程设计,但它们曾经
接近解体

的边缘。在运用
基于 LASSO 的技术时,我很难想象:‘假定

我稍微

改动
这个参数,将意味着什么?’线性回归模型包含了线性附加高斯模型,问题是,假定

我想做一些不一样的事情该怎样
办?忽然

之间,一切
这些正轨
化的最小二乘的模型都不奏效了。”

16.Jake Porwar,DataKind 开创

人兼执行董事

“我以为
巩固

的统计学背景是一个先决条件,由于
你需求
知道

自己

在做什么,并了解

你所构建的模型代表了什么含义。另外,我的统计学课程还讲授了很多关于道德的内容,这些是我们不时

在思索

的内容。你总是希望你的成果能够

被应用到工作当中,你能够

给任何人提供算法,给某人一个基于拦截盘查数据的模型,但为什么要这么做?最终结果会怎样?这就像是发明

新技术一样,你必需
思索
风险和收益,由于
你要为自己

的东西担任

无论你来自哪里,只需
了解

你所运用
的工具,那么这就是你能做的最好的事情。我们都是科学家,而且我不只是在谈论

设计产品。我们总结有关外部世界的结论,而这就是统计学——搜集
数据来证明假定
或创建

外部世界的运作模型。假定

你只是盲目

地置信
那个模型的结果,那是很风险
的,由于
那代表了你对世界的了解

,结果有多少瑕疵,你对世界的了解

就有多少缺陷。

总而言之,要学习统计学,并中止

深度思索

。”

总结

“Data Scientists at Work”一书展示

了世界顶级数据科学家怎样
在各种行业和应用中工作,每个人都应用
自己

的专业范畴
学问
、统计数据和计算机科学,发明

出庞大

的价值和影响力。

数据正在以指数级的速度生成,往常

比以往任何时分
都更需求
那些能够

了解

数据并从中提取价值的人。假定

你盼望
成为下一代数据科学家,那么这些来自前辈们的阅历

阅历

将助你一臂之力。

英文原文:

https://www.linkedin.com/pulse/16-useful-advices-aspiring-data-scientists-james-le

发表评论

评论已关闭。

相关文章