数极客首页

避免五大误区:数据科学家新手进阶之路

避免五大误区:数据科学家新手进阶之路

  • 作者 Jan Zawadzki
  • 编译  Mika
你为成为数据科学家做好了充沛

的准备。你参与
Kaggle竞赛
,看了大量的Coursera课程。你觉得
曾经
准备好了,但数据科学家的理论

工作将与你的预期大不相同。

避免五大误区:数据科学家新手进阶之路

本文讨论
了数据科学家新手的5个常见误区。这是我在Sébastien Foucaud博士的辅佐

下一同
总结的,他在学术界和行业范畴
指导年轻数据科学家有超越
20年的阅历

。本文旨在辅佐

你更好地走向数据科学家进阶之路。

避免五大误区:数据科学家新手进阶之路

误区1 热衷参与
Kaggle竞赛

避免五大误区:数据科学家新手进阶之路避免五大误区:数据科学家新手进阶之路

你经过
参与Kaggle竞赛
练习了数据科学技艺
。假定

你控制
决策树和神经网络那就更好了。但其实作为数据科学家,你不需求
完成那么多模型融合

。通常,你将花80%的时间中止

数据预处置
,剩下20%的时间用于构建模型。

避免五大误区:数据科学家新手进阶之路

参与
Kaggle竞赛
的益处

在于,给出的数据都很洁净

,从而你有更多的时间调整模型。但是在理论

工作中很少呈现
这种状况

,你需求
运用
不同的格式和命名方式来汇总不同来源的数据。

你需求
做的是,熟练

控制
你大部分

时间将要做的事,即数据预处置
。例如抓取图像或从API搜集
图像;从Genius搜集
歌词数据等。为处置

特定问题准备所需的数据,然后将其输入到计算机中开端
机器学习生命周期。知晓

数据预处置
无疑将大大辅佐

你成为一名出色的数据科学家,从而让你在公司制定决策中起到关键作用。

误区2 神经网络能搞定一切

深度学习模型在计算机视觉和自然言语
处置
范畴
优于其他机器学习模型,但也有显然
的缺陷

避免五大误区:数据科学家新手进阶之路

神经网络需求
大量数据。假定

样本较少,那么运用
决策树或逻辑回归模型效果会更好。众所周知,神经网络难以阐明

和解释,因而

也被称为”黑匣子“。当产品担任
人或主管对模型输出产生质疑时,你需求
中止

解释,而传统的模型更容易解释。

避免五大误区:数据科学家新手进阶之路

有很多出色的统计学习模型,你需求
了解

其优缺陷
,并依据

细致

任务应用相关模型。除非是用于计算机视觉或自然语音辨认

等专业范畴
,否则传统的机器学习算法的胜利

率会更高。你很快就会发现,像逻辑回归等简单模型是最好的模型。

避免五大误区:数据科学家新手进阶之路

来源:来自scikit-learn.org的算法表

误区3 机器学习是产品

在过去十年里,机器学习大受吹捧,许多创业公司都以为
机器学习能处置

任何存在的问题。

避免五大误区:数据科学家新手进阶之路

来源:过去5年中机器学习的谷歌指数趋向

机器学习永远不应该是产品。机器学习是强大的工具,用于消费
满足客户需求的产品。机器学习能够

用于让客户收到精准的商品举荐

;精确

辨认

图像中的对象;辅佐

企业向用户展示

有价值的广告。

作为数据科学家,你必需
以满足客户需求为目的
制定计划

,在此基础

上你才干
充沛

应用
机器学习。

误区4 混杂
因果关系与相关性

大约90%的数据是在过去几年中产生的。随着大数据的呈现
,机器学习从业者能够

取得

大量数据。由于有大量的数据需求
剖析

评价
,学习模型也更容易发现随机的相关性。

避免五大误区:数据科学家新手进阶之路

来源:http://www.tylervigen.com/spurious-correlations

上图显现
了美国小姐的年龄与蒸汽、热蒸汽和发热物体招致
的谋杀总数。依据

这些数据,算法会发现美国小姐的年龄与某些物体招致
谋杀间的方式

。但是
,这些数据点理论

上是无关的,并且这两个变量对其他变量没有任何预测作用。

当在数据中发现方式

时,要应用你的专业学问
。当中是相关性还是因果关系?回答

这些问题是从数据中得出剖析

见解的关键。

误区5 优化错误的指标

开发机器学习模型遵照
矫捷
的生命周期。第一
,你定义概念和关键指标。然后,将结果原型化。接着,不时
中止

改进

直到指标令你称心

避免五大误区:数据科学家新手进阶之路

在构建机器学习模型时,记得要中止

手动错误剖析

。固然
这个过程繁琐且费时费力,但能够

辅佐

你在迭代中有效地改进

模型。

结语

年轻的数据科学家能为公司提供庞大

价值。他们通常是自学成才,由于
很少有大学设有数据科学学位。同时他们具有猛烈

的猎奇
心,并且对自己

选择的范畴
充溢
热情,并盼望
了解

更多的学问
。关于
刚入行的数据科学家来说,一定要留意
以上提到的误区。

留意
以下几点:

· 练习数据管理

· 研讨
不同模型的优缺陷

· 让模型尽可能简单

· 检查结论中的因果性和相关性

· 优化最有希望的指标

原文链接:

https://towardsdatascience.com/top-5-mistakes-of-greenhorn-data-scientists-90fa26201d51

发表评论

评论已关闭。

相关文章