数极客首页

作为数据科学家应该学习的第一件事

依据

30年的商业阅历

,下面的列表是我以为
第一
应该在数据科学课中讲授的(非全面的)内容选择。 这是我文章的后续内容为什么Logistic回归应该最终
解说

我不肯定
下面这些主题能否
在数据营或大学课堂上讨论过。 问题之一是招聘教员
的方式。 招聘过程是有利于以学业成就或其“明星”身份而知名

的个人,并且他们倾向于在数十年内重复

教导

同一事物。 凶猛
的专业人士对成为教员

毫无兴味
(俗话说:假定

你做不到,就写出来,假定

你写不出来,就教你。)

它不一定是那样。 大量合格的专业人士,固然

不是明星,但他们会成为圆满
的教员

,并不一定是遭到
金钱的鼓舞

。 他们在实战中取得

大量的阅历

,可能会是很棒的教员

,辅佐

学生处置
真实的数据。 他们不需求
成为数据科学家,许多工程师完好

有才干

(并且有资历
)提供强大的数据科学培训。

数据科学课程中应该尽早解说

的主题

我的倡议

如下:

  • 概述算法怎样
    工作
  • 不同类型的数据和数据问题(数据缺失,数据重复

    ,数据错误)以及探求

    真实样本数据集,并且有树立

    性地批判他们

  • 怎样
    肯定
    有用的度量指标
  • 数据科学项目的生命周期
  • 编程言语
    简介和基本

    命令行指令(Unix命令:grep,sort,uniq,head,Unix管道等)。

  • 将结果传达给非专家并理处置

    策者的央求

    (将央求

    转化为数据科学家的行动项目)

  • 概述常见技术的优缺陷
    ,以及何时运用
    它们
  • 实例探求
  • 能够

    辨认

    有缺陷的研讨

相比之下,传统数据科学课程中第一
讨论了一个典型的主题列表:

  • 概率论,随机变量,最大似然估量
  • 线性回归,逻辑回归,方差剖析

    ,普通
    线性模型

  • K-NN(最近邻居聚类),层次聚类
  • 假定
    检验,非参数统计,马尔可夫链,时间序列
  • NLP,特别
    是词云(适用于小样本Twier数据)
  • 协同过滤算法
  • 神经网络,决策树,线性判别剖析

    ,朴素贝叶斯

这些技术没有什么基本

性的错误(除了最终
两个),但是你不可能在职业生活
中运用
它们 – 而不是在课堂上提出的基本

版本 – 除非你是在一群情投意合
的人中全部运用
相同的老式黑盒子工具。的确

应该教他们,但或许
不是一开端

数据科学课程中应包含的主题

下面列出的不应该在一开端
就教,但是十分

有用,很少包括在规范

课程中:

  • 模型选择,工具(产品)选择,算法选择
  • 阅历

    规律

  • 最佳理论
  • 将非结构

    化数据转换为结构

    化数据(创建

    分类法,编目算法和自动标注)

  • 如此处所述,混合多种技术以取得

    最佳效果

  • 丈量
    模型表现(R-Squared是最差的指标,但通常是课堂上教授的独一
    指标)
  • 数据增强

    (找到外部数据集和功用
    以取得

    更好的预测才干

    ,将其与内部数据混合)

  • 树立
    你自己

    的自制模型和算法

  • 大数据的诅咒(与维度的诅咒不同)以及怎样
    辨别

    相关和因果关系

  • 应该更新数据科学完成
    (例如查找表)的频率
  • 从设计原型到消费
    方式

    部署:正告

  • 蒙特卡洛模仿

    (一种简单的替代计划

    ,能够

    计算置信区间和测试统计假定
    ,致使

    不需求
    知道

    随机变量是什么)。

原文链接:
https://www.datasciencecentral.com/profiles/blogs/the-first-things-you-should-learn-as-a-data-scientist-not-what-yo

编译:数据人网

出处:http://shujuren.org/article/587.html

发表评论

评论已关闭。

相关文章