数极客首页

我的数据科学家工作初体验

我的数据科学家工作初体验

译者 | Liu Z Y编辑 | Natalie微信公众号 | AI 前线(ID:ai-front)

撰写本文时,正是我在 Quantum Inventions 的数据科学家实习行将
终了

前的最终
一天。往常

,我坐在笔记本屏幕前,回首过去这几个月的学习之旅,慨叹
万千。

到了最终
,在旅程终了

后,问题依然

存在:你学到了什么?那是你想要的吗?

请原谅我作为一名物理学家,搞物理的都笃信这点:提出正确的问题,经过
正确的推理,来寻求错误

。事实上,提出正确的问题,无疑是重要的数据科学家(稍后将解释)。

为了让你对本文有一个概观,本篇文章主要分三步部分

:实习之前、实习期间和实习之后,让你了解

我的学习进程
。你能够

依据

你当前的学习阶段,随意跳到本文的任何部分

,那让我们往常

就开端
吧。

在实习开端
之前

我依然

分明

地记得,我在 2017 年 11 月期末考试后的第二天就开端
阅读教材:《统计学导论:基于 R 应用》(An Introduction to Statistical Learning — with Applications in R),这是我在十分

基础

的统计学层面第一次接触机器学习。

AI 前线注:

该书中文版链接:https://3clm.jd.com/product-detail.html?sku=26581237226

英文版链接:https://3clm.jd.com/product-detail.html?sku=19727401

我一控制
这些概念之后,我就开端
学习 Andrew Ng 在 Coursrea 上教授的机器学习课程,这门课程十分

盛行
。事情并不像起初看起来那么容易,但是 Andrew Ng 总是能够

吸收
人们的留意
力,固然

他讲授的概念十分

复杂,但他简化了这些概念,其他人

都能够

消化。我想这就是让我真正留恋
机器学习的方式。试试吧,你会发现这个盛行
词“机器学习”并不像它听上去那么复杂。我敢打赌!

同时,我还学习了人工智能的另一个重点范畴
——深度学习。为了让大家了解

看似陌生

的术语,请看一下神经网络的解释,以及怎样
运用
神经网络来计算任何函数。假定

你阅读完我倡议

的文章之后,你像我一样,需求
某种可视化来了解

神经网络是怎样
工作的,请访问这个网址 [1](见文末)。在这个网页中,你点击“Play”按钮,就能够

察看

神经网络是怎样
中止

分类和回归的。很酷不是么?

我的数据科学家工作初体验

在我于 2017 年 12 月开端
实习之前,一切
的阅读、做事和学习都曾经
准备好了。

在实习期间

Quantum Inventions 专注于经过
应用
其集成的移动

应用套件,为消费者、企业和政府提供移动

智能。它们还提供了企业物流和剖析

平台。我是该公司的第一位参与

研发和剖析

团队的数据科学家实习生。

在最初几天里,我被引见
给公司里出色的同事,见识了业内各种通讯
术语,以及正在中止

的令人兴奋的项目。我最喜欢实习的一件事就是,作为实习生,公司给了我信任和自由

,我得以选择我感兴味
的项目,并为之竭尽全力

让我感到吃惊的是,我才认识
到,我是这个项目的先驱者,由于
之前并没有人做过这个项目。当没人做些事的时分
,就会有人去研讨
,这就是我所感激

之处,固然

这项研讨
存在不肯定
性和艰难

。为什么这么说?很简单,由于
我有机遇

从零开端
体验真正的数据科学工作流程(假定

不是全部的话)。

请允许我在本文中,扼要
地列出我所阅历
的工作流程,由于
这些都是我在数据科学范畴
中树立
的基础

。我希望这些能为你提供某些辅佐

1. 了解

业务问题

所选项目是关于短期高速公路旅游

时间的预测。但是,就像我所说的,提出正确的问题对数据科学家来说十分

重要。要在项目完成之前提出很多问题,以真正天文
解真正的业务问题,无论是可用的数据源,还是项目的最终目的
(即便

我分开
项目之后)等等。从实质

上来说,我们的目的
是,让新加坡高速公路的行驶时间的预测比目前的基线估量
法更精确

2. 搜集
数据源

接手这个新项目之后我感到很兴奋,开端
着手从数据库和同事那里搜集
数据源(基本

就是在办公室四处走动,讯问
关于数据源的问题)。搜集
正确的数据源,就相似

于你从不同网站抓取数据以便中止

数据预处置
的状况

一样。这项工作很重要,由于
它可能会影响你在后期阶段树立
的模型的精确

性。

3. 数据预处置

要知道

,真实世界的数据很脏。我们不能寄希望于 Kaggle 提供格式良好的、清洗过的数据。因而

,数据预处置
(其他人

可能会称之为数据整理或数据清洗)至关重要,致使

于我无法再强调它的重要性了。数据预处置
是最重要的阶段,由于
它能够

占领
整个工作流程的 40%~70%,只是为了清算
将要提供给

你模型的数据。

输出质量是由输入质量决议
的。(Garbage in, Garbage out)

我喜欢数据科学的一点就是,你必需
对自己

诚实

。当你不知道

自己

哪里无知,而你以为
预处置
的数据曾经
足够洁净

,并准备好为你的模型提供数据时,那么就有风险了:用错误的数据构建正确的模型。换言之,假定

数据在技术上与你具有
的范畴
学问
相符的话,你要不时

试着质疑自己

,要严厉
检查
数据,检查整个数据集中能否
存在其他异常值、缺失或不分歧
的数据。

在我错误地将错误数据输入模型之后,我就对此特别留意

,只是由于
预处置
步骤中存在一个简单的缺陷。

4. 构建模型

经过一番研讨
之后,我为项目提出了四个模型,分别是支持向量回归(Support Vector Regression,SVR)、多层感知器(Multilayer Perceptron,MLP)、长短期记忆网络(Long Short Term Memory,LSTM)和状态空间神经网络(State Space Neural Networks,SSNN)。为简约
起见,你能够

在网络上找到上述模型的细致
阐明

对我来说,从头开端
构建不同的模型是一个峻峭
的学习曲线,由于
我当时还在 MOOC 和教科书中学习。侥幸

的是,Scikit-learn 和 Keras(带有 TensorFlow 后端)帮我处置

了这个问题,由于
很容易在 Python 中习得快速模型原型及完成
。此外,我还学习了怎样
优化模型,并运用
几种技术对每个模型的超参数中止

微调。

5. 评价
模型

为了评价
每个模型的性能,我主要运用
了以下的一些指标:

  1. 平均

    绝对误差(Mean Absolute Error,MAE);

  2. 均方误差(Mean Squared Error,MSE);
  3. 可决系数(Coefficient of Determination(R2))。

在这个阶段,重复

步骤 3~5 次(可互换),直到肯定
最佳模型,足以超越
基线估量
值。

实习之后

实习肯定重新激起
了我对数据科学的热情,我很感激

我的工作能给未来

的工作留下了一些吸收
力。研讨
和开发阶段、与不同利益相关者沟通所需的技巧、用数据处置

业务问题的猎奇
心和热情(此处仅举几例)都有助于我对这一范畴
产生兴味

数据科学这一行业还很年轻,关于这一行业的职位描画

,对某些像我们这样的求职者而言,似乎有些含糊

而朦胧。假定

你不具备所需的一切
技艺
,这很正常,由于
大多数职位描画

都理想化了,以契合
雇主的最佳希冀

假定

你有疑问,你只需从 MOOC、书籍和文章(我往常

依然

这样做)中学习基础

学问
,并将你所学到的东西应用到你的个人项目或实习中去。要耐烦
些,由于
学习是需求
时间的。要享用
你的学习过程,由于
……

当你有疑问时,从 MOOCs、书籍和文章 (我往常

还在做的) 中学习基本

原理,并将你所学到的东西运用到你的个人项目或实习中。要有耐烦
。学习之旅的确

需求
时间。津津乐道

地学习你的旅程。由于

到了最终
,在旅程终了

后,问题依然

存在:你学到了什么?那是你想要的吗?

感激

你的阅读。我希望本文能够

为你提供一些扼要
的(并非详尽的)数据科学工作流程和我的学习过程的文档。

原文链接

https://towardsdatascience.com/my-first-data-scientist-internship-7f7aa2ee4040

[1] http://playground.tensorflow.org/#activation=relu&regularization=L2&batchSize=10&dataset=circle&regDataset=reg-plane&learningRate=0.01&regularizationRate=0.001&noise=50&networkShape=4,2&seed=0.94867&showTestData=false&discretize=false&percTrainData=90&x=true&y=true&xTimesY=false&xSquared=true&ySquared=true&cosX=false&sinX=false&cosY=false&sinY=false&collectStats=false&problem=regression&initZero=false&hideText=false

发表评论

评论已关闭。

相关文章