数极客首页

我是如何从物理学转行到数据科学领域

  • 作者  Admond Lee
  • 编译  Mika
  • 本文为 CDA 数据剖析

    师原创作品

很多人问我是假定

从物理学转行到数据科学,本文讲述了关于我为什么决议
成为一名数据科学家,以及我是怎样
追求并完成
目的
的。希望能够

最终鼓舞
更多的人追求自己

的幻想

。让我们开端
吧!

CERN 暑期项目

CERN(欧洲核子研讨
组织)暑期项目为物理、计算机和工程专业的本科生提供了家常便饭
的机遇

,让他们前往瑞士日内瓦,与顶尖科学家一同
参与
研讨
项目。

2017年6月,我十分

侥幸

地被选中参与
这个项目。粒子物理学是我的研讨
方向,能够

参与
CERN的研讨
项目让我欣喜不已。在为期2个月的项目期间,针对CMS(紧凑μ子线圈)实验,我经过
世界级LHC(大型强子对撞机)计算网格和云计算中止

了相关剖析

和模仿

CMS(紧凑μ子线圈)

此外,暑期项目还包含了一系列盘绕
粒子物理和计算范畴
的讲座、研讨会。

在此期间,经过
参与
讲座、研讨会以及项目,我开端
接触到机器学习和大数据剖析

。令我诧异

的是,机器学习技术能够

处置
大量的数据,并精确

的对各种微观粒子中止

分类和检测。接着我毫不犹疑
地投入了对机器学习和云计算的探求
与学习。

谁知道

这次阅历
会成为我人生中的转机
点,我打算投身数据剖析

。但是
此时我对数据科学的定义仍比较

含糊

数据科学范畴
初探

固然

如此,我还是诧异

于数据是怎样
被用来为公司得出剖析

见解,并驱动商业价值。从了解

业务问题,到搜集
和中止

数据可视化,直到构建原型开发阶段,中止

微调,并将模型部署到理论

应用程序中,在这些过程中我发现了经过
运用
数据处置

复杂问题、完成应战
的满足感。

“没有数据,你只是一个空有想法的人”。

                                   —— W. Edwards Deming

我的动身
点—数据可视化

2017年8月,作为进入数据科学范畴
的第一步,我参与
了由Tableau和IMDA(Infocomm Media Development Authority)共同组织的NIC Face-Off 数据竞赛,当中我初次
接触到数据可视化

当中我有机遇

运用
Tableau Public对各种开放数据源中止

可视化,这些数据调查了东南亚雾霾的来源
,并提供了可操作性的的见解。

第一份数据剖析

兼职实习

在同月,我偶尔

发现了一个机遇

成为了moBIlityX的一名数据剖析

实习生,这是一家由SMRT资助

的初创公司。思索
到可读性和普遍
社区的支持,我运用
Python中止

编程。其真实
我大一开端
学习编程时,我想过放弃。为了运转
一个简单的for循环,我可能要破费

好几天致使

几周。而且我常常会觉得
自己

没有天赋。

直到大三我和教授开端
一项研讨
项目,我才开端
对编程产生兴味
。我开端
运用
Python中止

构建,并喜欢上了这个编程言语

我开端
不在自我狐疑

,而是采用以下的步骤学习编程:

1. 了解

编程的基本

逻辑;

2. 选择一种编程言语
并学习怎样
运用
(语法等);

3. 练习,练习,再练习;

4. 重复

步骤1-3 。

实习不时

持续到2018年3月,期间我的收获颇多。我学会运用
PostgreSQL和Python中止

数据清算
和操作、web抓取以及数据提取。

数据科学全职实习

看到这里你可能会问 ,为什么我选择去实习而不是一份数据科学的工作?那就是在申请全职工作之前,能够

经过
处置
理论

的数据,取得

更多的技术学问
,并从头开端
体验数据科学的整个流程。

学习资源

以下总结了我的学习过程,当中我接受

了很多人的辅佐

,并充沛

应用
了大量的在线资源。1. 举荐

书籍我读的第一本数据科学的书是《统计学习导论:基于R应用》(An Introduction to Statistical Learning — with Applications in R)。这本书关于
初学者是十分

不错的选择,当中着重统计建模和机器学习的基本

概念,并提供细致
而直观的解释。假定

你很擅长数学,那么你肯定会喜欢这本书:《统计学习基础

》(The Elements of Statistical Learning)。还有一些相关书籍也是不错的选择,比如

Sebastian Raschka的《面向初学者的机器学习》(Machine Learning for Absolute Beginners),《Python 和机器学习》(Python Machine Learning);以及Jake VanderPlas的《Python数据科学手册》( Python Data Science Handbook)。

2. 在线课程

我举荐

Coursera分别

开创

人吴恩达的《机器学习》课程。他能够

把复杂的概念合成
成更简单内容。该课程为期11周,主要盘绕
监视
式学习、无监视
学习以及机器学习的理论

应用。当构建机器学习模型时,我依然

会参考该课程讲义,用来处置

欠拟合或过度拟合的问题。

Udemy

Jose Portilla的《在数据科学和机器学习中运用
Python》(Python for Data Science and Machine Learning Bootcamp)是不错的选择。该课程从Python基础

学问
开端
,逐步

指导你怎样
运用
scikit-learn和TensorFlow完成
各种机器学习和深度学习代码。本课程细致
引见
了Python中各种库,用来完成
机器学习模型。

此外,我猛烈

举荐

Kirill Eremenko和Hadelin de Ponteves的课程《深度学习A-Z:人工神经网络》( Deep Learning A-Z™: Hands-On Artificial Neural Networks )。经过
该课程,我第一次接触到深度学习。课程主要经过
理论

操作的编程教程,把握监视
和无监视
深度学习。

Lynda

我举荐

Lillian Pierson的课程《在数据科学基础

锻炼
中运用
Python》( Python for Data Science Essential Training 。该课程以统计剖析

为基础

,盘绕
数据管理和数据可视化。

3. LinkedInLinkedIn是与数据科学社区有紧密

联络
的的强大平台。人们愿意在上面分享他们的阅历

、想法和学问
,从而辅佐

他人

。在LinkedIn上,我学习到了很多,无论是技术学问
还是职业咨询等。4. 其他资源许多数据科学范畴
的初学者经常会被大量的资源所淹没

。除了以上资源平台以外,还有Towards Data Science、Quora、DZone、KDnuggets、Analytics Vidhya、DataTau、fast.ai 等都是不错的选择。

树立
作品集

由于我只需

物理学的学士学位,我没有计算机科学相关学位,在大学的前三年中我也没有任何相关的数据科学作品。树立
个人作品集是很重要的,由于
公司需求
知道

你学了些什么,怎样
能过为公司业务贡献

价值。这也是我决议
实习和学习在线课程的缘由

不久之前,我和朋友一同
参与
由Shopee和工程与科技协会(IET)组织的Kaggle 机器学习应战
赛。这是我第一次参与
Kaggle竞赛
,我学习了怎样
运用
卷积神经网络(CNN)和迁移学习中止

图像辨认

结语

原文链接:https://towardsdatascience.com/my-journey-from-physics-into-data-science-5d578d0f9aa6

发表评论

评论已关闭。

相关文章