数极客首页

如何成为一名卓越的数据科学家 ——桃树七剑之三:算法调优

关于作者:

杨滔,桃树科技(TaoData)开创

人,专注于下一代人工智能产品的研发、应用与商业化。具有
超越
十年机器学习研讨
与应用阅历

。奥克兰大学机器学习博士,悉尼科技大学博士后。创建

桃数科技前,任职阿里巴巴集团数据科学家,树立
淘宝网数据科学团队,首创聚划算爆款模型。

来源:微信公众号【桃树科技】(ID:TaoDataRobot)

算法,是数据科学全部环节中最为神秘的部分

正是由于
人们关于
算法过高的敬畏之心,才使得算法的应用仅仅局限于少数数据科学家的手中,许多十分

有杀伤力的算法并没有在理论

问题中产生应有的价值。

其实,机器学习算法的实质

是一种工具,是一种让数据发明

价值的工具。

很多工程师脑中有一个庞大

的误解
,以为成为数据科学家要从修炼一堆复杂的理论开端
。——那些开出一堆书单的人,只能为出版商代言。

数据科学的技艺
,与人类许多其他的技艺
一样,其实是从运用
工具开端
的。因而

,面对开源工具严重缺乏的理想
状况

,桃树不时

坚持自主开发数据科学工具,让工程师立刻

具有
数据科学的技艺
,我们置信
这个工具将会改动
世界。

你能够

想象一下工具的力气
有多大:当他人

隐归多年苦苦练就降龙十八掌,而你只需求
掏出一把左轮手枪。

数据科学家的任务
并不是发明

算法,而是用一系列算法工具来处置

理论

问题,让算法辅佐

数据发明

价值。

每天都有不同的算法在学术期刊中被发明

,但只需

少数算法能够

在理论

问题上真正派上用场。

为何算法在理想的赛道上狂奔,数据却在理想
的角落里糜费

正是由于
许多数据科学家并没有认识
到,算法只不过是工具。许多数据科学家为了算法而发明

算法,为了炫技而疏忽

了解

决问题最简单的途径

机器学习算法是什么?

算法是一种言语
,一种能够

让机器执行人思想的言语
。机器学习算法,是让机器能够

持续从人所设定的目的
中去从数据中学习和执行的言语

普通意义上的算法,是人为机器设定的一系列“死命令”,这些命令通知
机器该怎样
执行人预设的命令。在这种状况

下,机器并没有自主学习的才干

,人需求
不时

为机器“出主见

”。

与普通算法不同,机器学习算法让数据与算法分别

起来,通知
机器在不同的状况

(数据)下执行不同的命令,并让机器在阅历

中不时
自我学习和优化。

能从不同环境(数据)中学习的机器是具备思想
才干

的机器。让机器能够

从数据中学习的算法,究其实质

是在模仿

人的思想

算法是在数据科学家思想
的框架下,自动化从数据资料

中学习,从而能够

灵活

处置

不同问题的技术。

机器学习算法的类别

正如人有许多不同的思想
方式

,机器学习算法也有许多不同的种类

。在我看来,每一种机器学习算法都可对应一种人类思想
方式

-理性主义信徒:它们假定
需求
学习的数据服从某类理想的统计散布

,并应用
数学技术从理想数据中推断规律。

-阅历

主义信徒:它们不从数据中做任何推理,而是找到不同案例之间的关联关系。

-规则派:它们不对数据做出任何假定
,而是直接从理想
数据中提炼一系列决策规则,并假定
这些决策规则适用于一切新数据。

-模仿

人脑的神经网络派:经过
层层神经元模仿

人脑的决策方式。目前最火热

的深度学习算法便属于这个类别。

机器学习算法还有许多其他不同的派系
,但无论哪个学派,机器学习技术实质

上都是人思想
的产物。出色

的数据科学家不拘泥于算法的派系
,而是吸取

融合

不同派系
算法的优势,最大水平

发挥数据的价值。

以桃树最新研发的数据科学引擎DataBrain为例,其架构并不是单一的某一种算法或者算法的组合,而是和人脑一样的左右脑结构

桃树DataBrain的左脑担任
逻辑思想
,基于机器学习框架从数据中学习规律;DataBrain的右脑,担任
发散思想
,将一系列原始数据源整合、清洗为一张宽表,并从中发现人原本

发现不了的新特征。我们最近正闭关将DataBrain打构成

细分范畴
最前沿的数据科学产品。

关于DataBrain的构架,与出色

数据科学家系列的主题有点远,或许
以后兴之所至,会单独开文再写一篇。

机器学习算法工具箱

数据科学家不是数学家,并不需求
深化
了解

每个复杂算法的数学原理。理论

上,了解

发起
机的原理并不能帮你具有
更高超的开车技艺

学者喜欢
发明

算法,数据科学家擅长应用
算法处置

理论

问题。在真实的数据科学项目中,没有最好的算法,只需

最适合

的算法。在不同的问题和数据中,数据科学家需求
运用
不同的算法。每个算法都有自己

适合

应用的数据范围,而每个数据都有最适合

的算法。

因而

,出色

的数据科学家需求
有一个机器学习算法工具箱

具有
了这个武器,数据科学家能够

针对不同的数据快速尝试多种算法,并基于理论

结果选择
算法。同时,数据科学家还能够

依据

实验效果设定自动选择
算法和自动调参的算法,让机器自动选择当前数据最适合

的算法和工具。

完成单项任务的效率,是权衡
数据科学家才干

最重要的指标之一。许多数据科学家在遇到理论

问题的时分
,还要破费

大量肉体

去重新造轮子(重新完成
一遍成熟算法)。因而

在更关键的步骤,如对问题和数据自身

的了解

上反而没有破费

足够的肉体

出色

的数据科学家一定是开源软件的发烧友。他们喜欢入手

理论
,忍不住的要把最好用的开源软件拿来玩一玩,看看能否
能进步
自己

数据的精确

率,能否
速度够快。

而研讨
型的数据科学家呢?他们总喜欢自己

造轮子,幻想

自己

从无到有造出一个新平台。殊不知,造一个平台容易,而持续的维护一个平台则需求
一个团队致使

多个团队的协同。

因而

,开源软件才是最简单的集成团队聪明

的方式。

那么,一个让数据科学家变得出色

的算法工具箱到底是怎样
样的呢?我以为
其必需
具备以下两个重要功用

可视化

假定

说机器学习算法是强大的发起
机,那么这个算法发起
机需求
一个简单易用的“方向盘”,可视化便是机器学习技术的方向盘。

当机器学习过程被充沛

合成
和展示

,数据科学家便能够

更好地把控算法优化的方向,包括怎样
选择算法,怎样
选取参数,怎样
在不同打分下评价
模型的效果。

在许多问题中,数据科学家需求
让算法具可解释性,而让算法可解释的重要伎俩

之一就是可视化。许多机器学习算法让数据升维,将数据投射到一个复杂的数学空间中并找到规律。而可视化技术可将模型中的数据结果降维: 将复杂结果简化为与决策最相关的决策信息。

这个从升维到降维的过程,正是让机器说人话的过程。

可视化也是机器吸纳人阅历

的一个过程。只需

当人充沛

了解

算法的输出,人的输入才干
更好地被算法应用。可视化是人机协作的前提,而人机协作是处置
复杂问题的最有效方式。

散布

式计算

所谓散布

式计算,是把一台计算机的压力合成
到多台机器中去完成。传统机器学习算法都是在单个机器中完成,而散布

式机器学习算法是让多台机器完成机器学习算法。如此,机器学习算法能够

处置
的数据量和计算效率得到质的提升。

机器学习技术最新的停顿
离不开散布

式计算技术,由于
散布

式机器学习技术让算法能够

从更多数据中建模学习。在大数据时期
,数据科学家需求
将单机版算法改造为散布

式版本,让大数据成为提升机器学习效果的中心
武器。人工智能技术质的提升,离不开大数据。

具备可视化和散布

式计算功用
的机器学习算法工具箱,是数据科学家最凶猛
的武器。只需
驾驭好这些武器,数据科学家便能够

高效的充沛

关注问题自身

,完成
数据价值最大化。

举荐

阅读:

1、怎样
成为一名出色

的数据科学家——开篇七剑

2、怎样
成为一名出色

的数据科学家 ——七剑之一:问题定义

3、怎样
成为一名出色

的数据科学家——第一剑之再谈问题定义

4、怎样
成为一名出色

的数据科学家 ——桃树七剑之二:数据准备

5、怎样
成为一名出色

的数据科学家 ——桃树七剑之二:数据准备中那些不为人知的数据源

发表评论

评论已关闭。

相关文章