数极客首页

数据科学和机器学习的工具和语言最新动态

第18届年度KDnuggets软件投票又一次遭到
了剖析

数据科学界和软件消费
商的热情参与。与去年相似

,约有2900人参与了此次投票。

最近几年,Python的运用
增长率不时

比R快,到今年,Python终于以微小
的优势超越
了R的运用
率 (52.6% Vs 52.1%)。

但是
最大的惊喜应该是深度学习工具的普遍
共享和运用
。2017年深度学习有32%的运用
率,而在2016年只需

18%,2015年9%。谷歌Tensorflow疾速
成为深度学习平台的领头者,以20.2%的运用
率抢先
于其他平台。它去年的运用
率只需

6.8%,但在今年它进入了运用
工具的前10名。

2014年剖析

、数据挖掘

、数据科学的主要工具有四种:R、Python、SQL和SAS,而2017年抵达

了五种,分别是Python、R、SQL、Saprk和Tensorflow。

RapidMiner以33%左右的运用
率占领
着数据挖掘

/数据科学中最盛行
的通用平台前列,这和2016年简直

完好

一样。

我们留意
到,许多软件厂商都鼓舞
自己

的用户投票给自己

,但一切
的软件厂商都有对等
的机遇

这么做,因而

这并不违犯

KDnuggets准绳

。我们没有看到任何机器自动投票或只投给一个工具的情形。

Spark增长到约23%,在Hadoop体系中坚持
前10位的抢先
位置

除了TensorFlow外,在顶端也呈现
了另一个新工具Anaconda,有22%的运用
率。

剖析

、数据科学、机器学习范畴
运用
率居前的工具

表1:剖析

/数据科学范畴
2015-2017年

KDnuggets?投票结果对比

在上表中 ,”2017%Usage”是今年运用
这个工具的投票者百分比, “%Change 2017 Vs 2016″ 是与2016年运用
状况

的对比

,这里用绿色和红色高亮表示改动
超越
5%以上的状况

,”% alone” 是只运用
当前工具的投票者占比。

每个投票者工具平均

运用
数为6.1,和2016年6.0相比简直

没有变化 。

对比

于 2016年?KDnuggets剖析

/数据科学票选结果,前11名中新晋的工具是Anaconda和Tensorflow。

各个区域的参与度如下:

? 美国/加拿大(41.5%)

? 欧洲(35.5%)

? 亚洲(10.1%)

? 拉丁美洲(6.5%)

? 非洲/中东地域
(3.8%)

? 澳大利亚/新西兰(2.7%)

趋向

新工具在调查中有超越
2%的运用
率是

? Keras(9.5%)

? PyCharm(9%)

? 微软R(4.3%)

? IBM DSX(3.0%)

? PyTorch(3.0%)

? Teradata(2.4 %)

下表列出了在2017年里运用
增长率超越
20%且运用
率至少抵达

2%的工具,这其中包括5个深度学习工具和4个Microsoft工具。

表2:运用
率增长最快的剖析

/数据科学工具

我们留意
到,在2016年中至少有2%运用
率的工具中,有22个运用
量在增加,27个处于降落
阶段。这标明
,数据科学平台市场依然

没有被整合起来。

下表展示

了在2016年至少有2%的运用
率,但在2017年运用
率至少减少了20%的工具。Turi和Salford在最近被收购

,Perl和Octave被Python和R打败,RapidInsight或许
是没有提示
其用户投票给自己

,QlikView很可能输给了Tableau,C4.5能够

算是过时技术了。有趣的是,Hadoop体系的的开源工具里,针关于
MLlib和其他免费开源剖析

/数据挖掘

工具的运用
量也在减少。

表3:运用
率降落
最快的剖析

/数据科学工具

今年深度学习工具的运用
率跃升到32%,2016年只需

18%,2015年的9%。

谷歌Tensorflow是占主导位置
的平台,取代了去年的指导
者Theano / Pylearn2。

排名前列的工具有:

? Tensorflow,20.2%运用

? Keras,9.5%

? Theano,5.8%

? Other Deep Learning Tools,4.8%

? Mirrosoft CNTK,3.4%

? Caffe,3.1%

? PyTorch,3.0%

? DL4J 2.2%

? MxNet,1.8%

? Torch,1.2%

? Lasagne,0.9%

Hadoop的/大数据工具

我们曾经
简化了Hadoop体系下的针关于
Hadoop/Spark类工具的的分类。Hadoop下的商业/开源工具、SQL和Spark的运用
率占到了33%。这比2016年的39%略低,但2016年很多工具都被划分为大数据工具。2015年,Spark/Hadoop的工具运用
率为29%。

在2017年的大数据工具的运用
是:

? Spark,22.7%

? Hadoop 开源工具,15.0%

? Hadoop SQL,10.3%

? Hadoop 商业工具 7.6%

编程言语

Python、Java、Unix,scala大受欢送

而C/C ++,Perl,Julia,F#,Clojure和Lisp降落

以下是按投票排名的主要编程言语

? Python,52.6%的运用
率(2016年45.8%)

? R,52.1%(2016年49.0%),增长6%

? SQL,34.9%(35.5%),下跌2%

? Java,13.8%(16.8%),下跌18%

? Unix Shell/ AWK / GAWK,9.6%(10.4%),下跌7%

? C / C ++,6.3%,(7.3%),下跌13%

? Perl,1.7%,(2.3%),下跌27%

? Julia,1.1%(1.1%),无变化

Python不时
学习竞争对手Julia,持续增长,但是
Julia的运用
率却令人诧异

地坚持
了不变。

编译:TalkingData

作者:GregoryPiatetsky

来源:TalkingData锐眼

发表评论

评论已关闭。

相关文章