数极客首页

大数据技术应用列表Top 10

在这个大数据爆炸的时期
,各种新项目如雨后春笋普通
,每天从世界各地不时
涌现出来。好音讯

是当下的技术都是开源可用的。下面就一同
来看看这个Top10列表,应用起来吧!

1.Hadoop

Hadoop是稳定企业实力和其他一切工作的基础

。你需求
应用
YARN ,HDFS和Hadoop中的基础

设备
,存储原始数据以及运转
关键的大数据效劳
器和应用程序。

2.Spark

Spark易于运用
,并且支持一切
重要的大数据言语
(Scala,Python,Java,R)。同时,Spark还是一个庞大

的生态系统,展开

疾速
,便于支持microbatching/batching/SQL。这是另一个不费脑筋的技术。

3.NiFi

NiFi是NSA工具,它能够

用最少的编码和一个润滑

的UI,提供简单的数据摄取、存储和处置
各种来源数据。这些数据的来源包括社交媒体,JMS,NoSQL,SQL,Rest/JSON Feeds,AMQP,SQS,FTP,Flume,ElasticSearch,S3,MongoDB,Splunk,Email,HBase,Hive,HDFS,Azure Event Hub,Kafka等等。假定

NiFi没有你需求
的来源或汇集

,你能够

为NiFi直接用Java代码编写自己

的处置
器。NiFi是另一个举荐

选入工具箱中的Apache项目,是大数据工具中的瑞士军刀。

4.Apache Hive 2.1

Apache Hive是运转
在Hadoop之上的永世
SQL处置

计划

。在Apache Hive 2.1最新版本中,性能和功用
上的增强

使 Hive胜利

作为SQL大数据处置

计划

留在榜单。

5.Kafka

Kafka是大数据系统间中止

异步、散布

式音讯

传送
的选择,它能够

进入大多数的堆栈。从Spark到NiFi,到第三方工具,再到Java和Scala,它很好地维系了系统。Kafka需求
在栈中应用。

6.Phoenix- HBase

由于很多公司都在应用HBase,也就招致
了这个开源项目的数据范围
极大。在HDFS支持下,NoSQL能够

很好地集成一切
工具。所以,在HBase上额外构建的Phoenix成为了NoSQL首选。这增强

了HBase的SQL、JDBC、OLTP和运营剖析

才干

7.Zeppelin

在运用
Hive,Spark,SQL,Shell,Scala,Python以及许多其他的数据挖掘

和机器学习工具时,Zeppelin是一款便利
、集成性较高的notebook工具。在易于运用
的同时,Zeppelin能够

以很好的方式来探求

和查询数据。而且这个工具能够

支持多种环境和功用
,用户只需求
经常更新图表和映射数据即可。

8.Sparkling Water

Sparkling Water补偿
了Spark中Machine Learning和其他工作间的空缺,提供一切
可能用到的机器学习效劳

9.Apache Beam

Apache Beam是一个用Java编写的统一框架,用于数据处置
和管道开发。同时,它也能够

支持Spark和Flink。其他的框架很快也会上线,用户不用
再去学习太多的框架。

10.Stanford CoreNLP

Natural Language Processing目前应用极广且增长疾速
,Stanford CoreNLP也在不时
地进步
他们的框架性能。

时下有数不清的大数据项目,所以最好的办法

就是兼并
及测试不同项目版本,来确保他们在安全

和管理上都能够

顺畅运转

原文链接:Top 10 BIg Data Technologies to Start Adopting Today!
作者:Tim Spann
译者:郭芮

发表评论

评论已关闭。

相关文章