数极客首页

关于大数据,你应该知道的75个专业术语

近日,Ramesh?Dontha?在?DataConomy?上连发两篇文章,扼要而全面地引见
了关于大数据的?75?个中心
术语,这不只
大数据初学者的很好的入门资料

,关于
高阶从业人员也能够

起到查缺补漏的作用。本文分为上篇(25?个术语)和下篇(50?个术语)。机器之心对文章中止

了编译,原文链接请见文末。

上篇(25?个术语)

假定

你刚接触大数据,你可能会觉得这个范畴
很难以了解

,无从下手。不过,你能够

从下面这份包含了?25?个大数据术语的清单入手

,那么我们开端
吧。

算法(Algorithm):算法能够

了解

成一种数学公式或用于中止

数据剖析

的统计学过程。那么,「算法」又是何以与大数据扯上关系的呢?要知道

,固然

算法这个词是一个统称,但是在这个盛行
数据剖析

的时期
,算法也经常被提及且变得越发盛行

剖析

(Analytics):让我们试想一个很可能发作
的状况

,你的信誉
卡公司给你发了封记载
着你全年卡内资金转账状况

的邮件,假定

这个时分
你拿着这张单子,开端
认真研讨
你在食品、衣物、文娱
等方面消费状况

的百分比会怎样?你正在中止

剖析

工作,你在从你原始的数据(这些数据能够

辅佐

你为来年自己

的消费状况

作出决议
)中挖掘

有用的信息。那么,假定

你以相似

的办法

在推特和脸书上对整个城市人们发的帖子中止

处置

怎样
呢?在这种状况

下,我们就能够

称之为大数据剖析

。所谓大数据剖析

,就是对大量数据中止

推理并从中道出有用的信息。以下有三种不同类型的剖析

办法

,往常

我们来对它们分别中止

梳理。

描画

性剖析

法(Descriptive?Analytics):假定

你只说出自己

去年信誉
卡消费状况

为:食品方面?25%、衣物方面?35%、文娱
方面?20%、剩下?20%?为杂项开支,那么这种剖析

办法

被称为描画

性剖析

法。当然,你也能够

找出更多细节。

预测性剖析

法(Predictive?Analytics):假定

你对过去?5?年信誉
卡消费的历史中止

了剖析

,发现每年的消费状况

基本

上呈现一个连续变化的趋向
,那么在这种状况

下你就能够

高概率预测出:来年的消费状态应该和以往是相似

的。这不是说我们在预测未来

,而是应该了解

为,我们在「用概率预测」可能发作
什么事情。在大数据的预测剖析

中,数据科学家可能会运用
先进的技术,如机器学习,和先进的统计学处置
办法

(这部分

后面我们谈判

到)来预测天气状况

、经济变化等等。

规范

性剖析

(Prescriptive?Analytics):这里我们还是用信誉
卡转账的例子来了解

。假定

你想找出自己

的哪类消费(如食品、文娱
、衣物等等)能够

对整体消费产生庞大

影响,那么基于预测性剖析

(Predictive?Analytics)的规范

性剖析

法经过
引入「动态指标(action)」(如减少食品或衣物或文娱
)以及对由此产生的结果中止

剖析

来规则
一个能够

降低你整体开支
的最佳消费项。你能够

将它延伸到大数据范畴
,并想象一个担任
人是怎样
经过
察看

他面前多种动态指标的影响,进而作出所谓由「数据驱动」的决策的。

批处置
(Batch?processing)
:固然

批量数据处置
从大型机(mainframe)时期
就曾经
存在了,但是在处置
大量数据的大数据时期
面前,批处置
取得

了更重要的意义。批量数据处置
是一种处置
大量数据(如在一段时间内搜集
到的一堆买卖
数据)的有效办法

。散布

式计算(Hadoop),后面会讨论,就是一种特地
处置
批量数据的办法

Cassandra?是一个很盛行
的开源数据管理系统,由?Apache?Software?Foundation?开发并运营。Apache?控制
了很多大数据处置
技术,Cassandra?就是他们特地
设计用于在散布

式效劳
器之间处置
大量数据的系统。

云计算(Cloud?computing):固然
云计算这个词往常

曾经
众所周知
,这里大可不用
赘述,但是为了全篇内容完好
性的思索
,笔者还是在这里参与

了云计算词条。实质

上讲,软件或数据在远程效劳
器上中止

处置
,并且这些资源能够

在网络上任何中央
被访问,那么它就可被称为云计算。

集群计算(Cluster?computing):这是一个来描画

运用
多个效劳
器丰厚
资源的一个集群(cluster)的计算的形象化术语。更技术层面的了解

是,在集群处置
的语境下,我们可能会讨论节点(node)、集群管理层(cluster?management?layer)、负载均衡

(load?balancing)和并行处置
(parallel?processing)等等。

暗数据(Dark?data):这是一个生造词,在笔者看来,它是用来威吓

人,让高级管理听上去晦涩难懂的。基本

而言,所谓暗数据指的是,那些公司积聚
和处置
的理论

上完好

用不到的一切
数据,从这个意义上来说我们称它们为「暗」的数据,它们有可能基本

不会被剖析

。这些数据能够

是社交网络中的信息,电话中心的记载
,会议记载
等等。很多估量
以为
一切
公司的数据中有?60%?到?90%?不等可能是暗数据,但理论

上没人知道

数据湖(Data?lake):当笔者第一次听到这个词时,真的以为这是个愚人节笑话。但是它真的是一个术语。所以一个数据湖(data?lake)即一个以大量原始格式保管
了公司级别的数据学问
库。这里我们引见
一下数据仓库(Data?warehouse)。数据仓库是一个与这里提到的数据湖相似

的概念,但不同的是,它保管
的是经过清算
和并且其它资源整合后的结构

化数据。数据仓库经常被用于通用数据(但不一定如此)。普通
以为
,一个数据湖能够

让人更便当
地接触到那些你真正需求
的数据,此外,你也能够

更便当
地处置
、有效地运用
它们。

数据挖掘

(Data?mining):数据挖掘

关乎如下过程,从一大群数据中以复杂的方式

辨认

技巧找出有意义的方式

,并且得到相关洞见。它与前文所述的「剖析

」息息相关,在数据挖掘

中,你将会先对数据中止

挖掘

,然后对这些得到的结果中止

剖析

。为了得到有意义的方式

(paern),数据挖掘

人员会运用
到统计学(一种经典的旧办法

)、机器学习算法和人工智能

数据科学家:数据科学家是时下十分

性感的一门行业。它指那些能够

经过
提取原始数据(这就是我们前面所谓的数据湖)进而了解

、处置
并得出洞见的这样一批人。部分

数据科学家必备的技艺
能够

说只需

超人才有:剖析

才干

、统计学、计算机科学、发明

力、讲故事才干

以及了解

商业背景的才干

。难怪这帮人工资很高。

散布

式文件系统(Distributed?File?System)大数据数据量
太大,不能存储在一个单独的系统中,散布

式文件系统是一个能够

把大量数据存储在多个存储设备上的文件系统,它能够

减少存储大量数据的本钱
和复杂度。

ETL:ETL?代表提取、转换和加载。它指的是这一个过程:「提取」原始数据,经过
清洗/丰厚
的伎俩

,把数据「转换」为「适合

运用
」的方式
,并且将其「加载」到合适

的库中供系统运用
。即便

?ETL?源自数据仓库,但是这个过程在获取数据的时分
也在被运用
,例如,在大数据系统中从外部源取得

数据。

Hadoop:当人们思索

大数据的时分
,他们会立刻

想到?Hadoop。Hadoop?是一个开源软件架构(logo?是一头心爱
的大象),它由?Hadoop?散布

式文件系统(HDFS)构成,它允许运用
散布

式硬件对大数据中止

存储、笼统
和剖析

。假定

你真的想让某人对这个东西印象深化

,你能够

跟他说?YARN(Yet?Another?Resource?Scheduler),望文生义
,就是另一个资源调度器。我的确

被提出这些名字的人深深震动
了。提出?Hadoop?的?Apache?基金会,还担任
?Pig、Hive?以及?Spark(这都是一些软件的名字)。你没有被这些名字冷傲

到吗?

内存计算(In-memory?computing):通常以为
,任何不触及
到?I/O?访问的计算都会更快一些。内存计算就是这样的技术,它把一切
的工作数据集都移动

到集群的集体内存中,避免

了在计算过程中向磁盘写入中间结果。Apache?Spark?就是一个内存计算的系统,它相对?Mapreduce?这类?I/O?绑定的系统具有很大的优势。

物联网(IoT):最新的盛行
语就是物联网(IoT)。IoT?是嵌入式对象中(如传感器、可穿戴设备、车、冰箱等等)的计算设备经过
英特网的互联,它们能够

收发数据。物联网生成了海量的数据,带来了很多大数据剖析

的机遇。

机器学习(Machine?Learning):机器学习是基于喂入的数据去设计能够

学习、调整和提升的系统的一种办法

。运用
设定的预测和统计算法,它们持续地迫近

「正确的」行为和想法,随着更多的数据被输入到系统,它们能够

进一步提升。

MapReduce:MapReduce?可能有点难以了解

,我试着解释一下吧。MapReduceMapReduce?是一个编程模型,最好的了解

就是要留意
到?Map?和?Reduce?是两个不同的过程。在?MapReduce?中,程序模型第一
大数据集分割成一些小块(这些小块拿技术术语来讲叫做「元组」,但是我描画

的时分
会尽量避免

晦涩的技术术语),然后这些小块会被分发给不同位置上的不同计算机(也就是说之前描画

过的集群),这在?Map?过程是必需
的。然后模型会搜集
每个计算结果,并且将它们「reduce」成一个部分

。MapReduce?的数据处置
模型和?Hadoop?散布

式文件系统是分不开的。

非关系型数据库(NoSQL):这个词听起来简直

就是「SQL,结构

化查询言语
」的反义词,SQL?是传统的关系型数据管理系统(RDBMS)必需的,但是?NOSQL?理论

上指的是「不止?SQL」。NoSQL?理论

上指的是那些被设计来处置
没有结构

(或者没有「schema」,纲要)的大量数据的数据库管理系统。NoSQL?适合

大数据系统,由于
大范围
的非结构

化数据库需求
?NoSQL?的这种灵活

性和散布

式优先的特性

R?言语
:这还有人能给一个编程言语
起一个愈加
糟糕的名字吗?R?言语
就是这样的言语
。不过,R?言语
是一个在统计工作中工作得很好的言语
。假定

你不知道

?R?言语
,别说你是数据科学家。由于
?R?言语
是数据科学中最盛行
的编程言语
之一。

Spark(Apache?Spark):Apache?Spark?是一个快速的内存数据处置
引擎,它能够

有效地执行那些需求
迭代访问数据库的流处置
、机器学习以及?SQL?负载。Spark?通常会比我们前面讨论过的?MapReduce?快好多。

流处置
(Stream?processing)
:流处置
被设计来用于持续地中止

流数据的处置
。与流剖析

技术(指的是能够

持续地计算数值和统计剖析

的才干

)分别

起来,流处置
办法

特别能够

针对大范围
数据的实时处置

结构

化?vs?非结构

化数据(Structured?v?Unstructured?Data):这是大数据中的对比

之一。结构

化数据基本

上是那些能够

被放在关系型数据库中的任何数据,以这种方式组织的数据能够

与其他数据经过
表格来关联。非结构

化数据是指任何不能够

被放在关系型数据库中的数据,例如邮件信息、社交媒体上的状态,以及人类语音等等。

下篇(50?个术语)

这篇文章是上篇文章的持续
,由于上篇反响热烈,我决议
多引见
?50?个相关术语。下面来对上篇文章涵盖的术语做个简短的回想

:算法,剖析

,描画

性剖析

,预处置
剖析

,预测剖析

,批处置
,Cassandra(一个大范围
散布

式数据存储系统),云计算,集群计算,暗数据,数据湖,数据挖掘

,数据科学家,散布

式文件系统,ETL,Hadoop(一个开发和运转
处置
大范围
数据的软件平台),内存计算,物联网,机器学习,Mapreduce(hadoop?的中心
组件之一),NoSQL(非关系型的数据库),R,Spark(计算引擎),流处置
,结构

化?vs?非结构

化数据。

我们接下来继续了解

另外?50?个大数据术语。

Apache?软件基金会(ASF)提供了许多大数据的开源项目,目前有?350?多个。解释完这些项目需求
耗费

大量时间,所以我只选择
解释了一些盛行
术语。

?Apache?Kafka:命名于捷克作家卡夫卡,用于构建实时数据管道和流媒体应用。它如此盛行
的缘由
在于能够

以容错的方式存储、管理和处置
数据流,听说
还十分

「快速」。鉴于社交网络环境大量触及
数据流的处置
,卡夫卡目前十分

受欢送

Apache?Mahout:Mahout?提供了一个用于机器学习和数据挖掘

的预制算法库,也可用作创建

更多算法的环境。换句话说,机器学习极客的最佳环境。

Apache?Oozie:在任何编程环境中,你都需求
一些工作流系统经过
预定义的方式和定义的依赖关系,布置
和运转
工作。Oozie?为?pig、MapReduce?以及?Hive?等言语
编写的大数据工作所提供正是这个。

Apache?Drill,?Apache?Impala,?Apache?Spark?SQL:这三个开源项目都提供快速和交互式的?SQL,如与?Apache?Hadoop?数据的交互。假定

你曾经
知道

?SQL?并处置
大数据格式存储的数据(即?HBase?或?HDFS),这些功用
将十分

有用。负疚
,这里说的有点奇特

Apache?Hive:知道

?SQL?吗?假定

知道

那你就很好上手?Hive?了。Hive?有助于运用
?SQL?读取、写入和管理驻留在散布

式存储中的大型数据集。

Apache?Pig:Pig?是在大型散布

式数据集上创建

、查询、执行例程的平台。所运用
的脚本言语
叫做?Pig?Latin(我绝对不是瞎说,置信
我)。听说
?Pig?很容易了解

和学习。但是我很狐疑

有多少是能够

学习的?

Apache?Sqoop:一个用于将数据从?Hadoop?转移到非?Hadoop?数据存储(如数据仓库和关系数据库)的工具。

Apache?Storm:一个免费开源的实时散布

式计算系统。它使得运用
?Hadoop?中止

批处置
的同时能够

更容易地处置
非结构

化数据。

人工智能(AI):为什么?AI?出往常

这里?你可能会问,这不是一个单独的范畴
吗?一切
这些技术展开

趋向
紧密

相连,所以我们最好静下心来继续学习,对吧?AI?以软硬件分别

的方式开发智能机器和软件,这种硬件和软件的分别

能够

感知环境并在需求
时采取必要的行动,不时
从这些行动中学习。是不是听起来很像机器学习?跟我一同
「困惑」吧。

行为剖析

(Behavioral?Analytics):你有没有想过谷歌是怎样
为你需求
的产品/效劳
提供广告的?行为剖析

偏重

于了解

消费者和应用程序所做的事情,以及怎样
与为什么它们以某种方式起作用。这触及
了解

我们的上网方式

,社交媒体互动行为,以及我们的网上购物活动(购物车等),衔接
这些无关的数据点,并试图预测结果。举一个例子,在我找到一家酒店并清空购物车后,我收到了度假村假期线路的电话。我还要说多点吗?

Brontobytes:1?后面?27?个零,这是未来

数字世界存储单位的大小。而我们在这里,来谈谈?Terabyte、Petabyte、Exabyte、Zetabyte、Yoabyte?和?Brontobyte。你一定要读这篇文章才干
深化
了解

这些术语。

商业智能(Business?Intelligence):我将重用?Gartner?对?BI?的定义,由于
它解释的很好。商业智能是一个总称,包括应用程序、基础

设备
、工具以及最佳理论
,它能够

访问和剖析

信息,从而改善和优化决策及绩效。

生物测定学(BIometrics):这是一项?James?Bondish?技术与剖析

技术相分别

的经过
人体的一种或多种物理特征来识他人

的技术,如面部辨认

,虹膜辨认

,指纹辨认

等。

点击流剖析

(Clickstream?analytics):用于剖析

用户在网络上阅读
时的在线点击数据。有没有想过即便

在切换网站时,为什么某些谷歌广告还是阴魂不散?由于
谷歌大佬知道

你在点击什么。

?聚类剖析

(Cluster?Analysis)是一个试图辨认

数据结构

的探求

性剖析

,也称为分割剖析

或分类剖析

。更细致

地说,它试图肯定
案例的同质组(homogenous?groups),即察看

、参与者、受访者。假定

分组以前未知,则运用
聚类剖析

来辨认

案例组。由于
它是探求

性的,的确

对依赖变量和独立变量中止

了辨别

。SPSS?提供的不同的聚类剖析

办法

能够

处置
二进制、标称、序数和范围
(区间或比率)数据。

比较

剖析

(Comparative?Analytics):由于
大数据的关键就在于剖析

,所以本文中我将深化
解说

剖析

的意义。望文生义
,比较

剖析

是运用
诸如方式

剖析

、过滤和决策树剖析

等统计技术来比较

多个进程、数据集或其他对象。我知道

它触及
的技术越来越少,但是我仍无法完好

避免

运用
术语。比较

剖析

可用于医疗保健范畴
,经过
比较

大量的医疗记载
、文件、图像等,给出更有效和更精确

的医疗诊断。

关联剖析

(Connection?Analytics):你一定看到了像图表一样的蜘蛛网将人与主题衔接
起来,从而肯定
特定主题的影响者。关联剖析

剖析

能够

辅佐

发现人们、产品、网络之中的系统,致使

是数据与多个网络分别

之间的相关衔接
和影响。

数据剖析

师(Data?Analyst)数据剖析

师是一个十分

重要和受欢送

的工作,除了准备报告之外,它还担任
搜集
、编辑和剖析

数据。我会写一篇更细致
的关于数据剖析

师的文章。

数据清洗(Data?Cleansing):望文生义
,数据清洗触及
到检测并更正或者删除数据库中不精确

的数据或记载
,然后记住「脏数据」。借助于自动化或者人工工具和算法,数据剖析

师能够

更正并进一步丰厚
数据,以进步
数据质量。请记住,脏数据会招致
错误的剖析

和糟糕的决策。

数据即效劳
(DaaS)
:我们有软件即效劳
(SaaS),?平台即效劳
(PaaS),往常

我们又有?DaaS,它的意义
是:数据即效劳
。经过
给用户提供按需访问的云端数据,DaaS?提供商能够

辅佐

我们快速地得到高质量的数据。

数据虚拟化(Data?virtualization):这是一种数据管理办法

,它允许某个应用在不知道

技术细节(如数据寄存

在何处,以什么格式)的状况

下能够

抽取并操作数据。例如,社交网络应用
这个办法

来存储我们的照片。

脏数据(Dirty?Data):既然大数据这么吸收
人,那么人们也开端
给数据加上其他的形容词来构成
新的术语,例如黑数据(dark?data)、脏数据(dirty?data)、小数据(small?data),以及往常

的智能数据(smart?data)。脏数据就是不洁净

的数据,换言之,就是不精确

的、重复

的以及不分歧
的数据。显然,你不会想着和脏数据搅在一同
。所以,尽快地修正它。

含糊

逻辑(Fuzzy?logic):我们有多少次对一件事情是肯定
的,例如?100%?正确?很稀少!我们的大脑将数据聚合成部分

的事实,这些事实进一步被笼统
为某种能够

决议
我们决策的阈值。含糊

逻辑是一种这样的计算方式,与像布尔代数等等中的「0」和「1」相反,它旨在经过
慢慢

消弭
部分

事实来模仿

人脑。

游戏化(Gamification):在一个典型的游戏中,你会有一个相似

于分数一样的元素与他人

竞争,并且还有明白
的游戏规则。大数据中的游戏化就是运用
这些概念来搜集
、剖析

数据或者激起
玩家。

图数据库(Graph?Databases):图数据运用
节点和边这样的概念来代表人和业务以及他们之间的关系,以挖掘

社交媒体中的数据。能否
曾经惊叹过亚马逊在你买一件产品的时分
通知
你的关于他人

在买什么的信息?对,这就是图数据库。

Hadoop?用户体验(Hadoop?User?Experience?/Hue):Hue?是一个能够

让运用
?Apache?Hadoop?变得愈加
容易的开源接口。它是一款基于?web?的应用;它有一款散布

式文件系统的文件阅读
器;它有用于?MapReduce?的任务设计;它有能够

调度工作流的框架?Oozie;它有一个?shell、一个?Impala、一个?Hive?UI?以及一组?Hadoop?API。

高性能剖析

应用(HANA):这是?SAP?公司为大数据传输和剖析

设计的一个软硬件内存平台。

HBase:?一个散布

式的面向列的数据库。它运用
?HDFS?作为其底层存储,既支持应用
?MapReduce?中止

的批量计算,也支持应用
事物交互的批量计算。

负载均衡

(Load?balancing):为了完成
最佳的结果和对系统的应用
,将负载分发给多个计算机或者效劳
器。

元数据(Metadata):元数据就是能够

描画

其他数据的数据。元数据总结了数据的基本

信息,这使得查找和运用
特定的数据实例变得愈加
容易。例如,作者、数据的创建

日期、修正
日期以及大小,这几项是基本

的文档元数据。除了文档文件之外,元数据还被用于图像、视频、电子表格和网页。

MongoDB:MongoDB?是一个面向文本数据模型的跨平台开源数据库,而不是传统的基于表格的关系数据库。这种数据库结构

的主要设计目的是让结构

化数据和非结构

化数据在特定类型应用的整合更快、更容易。

Mashup:侥幸

的是,这个术语和我们在日常生活中运用
的「mashup」一词有着相近的含义,就是混搭的意义
。实质

上,mashup?是一个将不同的数据集兼并
到一个单独应用中的办法

(例如:将房地产数据与天文
位置数据、人口数据分别

起来)。这的确

能够

让可视化变得很酷。

多维数据库(Multi-Dimensional?Databases):这是一个为了数据在线剖析

处置
(OLAP)和数据仓库优化而来的数据库。假定

你不知道

数据仓库是什么,我能够

解释一下,数据仓库不是别的什么东西,它只是对多个数据源的数据做了集中存储。

多值数据库(MultiValue?Databases):多值数据库是一种非关系型数据库,它能够

直接了解

三维数据,这对直接操作?HTML?和?XML?字符串是很好的。

自然言语
处置
(Natural?Language?Processing)
:自然言语
处置
是被设计来让计算机愈加
精确

天文
解人类日常言语
的软件算法,能够

让人类愈加
自然、愈加
有效地和计算机交互。

神经网络(Neural?Network):依据

这个描画

(http://neuralnetworksanddeeplearning.com/),神经网络是一个受生物学启示
的十分

漂亮的编程范式,它能够

让计算机从察看

到的数据中学习。曾经
良久

没有一个人会说一个编程范式很漂亮了。理论

上,神经网络就是受理想
生活中脑生物学启示
的模型…….?与神经网络紧密

关联的一个术语就是深度学习。深度学习是神经网络中一系列学习技术的汇合

方式

辨认

(Paern?Recognition):当算法需求
在大范围
数据集或者在不同的数据集上肯定
回归或者规律的时分
,就呈现
了方式

辨认

。它与机器学习和数据挖掘

紧密

相连,致使

被以为
是后两者的代名词。这种可见性能够

辅佐

研讨
者发现一些深化

的规律或者得到一些可能被以为
很荒唐
的结论。

射频辨认

(Radio?Frequency?Identification/RFID):射频辨认

是一类运用
非接触性无线射频电磁场来传输数据的传感器。随着物联网的展开

,RFID?标签能够

被嵌入到任何可能的「东西里面」,这能够

生成很多需求
被剖析

的数据。欢送

来到数据世界。

软件即效劳
(SaaS)
:软件即效劳
让效劳
提供商把应用托管在互联网上。SaaS?提供商在云端提供效劳

半结构

化数据(Semi-structured?data):半结构

化数据指的是那些没有以传统的办法

中止

格式化的数据,例如那些与传统数据库相关的数据域或者常用的数据模型。半结构

化数据也不是完好

原始的数据或者完好

非结构

化的数据,它可能会包含一些数据表、标签或者其他的结构

元素。半结构

化数据的例子有图、表、XML?文档以及电子邮件。半结构

化数据在万维网上十分

盛行
,在面向对象数据库中经常能够

被找到。

情感剖析

(Sentiment?Analysis):情感剖析

触及
到了抵消
费者在社交媒体、顾客代表电话访谈和调查中存在的多种类

型的交互和文档中所表达的情感、心情
和意见的捕捉、追踪和剖析

。文本剖析

和自然言语
处置
是情感剖析

过程中的典型技术。情感剖析

的目的
就是要辨别

或评价针对一个公司、产品、效劳
、人或者时间所持有的态度或者情感。

空间剖析

(Spatial?analysis):空间剖析

指的是对空间数据作出剖析

,以辨认

或者了解

散布

在几何空间中的数据的方式

和规律,这类数据有几何数据和拓扑数据。

流处置
(Stream?processing)
:流处置
被设计用来对「流数据」中止

实时的「连续」查询和处置
。为了对大量的流数据以很快的速度持续地中止

实时的数值计算和统计剖析

,社交网络上的流数据对流处置
的需求很明白

智能数据(Smart?Data)是经过一些算法处置
之后有用并且可操作的数据。

Terabyte:这是一个相对大的数字数据单位,1TB?等于?1000GB。据估量
,10TB?能够

容纳

美国国会图书馆的一切
印刷品,而?1TB?则能够

容纳

整个百科全书?Encyclopedia?Brianica。

可视化(Visualization):有了合理的可视化之后,原始数据就能够

运用
了。当然这里的可视化并不止简单的图表。而是能够

包含数据的很多变量的同时还具有可读性和可了解

性的复杂图表。

Yoabytes:接近?1000?Zeabytes,或者?2500?万亿张?DVD。往常

一切
的数字存储大约
是?1?Yoabyte,而且这个数字每?18?个月会翻一番。

Zeabytes:接近?1000?Exabytes,或者?10?亿?Terabytes。

原文链接:http://dataconomy.com/2017/02/25-BIg-data-terms/

http://dataconomy.com/2017/07/75-BIg-data-terms-everyone-know/

本文由机器之心编译出品,原文来自DataConomy,作者Ramesh Dontha

发表评论

评论已关闭。

相关文章