数极客首页

漫画:什么是大数据?

大数据是具有海量、高增长率和多样化的信息资产,它需求
全新的处置
方式

来增强

决策力、洞察发现力和流程优化才干

BIg data is high volume, high velocity, and/or high variety information assets that require new forms of processing to enable enhanced decision making, insight discovery and process optimization.

大数据通常都具有
海量的数据存储。仅依据

2013年的统计,互联网搜索巨头百度已具有
数据量接近EB级别、阿里、腾讯声明自己

存储的数据总量都抵达

了百PB以上。此外,电信、医疗、金融、公共安全

、交通、气候
等各个方面保管
的数据量也都抵达

数十或者上百PB级别。

面对这样范围
的数据存储量,依托
单台数据库效劳
器显然是不够的,需求
以散布

式文件系统(例如 HDFS)作为基石。

在传统的关系型数据库中,所存储的数据都是结构

的,例如:

但是在理想
生活中,信息常常
并没有严厉
的结构

限制。比如

一个电商网站需求
记载
如下用户行为:

用户张三, 于某某时间在商品搜索栏搜索了“苹果手机”一词,然后进入 XXX 商铺中止

阅读
,经过与店家沟通,讨价讨价
,最终以6000元的价钱
置办

了 iPhone 7 “钢琴黑”样式

手机一部。

诸如此类的用户行为数据属于非结构

化数据,很难用关系型数据库存储。因而

诸多No-SQL数据库(例如 HBase)成为了存储大数据的更好选择。

假定

没有愈加
快速有效的海量数据处置

计划

,那么如此大量多样的数据不但没有带来更多价值,反而成为了系统的担负
。关于这一点,谷歌公司率先提出的MapReduce模型为我们带来了新的道路。

MapReduce能够

简单的了解

成一种分治办法

:把庞大的任务分红
若干小任务,交给多个节点中止

并行处置
,然后再把一切
节点的处置
结果兼并
起来,从而大大提升了数据处置
效率。(关于MapReduce的细致
流程,将会在以后的文章中中止

解说

。)

人工智能

大数据作为机器学习的锻炼
集,从而锻炼
出具有
一定决策才干

的人工智能。典型的代表案例就是谷歌的AlphaGo, 经过
大量围棋棋局的学习,最终具有
了打败围棋世界冠军的才干

商业剖析

从大量的用户行为数据中挖掘

出有价值的商业信息。典型代表是著名社交公司LinkedIn,他们经过
用户之间的关联关系,绘画出学校、公司、人才之间庞大而复杂的信息网络。不只
如此,LinkedIn还经过
大量求职者和招聘方的信息,剖析

出哪些公司正在疾速
扩张,哪些公司正在流失人才,哪些公司之间正在展开人才市场的争夺

。这些关于
客户公司来说,都是价值连城

立功

预测:

洛杉矶警察局曾经借助一套原本

用于预测地震后余震的大数据模型,把过去80年内的130万个立功

记载
数据输入进去,结果发现其预测出的立功

高发地点与理想
惊人的吻合。后来该预测算法经过改进

,曾经
成为了当地警局重要的参考依据

,大大降低了当地的立功

率。

这里所引见
的相关学问
,只是作者关于
大数据范畴
的浅层次了解

。经过
这篇漫画,希望没有从事过IT行业,或者不了解

大数据的朋友们能够

对大数据有一些初步的认知。

希望有阅历

的朋友们对本文提出宝贵

意见,指出其中的纰漏和缺乏
,十分

感激

作者:梦见 ,互联网公司的码农一枚,喜欢算法和面向对象设计。个人微信号:13522239721 ?个人订阅号:dreamsee321,欢送

一同
交流讨论!

发表评论

评论已关闭。

相关文章