数极客首页

管理大数据存储的十大技巧

在1990年,每一台应用效劳
器都倾向具有
直连式系统(DAS)。SAN的构建则是为了更大的范围
和更高的效率提供共享的池存储。Hadoop曾经
逆转了这一趋向
回归DAS。每一个Hadoop集群都具有
自身

的——固然
是横向扩展型——直连式存储,这有助于Hadoop管理数据本地化,但也放弃了共享存储的范围
和效率。假定

你具有
多个实例或Hadoop发行版,那么你就将得到多个横向扩展的存储集群。

而我们所遇到的最大应战
是均衡

数据本地化与范围
效率,这是一个鱼与熊掌兼得的话题。

数据本地化是为了确保大数据集存储在计算节点左近
便于剖析

。关于
Hadoop,这意味着管理数据节点,向MapReduce提供存储以便充沛

执行剖析

。它适用
有效但也呈现
大数据存储集群的独立操作问题。以下十项是Hadoop环境中管理大数据存储技巧。

1.散布

式存储

传统化集中式存贮存

在已有一段时间。但大数据并非真的适合

集中式存储架构。Hadoop设计用于将计算更接近数据节点,同时采用了HDFS文件系统的大范围
横向扩展功用

固然
,通常处置

Hadoop管理自身

数据低效性的计划

是将Hadoop 数据存储在SAN上。但这也构成

了它自身

性能与范围
的瓶颈。往常

,假定

你把一切
的数据都经过
集中式SAN处置
器中止

处置
,与Hadoop的散布

式和并行化特性相悖。你要么针对不同的数据节点管理多个SAN,要么将一切
的数据节点都集中到一个SAN。

但Hadoop是一个散布

式应用,就应该运转
在散布

式存储上,这样存储就保管

了与Hadoop自身

同样的灵活

性,不过它也央求

拥抱一个软件定义存储计划

,并在商用效劳
器上运转
,这相比瓶颈化的Hadoop自然更为高效。

2.超融合

VS散布

留意
,不要混杂
超融合

与散布

式。某些超融合

计划

是散布

式存储,但通常这个术语意味着你的应用和存储都保管
在同一计算节点上。这是在试图处置

数据本地化的问题,但它会构成

太多资源争用。这个Hadoop应用和存储平台会争用相同的内存和CPU。Hadoop运转
在专有应用层,散布

式存储运转
在专有存储层这样会更好。之后,应用
缓存和分层来处置

数据本地化并补偿网络性能损失。

3.避免

控制器瓶颈(Controller Choke Point)

完成
目的
的一个重要方面就是——避免

经过
单个点例如一个传统控制器来处置
数据。反之,要确保管
储平台并行化,性能能够

得到显著提升。

此外,这个计划

提供了增量扩展性。为数据湖添加功用
跟往里面扔x86效劳
器一样简单。一个散布

式存储平台如有需求
将自动添加功用
并重新调整数据。

4.删重和紧缩

控制
大数据的关键是删重和紧缩
技术。通常大数据集内会有70%到90%的数据简化。以PB容量计,能节约数万美圆
的磁盘本钱
。现代平台提供内联(对比

后期处置
)删重和紧缩
,大大降低了存储数据所需才干

5.兼并
Hadoop发行版

很多大型企业具有
多个Hadoop发行版本。可能是开发者需求
或是企业部门曾经
顺应
了不同版本。无论怎样
最终常常
要对这些集群的维护与运营。一旦海量数据真正开端
影响一家企业时,多个Hadoop发行版存储就会招致
低效性。我们能够

经过
创建

一个单一,可删重和紧缩
的数据湖获取数据效率

6.虚拟化Hadoop

虚拟化曾经
席卷企业级市场。很多地域
超越
80%的物理效劳
器往常

是虚拟化的。但也仍有很多企业由于
性能和数据本地化问题对虚拟化Hadoop避而不谈。

7.创建

弹性数据湖

创建

数据湖并不容易,但大数据存储可能会有需求。我们有很多种办法

来做这件事,但哪一种是正确的?这个正确的架构应该是一个动态,弹性的数据湖,能够

以多种格式(架构化,非结构

化,半结构

化)存储一切
资源的数据。更重要的是,它必需
支持应用不在远程资源上而是在本地数据资源上执行。

不幸的是,传统架构和应用(也就是非散布

式)并不尽如人意。随着数据集越来越大,将应用迁移到数据不可避免

,而由于
延迟太长也无法倒置。

理想的数据湖基础

架构会完成
数据单一副本的存储,而且有应用在单一数据资源上执行,无需迁移数据或制造
副本

8.整合剖析

剖析

并不是一个新功用
,它曾经
在传统RDBMS环境中存在多年。不同的是基于开源应用的呈现
,以及数据库表单和社交媒体,非结构

化数据资源(比如

,维基百科)的整合才干

。关键在于将多个数据类型和格式整合成一个规范

的才干

,有利于更轻松和分歧
地完成
可视化与报告制造
。合适

的工具也对剖析

/商业智能项目的胜利

至关重要。

9. 大数据遇见大视频

大数据存储问题曾经
让人有些焦头烂额了,往常

还呈现
了大视频现象。比如

,企业为了安全

以及操作和工业效率逐步

趋于运用
视频监控,简化流量管理,支持法规服从
性和几个其它的运用
案例。很短时间内这些资源将产生大量的内容,大量必需求

处置
的内容。假定

没有专业的存储处置

计划

很可能会招致
视频丧失
和质量降低的问题。

10.没有绝对的赢家

Hadoop的确

取得

了一些停顿
。那么随着大数据存储遍地开花,它能否
会成为赢家,力压其它计划

,其实不然。

比如

,基于SAN的传统架构在短期内不可取代,由于
它们具有
OLTP,100%可用性需求的内在优势。所以最理想的办法

是将超融合

平台与散布

式文件系统和剖析

软件整合在一同
。而胜利

的最主要要素
则是存储的可扩展性要素

来源:存储在线(微信号:doitmedia) 链接:http://www.dostor.com/p/41824.html

发表评论

评论已关闭。

相关文章