数极客首页

2017年的数据工程生态系统

自从我们在2014年推出Insight Data Engineering Fellows计划

以来,我们与数据行业的75多个团队树立
了联络
,讨论了顶级团队(如Facebook,Airbnb,Slack,纽约时报,LinkedIn,亚马逊和Tesla)工程师面临的最新应战
。此外,我们不时
增长的校友网络往常

有着150多名工程师和750多名数据科学家 ,经常在Insight社辨别

享他们的阅历

。感激

这个强大的社区,我们有一个探求

数据范畴
技术新兴方式

的无独有偶
的基地。

我们不时
探求

将这些学问
传送
给下一代数据工程师和扩散的更多数据社区的办法

,开发了更为互动的数据工程生态系统图,该迭代提供了数据管道中心
组件的简化视图,同时更深化
地探求

了散布

式系统技术的复杂世界。

2017年的数据工程生态系统

数据工程趋向

经过
更新此地图,我们曾经
反映了当前数据团队可用的工具和效劳
的最新变化。强调了一些值得留意
的趋向

科技融合

:Kafka 和 Spark

固然

有着数据量
庞大

的工具被引入数据工程范畴
,似乎有两个显着的趋同点。

在众多可用的排队技术中,Kafka 是最普遍
采用的。

自从LinkedIn于2011年将其基于日志的处置

计划

发布给开源社区以来,Kafka的盛行
水平

不时

在稳步上升,往常

已成为流媒体数据的默许
摄取工具。

除了流媒体数据之外,Kafka越来越多地被用作许多公司的微效劳
的集中式音讯

总线 。除了让人印象深化

的高吞吐量、高牢靠

性和与许多其他盛行
技术的集成之外,其广为盛行
的缘由
就是易于运用

2017年的数据工程生态系统

其他广为传播的技术有Apache Spark,通用的散布

式处置
框架。

自从Hadoop早期垄断“大数据”以来,呈现
了许多有才干

的框架,Spark曾经
稳定

了其处置
大范围
数据的“默许
”工具的位置

Spark曾经
被证明是一个功用
全面的工具,从传统批处置
到在线机器学习模型的一切工作都能胜任。 Spark高水平

的开发,像DataFrames和SQL一样结构

化的APIs,以及流和图形库使得它能够

运用
代码库处置

许多理论

问题。和Kafka一样,它有着很棒的社区支持,而且很多新的和现有的项目正在与Spark集成。

固然
Kafka和Spark是受欢送

的选择,但肯定不适合

每一种用例。调查每个工具的优点,缺陷
和替代计划

很重要。我们经常在Insight强调,请务必选择正确的工具!

架构趋向
:与Kappa统一

除了特定技术的趋向
,我们留意
到许多团队朝着理想化的Kappa架构行进
。与Lambda办法

相反,许多技术往常

采用的批处置
问题只是流处置
问题的一个子集。

固然
还不是最前沿的,但像Flink , Apex和Gearpump这样的技术正在推意向
统一批处置
和流处置
框架的愿景行进
。即便

是Spark,随着结构

化流的发布,往常

提供了一个单一的界面来操作批量和流数据。

2017年的数据工程生态系统

从某种意义上说, Apache Beam项目是这些努力的结果。基于Google的数据流模型,Beam旨在创建

一个统一的API,允许开发人员编写与其下的处置
引擎无关的应用。

随着Apache Beam等统一处置
框架和项目的呈现
,Kappa架构可能会快速被采用。不论

架构怎样
,随着处置
框架的不时
改进

和展开

,我们等候

看到批处置
和流处置
之间的界线

依然

含糊

托管效劳
增加

固然
稍有争议,“无效劳
器”的产品也是一个展开

趋向
。“纽约时报”等数据团队越来越希望直接架构数据管道,而不用去管理云基础

设备
。固然
这些效劳
的消费
用例相对有限,但它们提供的功用
正在不时
改进

。经过
像AWS S3,Redshift,Athena,EMR,Kinesis和Lambda以及GCP的BIgQuery,Pub / Sub和DataProc这样的效劳
,主要的云提供商正在为这些全方位效劳
的处置

计划

提供投资。

相似

于从“内部”效劳
器到云基础

设备
的过渡,数据团队可能会越来越多天时
用数据效劳
。同时,部分

自助效劳
和部分

托管的混合架构将变得越来越普遍。

云提供商的趋向
:AWS与GCP

过去几年的另一个显著变化是亚马逊网络效劳
(AWS)面临的竞争增加
。固然
像Microsoft Azure,IBM,DigitalOcean和Rackspace这样的平台曾经
存在了一段时间,但似乎没有人能够

应战
AWS在2006年发布的先行优势。

但是
,Google不时

为内部用户开发自己

的复杂基础

架构。事实上,Google不时

以内部开辟

散布

式系统而知名

,但选择发布白皮书而不是开源。随着对谷歌云平台(GCP)的大量投入,他们已推出Google Infrastructure For Everyone Else (GIFEE) 的托管效劳

在过去几年中,GCP取得

了长足的进步,疾速
成为一个有利的竞争者。固然
GCP与AWS相比并不能提供全面的效劳
,但越来越多的顶级团队(如Spotify)正在中止

转换 。或许
云提供商的范畴
最终会减少,但是在不久的未来

我们会看到安康
的竞争。

前景

固然
没有人知道

数据范畴
的未来

怎样
,但有一点很分明

——新技术将使我们能够

进一步应用
我们的数据。无论是新技术和效劳
的呈现
,还是现有的功用
的增加,开发人员都将具有
更丰厚
的工具来构建数据管道战争
台。

数据工程师仍将是令人兴奋的职业 。

发表评论

评论已关闭。

相关文章