数极客首页

大数据漫谈(六)——数加平台

未来3年,大数据市场规模将达到1万亿元,基于阿里云大数据平台数加,将有千余家合作伙伴、万名首席数据官和5万数据科学家诞生,把中国大数据市场规模拓展至万亿规模。 ?——胡晓明(孙权)2016年1月20日,阿里云在2016云栖大会上海峰会上宣布开放阿里巴巴十年的大数据能力,发布全球首个一站式大数据平台“数加”。

这一平台承载了阿里云“普惠大数据”的理想,即让全球任何一个企业、个人都能用上大数据。数加平台首批集中发布了20款产品,覆盖数据采集、计算引擎、数据加工、数据分析机器学习、数据应用等数据生产全链条。

“这是一个人人都在谈大数据的时代,但只有极少数人在用大数据。” 阿里云大数据事业部资深总监徐常亮特别强调“这些技术至少领先业界三年”,在输出自身大数据能力的同时,“数加”还向有数据开发能力的团队开放。这些团队可入驻“数加”,借助数加上的工具为各行业提供数据服务。“就像在淘宝开店一样,只是他们售卖的是专业能力。”

那数加到底是什么呢?我们从如下几个方面来分析一下:

一、数加的来世今生我觉得阿里对数据的重视非常早,而且也是非常愿意投入的。

早在阿里云成立之前,应该是06、07年左右,七公就组建了一只数据平台部的团队,它就是数据事业部(CDO)的前身。在云端、数据魔方、淘宝时光机、淘宝指数、TCIF、阿里妈妈DMP、全景洞察等都是出自这个团队之手 ,这个团队专业解决淘宝早期数据仓库、数据集市、以及数据分析相关的专业问题。

09年的时候,王坚来到阿里,讲了云计算、大数据未来的愿景,可是当时没有几个人能听懂,但是,我觉得马总还是很厉害的,他信了。然后,阿里提出了云计算、大数据相关战略,阿里云也就在那时成立了。

数据平台事业部最早使用的并不是现在在用的MaxCompute(原ODPS),而是Hadoop,原hadoop集群令名为云梯1,当时阿里也在研发自己的计算平台,就是原ODPS,并令名为云梯2。

云梯2在开始的时候,并不是很好用,不过,拿到了内部一个很大的客户,就是阿里金融的蚂蚁小贷。基本上也可以这么说,没有蚂蚁小贷的磨合,基本很难有现在的MaxCompute。

云梯1、云梯2在内部争吵了很长一段时间,后来,出于各方的考虑,公司决定,启动登月项目,从云梯1全部迁移到云梯2。

不管是云梯1,还是云梯2,其实,都只是整个大数据技术生态系统中很小的一块,也就是计算引擎那一块,正如我上面所讲的,一个属于hadoop生态系统,一个属于阿里云自建的数加生态系统。

云梯1当时在内部使用也很广泛,所有内部的数据加工,数据应用基本上都是基于云梯1的,而且,云梯1通过5K项目,成功使单集群的规模扩展到了5000台。而云梯2的生态是后来慢慢建立起来的,包括底层计算平台,开发工具/组件,基于各自算法的计算引擎/服务,以及最上层的各种数据应用/产品,是在云梯1迁移到云梯2的过程中,这些工具,引擎,应用才慢慢完善,统一。

当然,现在阿里云的整个系统,包括内部系统,都是应用在数加的技术之上,这个也是阿里历来的习惯,把内部使用、验证过的东西,提供给社会使用。这样的好处在于与单纯做产品的大数据公司相比,胜在有场景,有需求,成熟度更高。

二、数加平台生态的组成大数据漫谈(六)——数加平台

▲数加平台生态

个人觉得,可以用如下几个层面来描述整个数加生态体系:

1、数加底层技术平台

主要包括:

  • Maxcompute(原名ODPS)是“数加”底层的计算引擎。有两个维度可以看这个计算引擎的性能,1)6小时处理100PB数据,相当于1亿部高清电影。2)单集群规模过万台,并支持多集群联合计算。
  • Analytic DB是实时多维分析引擎,可以实现百亿量级多维查询只需100毫秒。阿里巴巴内部很多面向海量互联网用户的产品的在线大数据查询,很大程度上依赖于Analytic DB。
  • 流计算(StreamCompute)具有低延时、高性能的特点。每秒查询率可以达到千万级,日均处理万亿条消息、PB量级的数据。
  • 计算引擎之上,“数加”提供了最丰富的云端数据开发套件,开发者可一站式完成数据加工。这些产品包含:数据集成、数据开发、调度系统、数据管理、运维视屏、数据质量、任务监控。

整体来看,大数据开发套件的优势包括:支持100人以上协同设计、开发、运维;具有良好的扩展性;提供各个产品功能模块的Open API,可二次开发;多个数据实例之间的数据授权机制,确保数据只能使用却不可见;提供白屏化的运维能力,以及字段级数据质量监控、机器预警、资源使用率监控等功能,让用户更好的掌控自己的数据及数据任务。

计算引擎与大数据开发套件相互依赖,组成了数加的底层技术平台,对应到我上文提到的Hadoop技术平台。

阿里云的主要目标应该是做好这个技术平台,并将平台的能力更多更快更好地开放出来,这一层才是阿里云大数据的核心竞争力。

2、数加应用平台生态体系

基于上面的技术平台,阿里在数加上还开放了规则引擎、推荐引擎、文字识别、智能语音交互、DataV可视化等数据引擎、服务、产品。这些产品很多都是从阿里自身的业务中提炼出来的,可以直接提供给企业使用,并组合成各种不同的解决方案。

比如:

  • “数加”发布的机器学习,可基于海量数据实现对用户行为、行业走势、天气、交通等的预测。图形化编程让用户无需编码、只需用鼠标拖拽标准化组件即可完成开发。产品还集成了阿里巴巴核心算法库,包括特征工程、大规模机器学习、深度学习等。
  • 规则引擎是一款用于解决业务规则频繁变化的在线服务,可通过简单组合预定义的条件因子编写业务规则,并做出业务决策。比如,银行会设置如果10分钟内用户在两个省份交易,则需要电话确认。
  • 推荐引擎是一款用于实时预测用户对物品偏好的数据工具,它能够帮助客户发现众多物品中用户最感兴趣什么。
  • 文字识别提供自然场景下拍摄的图片中英文文字检测、识别以及常见的证件类检测和识别。
  • 智能语音交互基于语音和自然语言技术构建的在线服务,为智能手机、智能电视以及物联网等产品提供“能听、会说、懂你”式的智能人机交互体验。

数加最终的目的,不是阿里云自己来研发所有这些数据服务,重点是“数加”大数据平台也将向有数据开发能力的团队开放。这些团队可入驻“数加”,借助数加上的工具为各行各业提供数据服务。阿里云计划用3年时间吸引1000家合作伙伴入驻,共同分享1万亿的大数据蛋糕。

基于底层的技术平台,上层开放则可以形成丰富的生态 。通过开放式的平台,凝聚行业的力量,为更多的企业和个人提供大数据服务,这就是普惠的时代。大到行业的数据分析,预测行业发展方向;小到我们每一个个体,都可以享受大数据的服务,方便个人生活。

3、数加交易生态体系

基于技术平台与应用平台,个人觉得,未来可以在数加上构建一个大数据的交易市场,可以包括:

  • 应用交易:上文中,我重点描述了数据生态以及算法经济,算法作为大数据时代的另外一个重要要素,未来也是可交易的。基于算法的各种引擎,服务,应用等,既然可以基于数加来开发,就可以不仅仅是自己用,甚至作为一个公共的服务或者产品来出售。
  • 数据交易:数据是大数据时代的重要基本要素之一,也是大数据时代的基础生产资料,大数据时代的血液。作为如此重要的生产资料,必须流通才能发挥大数据最大的价值。数加通过多租户,可用不可见,担保交易等设计,未来可以解决数据交易上的各种问题。

当然,如果要实现大数据的交易,必须先解决数据的隐私、安全、法律法规、监管等问题。在这些问题没解决之前,仍有很长的路需要尝试。

三、为什么选择数加小企业不仅自身缺乏数据,自建大数据平台更是折腾不起,往往周期很长,成本非常之高。很多自建的大数据平台又因为没有经过各种实战的检验,没有相应开发工具或者工具偏少而出现各种问题。

不过数加的出现将有望改善这一现状。

根据阿里云披露的测算数据:自建Hadoop集群的成本是数加的3倍多,国外计算厂商AWS的EMR成本更是数加的5倍。

从运算效率来看,去年10月28日,Sort Benchmark在官方网站公布了2015年排序竞赛的最终成绩。其中阿里云用377秒完成了100TB的数据排序,打破了此前Apache Spark创造的23.4分钟纪录。

在含金量最高的GraySort和MinuteSort两个评测系统中,阿里云分别在通用和专用目的排序类别中创造了4 项世界纪录。

数加承载了阿里巴巴EB级别的数据加工计算,经历了上万名工程师的实战检验。

借助大数据技术,阿里巴巴取得了巨大的商业成功。通过对电子商务平台上的客户行为进行分析,诞生了蚂蚁小贷、花呗、借呗;菜鸟网络通过电子面单、物流云、菜鸟天地等数据产品,为快递行业的升级提供技术方法。

可以看到,通过数加,企业能获得的不仅仅是可以更方便、更便宜地使用各种开发工具。其实,比开发工具更重要的是未来大数据的生态,在数加上面,他们可以很方便地获取各种自己想要的数据与服务。

“数加”的发布显然降低了大数据的应用门槛。通过 “数加”,任何一个企业、个人都能极为方便地进行大数据的开发和应用,最起码,从速度、成本、开发效率上,有很大提升。

二、数加需要面对的问题1、基于公共云数加的安全问题

有人担心阿里是否会偷看或利用这些数据,其实就是不相信阿里云。当然阿里云官方的回答是斩钉截铁的:不会!

阿里云大数据事业部资深总监徐常亮强调,数据是客户的宝贵资产,任何云计算平台都不能移作他用。阿里云将严格遵守去年7月份发起的《数据保护倡议书》,也希望全行业能够自律,共同迎接大数据产业的爆发。

2、基于专有云数加的规模问题

如果企业实在担心数据的安全问题,想要建立自己的专有云解决方案,那么目前,基于数加的解决方案尚且过于复杂,没有大量预算,基本上没有办法实现专有云的解决方案,所以,对中小企业来说,采用基于专用云数加的解决方案是不现实的。

就我个人的看法来说,未来的趋势,一定是公共云解决方案。

因为:

  • 数据需要流动,互相关联才有最大的价值,所以,数据一定要交换、交易,这个要靠公共云来实现。
  • 数据加工的工具、算法、产品等等,也是一个共享的生态,不能指望所有的东西都由自己来研发。跟工业社会一样,未来的大数据时代,是一个全球化分工的时代,不能指望自己的工厂解决所有的问题。

本文作者拖雷(陈吉平),袋鼠云CEO ,国内最早一批Oracle ACE Director,前阿里巴巴研究员,先后担任嗨淘、无线事业部、数据事业部资深总监,生活服务事业部总经理,以及阿里云事业群总裁助理。2015年离职后,做了半年独立天使投资人,2015年底创办袋鼠云。

发表评论

评论已关闭。

相关文章