数极客首页

探访美式微博Twier的大数据技术架构

Twier要上市了,再一次让全球瞩目,正是它所创造的twie让互联网进入了微创新的时代。虽然它没有进入中国,但受其启发的新浪微博和腾讯微博在中国互联网上也成为一道亮丽的风景。Twier在全球拥有巨大的用户群,海量的社交信息流,支撑其运转的大数据技术架构也颇受人关注。Twier的大数据架构也是分为基于Hadoop的批处理和基于Storm的实时流计算等主要类型,主要基于开源项目中进行开发和发展。Twier收集数据采用的是Facebook开源的日志工具Scribe,批处理地存储和分析数据采用Hadoop+MapReduce,在大数据上的快速分析采用Pig。Pig是基于Hadoop的并行计算高级编程语言,它提供一种类SQL的数据分析高级文本语言,称为Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig支持的常用数据分析主要有分组、过滤、合并等。Storm是Twier的开源流计算平台,Storm通过简单的API使开发者可以可靠地处理无界持续的流数据,进行实时计算,开发语言为Clojure和Java。Storm的应用场景很多,如实时分析、在线机器学习、持续计算等。

Twier的存储有很多工具,体现了其在不同发展阶段的作用,也试用于不同的应用场景。NOSQL数据库至少包含了HBase、Cassandra和FlockDB等。HBase被用于批处理的分析和数据集生成,Cassandra被用于在线系统,支持动态读写,FlockDB则用于实时分布的社交图的存储。在大数据2.0的时代,Twier的大数据技术架构也在不断吸收更多开源技术的精华,兼容并蓄,不断进化。例如,Mesos被twier引进用于分布式大数据技术架构的操作系统,能够对Hadoop等计算存储资源进行合理调度。

Twier的大数据技术架构


本文采用「CC BY-SA 4.0 CN」协议转载学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请联系「我们」处理。

发表评论

评论已关闭。

相关文章