炼数成金 门户 大数据 分布式系统 查看内容

Apache Pulsar:实时数据处理中消息、计算和存储的统一

2018-5-16 15:40| 发布者: 炼数成金_小数| 查看: 16755| 评论: 0|原作者: 翟佳|来自: Hadoop技术博文

摘要: 实时数据处理在各个行业和领域中已经变得越来越关键。但是在实时数据栈中,Messaging,Computing和Storage三个部分的分离,给方案的实现带来了高复杂性,低可维护性,低效率等问题。Apache Pulsar 在2016年开源,是S ...

存储 Hadoop 分布式 开源 实时数据

本文来自于 QCon 北京2018全球开发者大会,作者翟佳,其毕业于中科院计算所,目前就职于一家下一代实时处理初创公司Streamlio,是Streamlio的核心创始成员之一。在此之前任职于EMC,是北京EMC实时处理平台的技术负责人。主要从事实时计算和分布式存储系统的相关开发,是开源项目Apache BookKeeper PMC Member和Committer,也在Apache Pulsar, Distributedlog等项目中持续贡献代码。

实时数据处理在各个行业和领域中已经变得越来越关键。但是在实时数据栈中,Messaging,Computing和Storage三个部分的分离,给方案的实现带来了高复杂性,低可维护性,低效率等问题。

本次演讲将介绍Apache Pulsar,并展示Apache Pulsar怎样从这三个方面,提供一个端到端的实时数据解决方案。

Messaging:Pulsar对pub/sub和queue两种模式提供统一的支持,同时保证了一致性,高性能和易扩展性。

Computing:Pulsar内部的Pulsar-Functions提供了Stream-native的轻量级计算框架,保证了数据的即时流式处理。

Storage:Pulsar借助Apache BookKeeper提供了以segment为中心的存储架构,保证了存储的性能,持久性和弹性。

Apache Pulsar 在2016年开源,是Streamlio,阿里巴巴,和滴滴出行等公司一同起草的全球消息领域标准 OpenMessaging 的重要成员。希望通过这次分享,能够为大家带来对Apache Pulsar及其生态系统有更好的理解,和对pub/sub消息系统,实时处理系统的更多的认识。本文将主要介绍以下内容:
了解实时处理的三部分的特点和需求;
理解Apache Pulsar的特性和优势。

欢迎加入本站公开兴趣群
软件开发技术群
兴趣范围包括:Java,C/C++,Python,PHP,Ruby,shell等各种语言开发经验交流,各种框架使用,外包项目机会,学习、培训、跳槽等交流
QQ群:26931708

Hadoop源代码研究群
兴趣范围包括:Hadoop源代码解读,改进,优化,分布式系统场景定制,与Hadoop有关的各种开源项目,总之就是玩转Hadoop
QQ群:288410967

鲜花

握手

雷人
1

路过

鸡蛋

刚表态过的朋友 (1 人)

最新评论

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

 

GMT+8, 2018-7-19 13:47 , Processed in 0.233043 second(s), 24 queries .