炼数成金 大数据分布式系统
订阅

分布式系统

阿里巴巴为什么不用 ZooKeeper 做服务发现?
阿里巴巴为什么不用 ZooKeeper 做服务发现?
站在未来的路口,回望历史的迷途,常常会很有意思,因为我们会不经意地兴起疯狂的念头,例如如果当年某事提前发生了,而另外一件事又没有发生会怎样?一如当年的奥匈帝国皇位继承人斐迪南大公夫妇如果没有被塞尔维亚 ...
大妈也能看懂的大数据分布式计算图解
大妈也能看懂的大数据分布式计算图解
首先,什么是分布式计算?简单点理解就是将大量的数据分割成多个小块,由多台计算机分工计算,然后将结果汇总。这些执行分布式计算的计算机叫做集群,我们仍然延续前文中人和计算机的类比,那么集群就是一个团队,单 ...
Flume + kafka + HDFS构建日志采集系统
Flume + kafka + HDFS构建日志采集系统
Flume是一个非常优秀日志采集组件,类似于logstash,我们通常将Flume作为agent部署在application server上,用于收集本地的日志文件,并将日志转存到HDFS、kafka等数据平台中;关于Flume的原理和特性,我们稍后详解 ...
分布式之消息队列复习精讲
分布式之消息队列复习精讲
系统间耦合性太强,如上图所示,系统A在代码中直接调用系统B和系统C的代码,如果将来D系统接入,系统A还需要修改代码,过于麻烦!将消息写入消息队列,需要消息的系统自己从消息队列中订阅,从而系统A不需要做任何修 ...
Apache Pulsar:实时数据处理中消息、计算和存储的统一
Apache Pulsar:实时数据处理中消息、计算和存储的统一
实时数据处理在各个行业和领域中已经变得越来越关键。但是在实时数据栈中,Messaging,Computing和Storage三个部分的分离,给方案的实现带来了高复杂性,低可维护性,低效率等问题。Apache Pulsar 在2016年开源,是S ...
ZooKeeper真不是最终一致性的,而是顺序一致性
ZooKeeper真不是最终一致性的,而是顺序一致性
2017 饿了么做异地多活,我的团队承担 ZooKeeper 的异地多活改造。在此期间我听到 2 种不同的关于一致性的说法。一种说法是 ZooKeeper 是最终一致性,因为由于多副本、以及保证大多数成功的 Zab 协议,当一个客户端 ...
Kafka分区分配策略(Partition Assignment Strategy)
Kafka分区分配策略(Partition Assignment Strategy)
用过 Kafka 的同学用过都知道,每个 Topic 一般会有很多个 partitions。为了使得我们能够及时消费消息,我们也可能会启动多个 Consumer 去消费,而每个 Consumer 又会启动一个或多个streams去分别消费 Topic 里面的 ...
Kafka 客户端是如何找到 leader 分区的
Kafka 客户端是如何找到 leader 分区的
在正常情况下,Kafka中的每个Topic都会有很多个分区,每个分区又会存在多个副本。在这些副本中,存在一个leader分区,而剩下的分区叫做 follower,所有对分区的读写操作都是对leader分区进行的。所以当我们向Kafka写 ...
SLA 99.99%以上!饿了么实时计算平台3年演进历程
SLA 99.99%以上!饿了么实时计算平台3年演进历程
饿了么BDI-大数据平台研发团队目前共有20人左右,主要负责离线&实时 Infra 和平台工具开发,其中包括20+组件的开发和维护、2K+ Servers 运维及数据平台周边衍生工具研发&维护。离线 Infra 和平台工具这一块对外 ...
UC Berkeley提出新型分布式执行框架Ray:有望取代Spark
UC Berkeley提出新型分布式执行框架Ray:有望取代Spark
如今大部分人工智能应用都是基于局限性较大的监督学习的范式而开发的,即模型在线下进行训练,然后部署到服务器上进行线上预测。随着该领域的成熟,机器学习应用需要更多地在动态环境下运行,响应环境中的变化,并且 ...
流计算框架 Flink 与 Storm 的性能对比
流计算框架 Flink 与 Storm 的性能对比
Apache Flink 和 Apache Storm 是当前业界广泛使用的两个分布式实时计算框架。其中 Apache Storm(以下简称“Storm”)在美团点评实时计算业务中已有较为成熟的运用,有管理平台、常用 API 和相应的文档,大量实时作 ...
Facebook 开源分布式网络软件 Open/R
Facebook 开源分布式网络软件 Open/R
现在无论你怎么看待Facebook,很难不敬畏它的技术。五年前,情况却远非如此:由于当时系统运行起来踉踉跄跄,时常出现暂时的停顿,大多数用户碰到停运几乎是家常便饭。今非昔比。近几年我发现这个网站唯一带来的问题 ...
3分钟了解稳定性利器Hystrix——让你的服务更稳一点
3分钟了解稳定性利器Hystrix——让你的服务更稳一点
1、为什么要用Hystrix在分布式服务环境下,服务之间的调用关系变得错综复杂,你是否担心依赖的服务延迟导致自己的服务也被拖跨呢?是否在苦苦思考如何优雅的对依赖服务进行异步调用呢?是否希望当流量高峰时自动进行 ...
纽约时报Kafka架构实战
纽约时报Kafka架构实战
我们把这个系统叫做发布管道(Publishing Pipeline)。这篇文章主要关注后端的系统,我们会介绍如何使用 Kafka 保存纽约时报的文章,以及如何使用 Kafka 和 Steams API 将发布的内容实时推送给各种应用。下面是总体 ...
KSQL:Apache Kafka的开源流式SQL
KSQL:Apache Kafka的开源流式SQL
KSQL是一个用于Apache katkatm的流式SQL引擎。KSQL降低了进入流处理的门槛,提供了一个简单的、完全交互式的SQL接口,用于处理Kafka的数据。你不再需要用Java或Python这样的编程语言编写代码了!KSQL是开源的(Apache ...

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

社区热帖

     

    GMT+8, 2018-7-19 13:46 , Processed in 0.098817 second(s), 18 queries .