炼数成金 大数据分布式系统
订阅

分布式系统

分布式之消息队列复习精讲
分布式之消息队列复习精讲
系统间耦合性太强,如上图所示,系统A在代码中直接调用系统B和系统C的代码,如果将来D系统接入,系统A还需要修改代码,过于麻烦!将消息写入消息队列,需要消息的系统自己从消息队列中订阅,从而系统A不需要做任何修 ...
Apache Pulsar:实时数据处理中消息、计算和存储的统一
Apache Pulsar:实时数据处理中消息、计算和存储的统一
实时数据处理在各个行业和领域中已经变得越来越关键。但是在实时数据栈中,Messaging,Computing和Storage三个部分的分离,给方案的实现带来了高复杂性,低可维护性,低效率等问题。Apache Pulsar 在2016年开源,是S ...
ZooKeeper真不是最终一致性的,而是顺序一致性
ZooKeeper真不是最终一致性的,而是顺序一致性
2017 饿了么做异地多活,我的团队承担 ZooKeeper 的异地多活改造。在此期间我听到 2 种不同的关于一致性的说法。一种说法是 ZooKeeper 是最终一致性,因为由于多副本、以及保证大多数成功的 Zab 协议,当一个客户端 ...
Kafka分区分配策略(Partition Assignment Strategy)
Kafka分区分配策略(Partition Assignment Strategy)
用过 Kafka 的同学用过都知道,每个 Topic 一般会有很多个 partitions。为了使得我们能够及时消费消息,我们也可能会启动多个 Consumer 去消费,而每个 Consumer 又会启动一个或多个streams去分别消费 Topic 里面的 ...
Kafka 客户端是如何找到 leader 分区的
Kafka 客户端是如何找到 leader 分区的
在正常情况下,Kafka中的每个Topic都会有很多个分区,每个分区又会存在多个副本。在这些副本中,存在一个leader分区,而剩下的分区叫做 follower,所有对分区的读写操作都是对leader分区进行的。所以当我们向Kafka写 ...
SLA 99.99%以上!饿了么实时计算平台3年演进历程
SLA 99.99%以上!饿了么实时计算平台3年演进历程
饿了么BDI-大数据平台研发团队目前共有20人左右,主要负责离线&实时 Infra 和平台工具开发,其中包括20+组件的开发和维护、2K+ Servers 运维及数据平台周边衍生工具研发&维护。离线 Infra 和平台工具这一块对外 ...
UC Berkeley提出新型分布式执行框架Ray:有望取代Spark
UC Berkeley提出新型分布式执行框架Ray:有望取代Spark
如今大部分人工智能应用都是基于局限性较大的监督学习的范式而开发的,即模型在线下进行训练,然后部署到服务器上进行线上预测。随着该领域的成熟,机器学习应用需要更多地在动态环境下运行,响应环境中的变化,并且 ...
流计算框架 Flink 与 Storm 的性能对比
流计算框架 Flink 与 Storm 的性能对比
Apache Flink 和 Apache Storm 是当前业界广泛使用的两个分布式实时计算框架。其中 Apache Storm(以下简称“Storm”)在美团点评实时计算业务中已有较为成熟的运用,有管理平台、常用 API 和相应的文档,大量实时作 ...
Facebook 开源分布式网络软件 Open/R
Facebook 开源分布式网络软件 Open/R
现在无论你怎么看待Facebook,很难不敬畏它的技术。五年前,情况却远非如此:由于当时系统运行起来踉踉跄跄,时常出现暂时的停顿,大多数用户碰到停运几乎是家常便饭。今非昔比。近几年我发现这个网站唯一带来的问题 ...
3分钟了解稳定性利器Hystrix——让你的服务更稳一点
3分钟了解稳定性利器Hystrix——让你的服务更稳一点
1、为什么要用Hystrix在分布式服务环境下,服务之间的调用关系变得错综复杂,你是否担心依赖的服务延迟导致自己的服务也被拖跨呢?是否在苦苦思考如何优雅的对依赖服务进行异步调用呢?是否希望当流量高峰时自动进行 ...
纽约时报Kafka架构实战
纽约时报Kafka架构实战
我们把这个系统叫做发布管道(Publishing Pipeline)。这篇文章主要关注后端的系统,我们会介绍如何使用 Kafka 保存纽约时报的文章,以及如何使用 Kafka 和 Steams API 将发布的内容实时推送给各种应用。下面是总体 ...
KSQL:Apache Kafka的开源流式SQL
KSQL:Apache Kafka的开源流式SQL
KSQL是一个用于Apache katkatm的流式SQL引擎。KSQL降低了进入流处理的门槛,提供了一个简单的、完全交互式的SQL接口,用于处理Kafka的数据。你不再需要用Java或Python这样的编程语言编写代码了!KSQL是开源的(Apache ...
走近KSQL:面向Apache Kafka的开源数据流SQL引擎
走近KSQL:面向Apache Kafka的开源数据流SQL引擎
我非常高兴地宣布KSQL,这是面向Apache Kafka的一种数据流SQL引擎。KSQL降低了数据流处理这个领域的准入门槛,为使用Kafka处理数据提供了一种简单的、完全交互的SQL界面。你不再需要用Java或Python之类的编程语言编 ...
LinkedIn开源Kafka Cruise Control,使Kafka实现大规模运维自动化
LinkedIn开源Kafka Cruise Control,使Kafka实现大规模运维自动化
在过去这几年,Apache Kafka的人气急剧上升。实际上,LinkedIn部署的系统最近每天处理的消息超过2万亿个,有 1800多台Kafka服务器(即代理,broker)。虽然事实证明Kafka很稳定,但是在规模如此庞大的环境下运行Kafk ...
从分布式计算到分布式训练
从分布式计算到分布式训练
随着科技的发展,“数据存储”领域有了质和量的双向发展,除了稳定性、安全性的提升外,容量也呈指数级增长。因此可以在单机上直接构建整套服务,类似LAMP类似的这种一键搭建服务器的套装软件有了更多的应用场景。然 ...

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

社区热帖

     

    GMT+8, 2018-5-23 22:42 , Processed in 0.102709 second(s), 16 queries .