炼数成金 大数据分布式系统
订阅

分布式系统

Kafka分区分配策略(Partition Assignment Strategy)
Kafka分区分配策略(Partition Assignment Strategy)
用过 Kafka 的同学用过都知道,每个 Topic 一般会有很多个 partitions。为了使得我们能够及时消费消息,我们也可能会启动多个 Consumer 去消费,而每个 Consumer 又会启动一个或多个streams去分别消费 Topic 里面的 ...
Kafka 客户端是如何找到 leader 分区的
Kafka 客户端是如何找到 leader 分区的
在正常情况下,Kafka中的每个Topic都会有很多个分区,每个分区又会存在多个副本。在这些副本中,存在一个leader分区,而剩下的分区叫做 follower,所有对分区的读写操作都是对leader分区进行的。所以当我们向Kafka写 ...
SLA 99.99%以上!饿了么实时计算平台3年演进历程
SLA 99.99%以上!饿了么实时计算平台3年演进历程
饿了么BDI-大数据平台研发团队目前共有20人左右,主要负责离线&实时 Infra 和平台工具开发,其中包括20+组件的开发和维护、2K+ Servers 运维及数据平台周边衍生工具研发&维护。离线 Infra 和平台工具这一块对外 ...
UC Berkeley提出新型分布式执行框架Ray:有望取代Spark
UC Berkeley提出新型分布式执行框架Ray:有望取代Spark
如今大部分人工智能应用都是基于局限性较大的监督学习的范式而开发的,即模型在线下进行训练,然后部署到服务器上进行线上预测。随着该领域的成熟,机器学习应用需要更多地在动态环境下运行,响应环境中的变化,并且 ...
流计算框架 Flink 与 Storm 的性能对比
流计算框架 Flink 与 Storm 的性能对比
Apache Flink 和 Apache Storm 是当前业界广泛使用的两个分布式实时计算框架。其中 Apache Storm(以下简称“Storm”)在美团点评实时计算业务中已有较为成熟的运用,有管理平台、常用 API 和相应的文档,大量实时作 ...
Facebook 开源分布式网络软件 Open/R
Facebook 开源分布式网络软件 Open/R
现在无论你怎么看待Facebook,很难不敬畏它的技术。五年前,情况却远非如此:由于当时系统运行起来踉踉跄跄,时常出现暂时的停顿,大多数用户碰到停运几乎是家常便饭。今非昔比。近几年我发现这个网站唯一带来的问题 ...
3分钟了解稳定性利器Hystrix——让你的服务更稳一点
3分钟了解稳定性利器Hystrix——让你的服务更稳一点
1、为什么要用Hystrix在分布式服务环境下,服务之间的调用关系变得错综复杂,你是否担心依赖的服务延迟导致自己的服务也被拖跨呢?是否在苦苦思考如何优雅的对依赖服务进行异步调用呢?是否希望当流量高峰时自动进行 ...
纽约时报Kafka架构实战
纽约时报Kafka架构实战
我们把这个系统叫做发布管道(Publishing Pipeline)。这篇文章主要关注后端的系统,我们会介绍如何使用 Kafka 保存纽约时报的文章,以及如何使用 Kafka 和 Steams API 将发布的内容实时推送给各种应用。下面是总体 ...
KSQL:Apache Kafka的开源流式SQL
KSQL:Apache Kafka的开源流式SQL
KSQL是一个用于Apache katkatm的流式SQL引擎。KSQL降低了进入流处理的门槛,提供了一个简单的、完全交互式的SQL接口,用于处理Kafka的数据。你不再需要用Java或Python这样的编程语言编写代码了!KSQL是开源的(Apache ...
走近KSQL:面向Apache Kafka的开源数据流SQL引擎
走近KSQL:面向Apache Kafka的开源数据流SQL引擎
我非常高兴地宣布KSQL,这是面向Apache Kafka的一种数据流SQL引擎。KSQL降低了数据流处理这个领域的准入门槛,为使用Kafka处理数据提供了一种简单的、完全交互的SQL界面。你不再需要用Java或Python之类的编程语言编 ...
LinkedIn开源Kafka Cruise Control,使Kafka实现大规模运维自动化
LinkedIn开源Kafka Cruise Control,使Kafka实现大规模运维自动化
在过去这几年,Apache Kafka的人气急剧上升。实际上,LinkedIn部署的系统最近每天处理的消息超过2万亿个,有 1800多台Kafka服务器(即代理,broker)。虽然事实证明Kafka很稳定,但是在规模如此庞大的环境下运行Kafk ...
从分布式计算到分布式训练
从分布式计算到分布式训练
随着科技的发展,“数据存储”领域有了质和量的双向发展,除了稳定性、安全性的提升外,容量也呈指数级增长。因此可以在单机上直接构建整套服务,类似LAMP类似的这种一键搭建服务器的套装软件有了更多的应用场景。然 ...
流式计算新贵Kafka Stream设计详解
流式计算新贵Kafka Stream设计详解
Kafka Stream 是 Apache Kafka 从 0.10 版本引入的一个新 Feature。它提供了对存储于 Kafka 内的数据进行流式处理和分析的功能。一般流式计算会与批量计算相比较。在流式计算模型中,输入是持续的,可以认为在时间上 ...
号称史上最晦涩的算法Paxos,如何变得平易近人?
号称史上最晦涩的算法Paxos,如何变得平易近人?
Paxos(分布式一致性算法)作为分布式系统的基石,一直都是计算机系统工程领域的热门话题。Paxos号称是最难理解的算法,其实真的这么困难么?“X-Paxos”是阿里巴巴数据库团队面向高性能、全球部署以及阿里业务特征 ...
你的所有数据流统统属于Kafka
你的所有数据流统统属于Kafka
由于业界的注意力从笨拙的Hadoop和数据湖转向实时数据流,Apache Kafka继续一路崛起。Apache Kafka在高歌猛进。正如行业分析公司Redmonk的芬坦·瑞安(Fintan Ryan)特别指出,去年Kafka在开发人员当中的人气指数飙 ...

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

社区热帖

     

    GMT+8, 2018-10-22 09:05 , Processed in 0.098635 second(s), 16 queries .