炼数成金 大数据分布式系统
订阅

分布式系统

两万字深度介绍分布式系统原理,一文入魂
两万字深度介绍分布式系统原理,一文入魂
在具体的工程项目中,一个节点往往是一个操作系统上的进程。在本文的模型中,认为节点是一个完整的、不可分的整体,如果某个程序进程实际上由若干相对独立部分构成,则在模型中可以将一个进程划分为多个节点。
Kafka是如何保证高性能和高吞吐量的?
Kafka是如何保证高性能和高吞吐量的?
Kafka是一款分布式消息发布和订阅系统,它的特点是高性能、高吞吐量。最早设计的目的是作为LinkedIn的活动流和运营数据的处理管道。这些数据主要是用来对用户做用户画像分析以及服务器性能数据的一些监控。所以kafka ...
Kafka 孕育开源 KarelDB
Kafka 孕育开源 KarelDB
Apache Kafka及其配套的键值存储系统如今用于为越来越多的关系数据库提供持久性存储。大多数数据库使用键值存储系统作为基础。最近冒出来的KarelDB是一种关系数据库,它几乎完全建立在开源组件的基础上,包括用于SQL ...
比拼Kafka,大数据分析新秀Pulsar到底好在哪
比拼Kafka,大数据分析新秀Pulsar到底好在哪
在实时流式架构中,消息传递可以分为两类:队列(Queue)和流(Stream)。队列模型主要是采用无序或者共享的方式来消费消息。通过队列模型,用户可以创建多个消费者从单个管道中接收消息;当一条消息从队列发送出来 ...
技术专家:为什么我们最终选择Apache Pulsar替代Kafka?
技术专家:为什么我们最终选择Apache Pulsar替代Kafka?
在传统消息系统中,存在一些问题。一方面,消息的存储和服务一般是紧耦合的,节点的扩容和运维不便,特别是在需要多备份来保证高可用性的场景。另一方面,消息的消费模式被固定,在企业内部需要维护多套系统来保证不 ...
图解Gossip-可能是最有趣的一致性协议
图解Gossip-可能是最有趣的一致性协议
Gossip协议是一个通信协议,一种传播消息的方式,灵感来自于:瘟疫、社交网络等。使用Gossip协议的有:Redis Cluster、Consul、Apache Cassandra等。说到社交网络,就不得不提著名的六度分隔理论。1967年,哈佛大学 ...
分布式模式将给企业的岗位职责带来哪些变化?
分布式模式将给企业的岗位职责带来哪些变化?
什么是分布式?一个企业两套系统是否可以看作一个分布式部署?一套系统两个数据库、计算和存储分离、一个数据库部署在多个物理机是否可视为分布式部署?这里我们不纠结于场景或者实现形式的差异 , 从本质上看问题。
图文了解 Kafka 的副本复制机制
图文了解 Kafka 的副本复制机制
让分布式系统的操作变得简单,在某种程度上是一种艺术,通常这种实现都是从大量的实践中总结得到的。Apache Kafka 的受欢迎程度在很大程度上归功于其设计和操作简单性。随着社区添加更多功能,开发者们会回过头来重 ...
分布式架构中数据一致性常见的几个问题
分布式架构中数据一致性常见的几个问题
针对分布式架构下的数据一致性,大家也许会问这样的问题:跨系统间分布式事务如何解决?系统内多个服务的分布式事务如何解决?一个服务内多个数据源/数据库的分布式事务如何解决?……这些问题大家是很容易理解的, ...
让Elasticsearch飞起来!百亿级实时查询优化实战
让Elasticsearch飞起来!百亿级实时查询优化实战
最近的一个项目是风控过程数据实时统计分析和聚合的一个 OLAP 分析监控平台,日流量峰值在 10 到 12 亿上下,每年数据约 4000 亿条,占用空间大概 200T。面对这样一个数据量级的需求,我们的数据如何存储和实现实时 ...
为什么说流处理即未来?
为什么说流处理即未来?
最广为人知的 Flink 使用场景是流分析、连续处理(或者说渐进式处理),这些场景中 Flink 实时或者近实时的处理数据,或者采集之前提到的历史数据并且连续的对这些事件进行计算。晓伟在之前的演讲中提到一个非常好的 ...
Spark比拼Flink:下一代大数据计算引擎之争,谁主沉浮?
Spark比拼Flink:下一代大数据计算引擎之争,谁主沉浮?
自从数据处理需求超过了传统数据库能有效处理的数据量之后,Hadoop 等各种基于 MapReduce 的海量数据处理系统应运而生。从 2004 年 Google 发表 MapReduce 论文开始,经过近 10 年的发展,基于 Hadoop 开源生态或者 ...
Flink 原理与实现:架构和拓扑概览
Flink 原理与实现:架构和拓扑概览
当 Flink 集群启动后,首先会启动一个 JobManger 和一个或多个的 TaskManager。由 Client 提交任务给 JobManager,JobManager 再调度任务到各个 TaskManager 去执行,然后 TaskManager 将心跳和统计信息汇报给 JobMa ...
一致性哈希算法的理解与实践
一致性哈希算法的理解与实践
一致哈希是一种特殊的哈希算法。在使用一致哈希算法后,哈希表槽位数(大小)的改变平均只需要对 K/n个关键字重新映射,其中K是关键字的数量, n是槽位数量。然而在传统的哈希表中,添加或删除一个槽位的几乎需要对 ...
HBase Rowkey 设计指南
HBase Rowkey 设计指南
我们常说看一张 HBase 表设计的好不好,就看它的 RowKey 设计的好不好。可见 RowKey 在 HBase 中的地位。那么 RowKey 到底是什么?RowKey 的特点如下:类似于 MySQL、Oracle中的主键,用于标示唯一的行;完全是由用 ...

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

社区热帖

     

    GMT+8, 2020-1-26 16:30 , Processed in 0.081103 second(s), 16 queries .