炼数成金 大数据分布式系统
订阅

分布式系统

让Elasticsearch飞起来!百亿级实时查询优化实战
让Elasticsearch飞起来!百亿级实时查询优化实战
最近的一个项目是风控过程数据实时统计分析和聚合的一个 OLAP 分析监控平台,日流量峰值在 10 到 12 亿上下,每年数据约 4000 亿条,占用空间大概 200T。面对这样一个数据量级的需求,我们的数据如何存储和实现实时 ...
为什么说流处理即未来?
为什么说流处理即未来?
最广为人知的 Flink 使用场景是流分析、连续处理(或者说渐进式处理),这些场景中 Flink 实时或者近实时的处理数据,或者采集之前提到的历史数据并且连续的对这些事件进行计算。晓伟在之前的演讲中提到一个非常好的 ...
Spark比拼Flink:下一代大数据计算引擎之争,谁主沉浮?
Spark比拼Flink:下一代大数据计算引擎之争,谁主沉浮?
自从数据处理需求超过了传统数据库能有效处理的数据量之后,Hadoop 等各种基于 MapReduce 的海量数据处理系统应运而生。从 2004 年 Google 发表 MapReduce 论文开始,经过近 10 年的发展,基于 Hadoop 开源生态或者 ...
Flink 原理与实现:架构和拓扑概览
Flink 原理与实现:架构和拓扑概览
当 Flink 集群启动后,首先会启动一个 JobManger 和一个或多个的 TaskManager。由 Client 提交任务给 JobManager,JobManager 再调度任务到各个 TaskManager 去执行,然后 TaskManager 将心跳和统计信息汇报给 JobMa ...
一致性哈希算法的理解与实践
一致性哈希算法的理解与实践
一致哈希是一种特殊的哈希算法。在使用一致哈希算法后,哈希表槽位数(大小)的改变平均只需要对 K/n个关键字重新映射,其中K是关键字的数量, n是槽位数量。然而在传统的哈希表中,添加或删除一个槽位的几乎需要对 ...
HBase Rowkey 设计指南
HBase Rowkey 设计指南
我们常说看一张 HBase 表设计的好不好,就看它的 RowKey 设计的好不好。可见 RowKey 在 HBase 中的地位。那么 RowKey 到底是什么?RowKey 的特点如下:类似于 MySQL、Oracle中的主键,用于标示唯一的行;完全是由用 ...
分布式快照算法: Chandy-Lamport 算法
分布式快照算法: Chandy-Lamport 算法
Spark 的 Structured Streaming 的 Continuous Processing Mode 的容错处理使用了分布式快照(Distributed Snapshot)算法 Chandy-Lamport 算法,那么分布式快照算法可以用来解决什么问题呢?简单来说就是用来在缺乏 ...
HBase 协处理器入门及实战
HBase 协处理器入门及实战
HBase 和 MapReduce 有很高的集成,我们可以使用 MR 对存储在 HBase 中的数据进行分布式计算。但是在很多情况下,例如简单的加法计算或者聚合操作(求和、计数等),如果能够将这些计算推送到 RegionServer,这将大 ...
这可能是搭建Zookeeper集群介绍最全的文章
这可能是搭建Zookeeper集群介绍最全的文章
怎么搭建单机无安全校验的就不说了,百度一搜一大堆。这里我就说说怎么搭建一个生产环境可用的Zookeeper集群。Docker方式不太建议,要考虑的东西比较多,如果要用Docker方式还是比较建议自建镜像,假如是Docker专家 ...
大数据开发者应该知道的分布式系统 CAP 理论
大数据开发者应该知道的分布式系统 CAP 理论
无论你是一个系统架构师,还是一个普通开发,当你开发或者设计一个分布式系统的时候,CAP理论是无论如何也绕不过去的。本文就来介绍一下到底什么是CAP理论,如何证明CAP理论,以及CAP的权衡问题。CAP理论概述CAP理论 ...
深入理解Flink核心技术
深入理解Flink核心技术
Flink的核心是一个流式的数据流执行引擎,其针对数据流的分布式计算提供了数据分布,数据通信以及容错机制等功能。基于流执行引擎,Flink提供了诸多更高抽象层的API以方便用户编写分布式任务:1. DataSet API, 对静 ...
Kafka 的七年之痒
Kafka 的七年之痒
Kafka 是 2010 年左右在 LinkedIn 研发的一套流数据处理平台。当时 LinkedIn 也和很多大的互联网公司一样,分很多的组,有很多的产品,每天收集非常多的数据。这些数据都是实时生成的,比如用户活跃度、日志,我们有 ...
分布式基础—RPC
分布式基础—RPC
在传统的开发模式中,我们通常将系统的各个服务部署在单台机器,随着服务的扩展,这种方式已经完全无法满足系统大规模的扩展需要,分布式系统由此诞生,在分布式系统中,最重要就是各个服务之间的 RPC 调用。RPC 全 ...
分布式机器学习平台比较:Spark / PMLS / TensorFlow
分布式机器学习平台比较:Spark / PMLS / TensorFlow
机器学习,特别是深度学习(DL),最近已经在语音识别、图像识别、自然语言处理、推荐/搜索引擎等领域获得了成功。这些技术在自主驾驶汽车、数字卫生系统、CRM、广告、物联网等方面都存在着非常有前景的应用。当然, ...
Spark Streaming 技术点汇总
Spark Streaming 技术点汇总
Spark Streaming 支持实时数据流的可扩展(scalable)、高吞吐(high-throughput)、容错(fault-tolerant)的流处理(stream processing)。 Spark 在接收到实时输入数据流后,将数据划分成批次(divides the data ...

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

社区热帖

     

    GMT+8, 2019-4-20 14:33 , Processed in 0.110722 second(s), 16 queries .