炼数成金 大数据分布式系统
订阅

分布式系统

Kafka 的七年之痒
Kafka 的七年之痒
Kafka 是 2010 年左右在 LinkedIn 研发的一套流数据处理平台。当时 LinkedIn 也和很多大的互联网公司一样,分很多的组,有很多的产品,每天收集非常多的数据。这些数据都是实时生成的,比如用户活跃度、日志,我们有 ...
分布式基础—RPC
分布式基础—RPC
在传统的开发模式中,我们通常将系统的各个服务部署在单台机器,随着服务的扩展,这种方式已经完全无法满足系统大规模的扩展需要,分布式系统由此诞生,在分布式系统中,最重要就是各个服务之间的 RPC 调用。RPC 全 ...
分布式机器学习平台比较:Spark / PMLS / TensorFlow
分布式机器学习平台比较:Spark / PMLS / TensorFlow
机器学习,特别是深度学习(DL),最近已经在语音识别、图像识别、自然语言处理、推荐/搜索引擎等领域获得了成功。这些技术在自主驾驶汽车、数字卫生系统、CRM、广告、物联网等方面都存在着非常有前景的应用。当然, ...
Spark Streaming 技术点汇总
Spark Streaming 技术点汇总
Spark Streaming 支持实时数据流的可扩展(scalable)、高吞吐(high-throughput)、容错(fault-tolerant)的流处理(stream processing)。 Spark 在接收到实时输入数据流后,将数据划分成批次(divides the data ...
分布式流处理新贵Kafka Stream
分布式流处理新贵Kafka Stream
本文介绍了Kafka Stream的背景,如Kafka Stream是什么,什么是流式计算,以及为什么要有Kafka Stream。接着介绍了Kafka Stream的整体架构,并行模型,状态存储,以及主要的两种数据集KStream和KTable。并且分析了Kaf ...
分布式锁?架构师的这篇文章带你玩转!
分布式锁?架构师的这篇文章带你玩转!
大多数互联网系统都是分布式部署的,分布式部署确实能带来性能和效率上的提升,但为此,我们就需要多解决一个分布式环境下,数据一致性的问题。当某个资源在多系统之间,具有共享性的时候,为了保证大家访问这个资源 ...
Kafka实践:到底该不该把不同类型的消息放在同一个主题中?
Kafka实践:到底该不该把不同类型的消息放在同一个主题中?
如果你使用了像 Kafka 这样的流式处理平台,就要搞清楚一件事情:你需要用到哪些主题?特别是如果你要将一堆不同的事件作为消息发布到 Kafka,是将它们放在同一个主题中,还是将它们拆分到不同的主题中?Kafka 主题 ...
Apache Flink 1.6.0 正式发布,涵盖多项重要更新
Apache Flink 1.6.0 正式发布,涵盖多项重要更新
Flink 的状态支持是使 Flink 在实现各种用例方面如此通用和强大的关键特性之一。为了使其更加容易使用,社区为其添加了 TTL 的原生支持(FLINK-9510, FLINK-9938),此功能允许在状态过期之后能够清理状态。在 Flink 1 ...
RocketMQ 4.3正式发布,支持分布式事务
RocketMQ 4.3正式发布,支持分布式事务
在微服务架构中,随着服务的逐步拆分,数据库私有已经成为共识,这也导致所面临的分布式事务问题成为微服务落地过程中一个非常难以逾越的障碍,但是目前尚没有一个完整通用的解决方案。其实不仅仅是在微服务架构中, ...
Facebook「配置大规模服务器」的兵刃:位置感知分发(LAD)
Facebook「配置大规模服务器」的兵刃:位置感知分发(LAD)
Facebook的基础设施包括许多地域分散的数据中心,它们托管运行数百万台服务器。这些服务器运行众多系统,从前端Web服务器、新闻源(News Feed)聚合系统到消息传递和实时视频应用,不一而足。除了常规的代码推送外, ...
手把手教你学习 etcd
手把手教你学习 etcd
etcd 是一个分布式的、一致性的键值存储系统,主要用于配置共享和服务发现,etcd 基于 Go 语言实现;Google 的容器集群管理系统 Kubernetes、开源 PaaS 平台 Cloud Foundry 和 CoreOS 的 Fleet 都广泛使用了 etcd。 ...
阿里巴巴为什么不用 ZooKeeper 做服务发现?
阿里巴巴为什么不用 ZooKeeper 做服务发现?
站在未来的路口,回望历史的迷途,常常会很有意思,因为我们会不经意地兴起疯狂的念头,例如如果当年某事提前发生了,而另外一件事又没有发生会怎样?一如当年的奥匈帝国皇位继承人斐迪南大公夫妇如果没有被塞尔维亚 ...
大妈也能看懂的大数据分布式计算图解
大妈也能看懂的大数据分布式计算图解
首先,什么是分布式计算?简单点理解就是将大量的数据分割成多个小块,由多台计算机分工计算,然后将结果汇总。这些执行分布式计算的计算机叫做集群,我们仍然延续前文中人和计算机的类比,那么集群就是一个团队,单 ...
Flume + kafka + HDFS构建日志采集系统
Flume + kafka + HDFS构建日志采集系统
Flume是一个非常优秀日志采集组件,类似于logstash,我们通常将Flume作为agent部署在application server上,用于收集本地的日志文件,并将日志转存到HDFS、kafka等数据平台中;关于Flume的原理和特性,我们稍后详解 ...
分布式之消息队列复习精讲
分布式之消息队列复习精讲
系统间耦合性太强,如上图所示,系统A在代码中直接调用系统B和系统C的代码,如果将来D系统接入,系统A还需要修改代码,过于麻烦!将消息写入消息队列,需要消息的系统自己从消息队列中订阅,从而系统A不需要做任何修 ...

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

社区热帖

     

    GMT+8, 2018-11-16 19:43 , Processed in 0.115705 second(s), 16 queries .