炼数成金 大数据分布式系统
订阅

分布式系统

Storm 的搭建
Storm 的搭建
Storm是什么? Storm是Twitter开源的一个分布式的实时计算系统 使用场景: 数据的实时分析,持续计算,分布式RPC等等. Storm特点:(Storm类似手扶电梯,不出故障就会一直运行. hadoop类似升降电梯,到达一定程度会停止 ...
Twitter Storm: 搭建Storm集群
Twitter Storm: 搭建Storm集群
本文翻译自:https://github.com/nathanmarz/storm/wiki/Setting-up-a-Storm-cluster。这篇文章介绍搭建storm集群并运行的步骤。如果你使用AWS, 那么你可以看一下storm-deploy项目,storm-deploy项目使得在Amazon EC ...
Storm集群安装配置过程
Storm集群安装配置过程
这几天在其他同事的帮助下,调研了twitter的开源流式计算框架storm的使用,下面分享一下storm集群的安装配置过程。以作备忘之用。我的实验机器为:195和196如果转载请注明出处:comaple的博客首先:安装依赖包1,Zer ...
storm的安装部署
storm的安装部署
本文以Twitter Storm官方Wiki为基础,详细描述如何快速搭建一个Storm集群,其中,项目实践中遇到的问题及经验总结,在相应章节以“注意事项”的形式给出。1. Storm集群组件Storm集群中包含两类节点:主控节点(Maste ...
storm 原理简介及单机版安装指南
storm 原理简介及单机版安装指南
目录1、准备工作2、一个Storm集群的基本组件3、Topologies4、Stream5、数据模型(Data Model)6、一个简单的Topology7、流分组策略(Stream grouping)8、使用别的语言来定义Bolt9、可靠的消息处理10、单机版安装指南本文 ...
Twitter Storm集群安装配置
Twitter Storm集群安装配置
本文介绍Storm的集群安装配置过程,以及安装过程中遇到的问题解决。Storm的依赖软件比较多,需要装Python、zookeeper、zeromq以及jzmq,然后才是storm的安装。第一步,安装Python2.7.2# wgethttp://www.python.org/f ...
storm入门教程简介
storm入门教程简介
1.1 实时流计算互联网从诞生的第一时间起,对世界的最大的改变就是让信息能够实时交互,从而大大加速了各个环节的效率。正因为大家对信息实时响应、实时交互的需求,软件行业除了个人操作系统之外,数据库(更精确的 ...
storm入门介绍二
storm入门介绍二
问题导读1、什么是分组和消息流?2、Storm以什么方式向每个bolt实例发送消息?3、怎么创建、使用Storm项目?本章我们将会创建一个Storm工程和我们的第一个Storm topology。提示:下述假设你已经安装JRE1.6或者更高级 ...
storm的指南
storm的指南
Storm这是一个分布式的、容错的实时计算系统,它被托管在GitHub上,遵循Eclipse Public License 1.0。Storm是由BackType开发的实时处理系统,BackType现在已在Twitter麾下,基本是用Clojure写的。Storm为分布式实时计 ...
storm入门介绍
storm入门介绍
问题导读1、什么是Storm?2、Storm常用于处理什么,哪些环境下用?3、Storm集群由哪些构成?Storm简介Storm是一个分布式、可靠、容错的流式数据处理系统。处理工作被分派给不同类型的组件(components),每个组件分别 ...
storm的简介
storm的简介
场景伴随着信息科技日新月异的发展,信息呈现出爆发式的膨胀,人们获取信息的途径也更加多样、更加便捷,同时对于信息的时效性要求也越来越高。举个搜索场景中的例子,当一个卖家发布了一条宝贝信息时,他希望的当然 ...
Storm 的入门介绍和原理(官方文档)
Storm 的入门介绍和原理(官方文档)
In this tutorial, you’ll learn how to create Storm topologies and deploy them to a Storm cluster. Java will be the main language used, but a few examples will use Python to illustrate Storm’s multi- ...
从Storm和Spark 学习流式实时分布式计算的设计
从Storm和Spark 学习流式实时分布式计算的设计
流式实时分布式计算系统在互联网公司占有举足轻重的地位,尤其在在线和近线的海量数据处理上。而处理这些海量数据的,就是实时流式计算系统。Spark是实时计算的系统,支持流式计算,批处理和实时查询。除了Spark,流 ...
Tachyon:吞吐量超过HDFS 300多倍 来自伯克利的分布式文件系统
Tachyon:吞吐量超过HDFS 300多倍 来自伯克利的分布式文件系统
你的Hadoop足够快吗?美国加州大学伯克利分校的AMPLab基于Hadoop的核心组件开发出一个更快的版本Tachyon,它从底层重构了Hadoop平台。不过Tachyon的吞吐量要比HDFS高300多倍。“没有最快,只有更快”!
HBase数据迁移(1)-使用HBase的API中的Put方法
HBase数据迁移(1)-使用HBase的API中的Put方法
要使用Hadoop,需要将现有的各种类型的数据库或数据文件中的数据导入HBase。一般而言,有三种常见方式:使用HBase的API中的Put方法,使用HBase 的bulk load工具和使用定制的MapReduce Job方式。本文均有详细描述。

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

热门文章

    社区热帖

       

      GMT+8, 2021-10-18 13:44 , Processed in 0.085241 second(s), 16 queries .