炼数成金 大数据分布式系统
订阅

分布式系统

HBase基准性能测试报告分享与讨论
HBase基准性能测试报告分享与讨论
很多人对HBase的印象可能都是写性能很好、读性能很差,但实际上HBase的读性能远远超过大家的预期。集群吞吐量最大可以达到26000+,单台吞吐量可以达到8000+左右,延迟在几毫秒~20毫秒左右。IO和CPU是主要瓶颈。Rang ...
tomcat的配置和优化
tomcat的配置和优化
tomcat的内存使用配置,最大连接数配置。如何修改配置呢,在/tomcat的/bin/下面有个脚本文件catailna.sh。 如果 windows 是bat设置tomcat的使用内存,其实就是设置jvm的使用参数。Tomcat内存优化主要是对 tomcat 启 ...
问世40年,它仍是编写分布式应用使用率最高的编程模型
问世40年,它仍是编写分布式应用使用率最高的编程模型
远程过程调用(RPC)范式的出现可以追溯到40年之前。时至今日,它仍是在编写分布式应用时使用率最高的一种编程模型。只是近些年来,人们对于RPC技术的质疑与批评声逐渐多了起来。Steve Vinoski在2008年曾尖锐地指出 ...
走进RPC发展史,如何面对越来越多的质疑与批评?
走进RPC发展史,如何面对越来越多的质疑与批评?
简单来说,一台机器上的程序对另一台机器上的子程序的调用就是一次RPC调用。在调用过程中,主程序不需要操心与远程执行相关的任何代码,与本地调用相比,其唯一区别就在于需要提供远程节点的标识。最早为人所知并接 ...
数据流和批量大数据分析技术Apache Apex提升为Apache顶级项目
数据流和批量大数据分析技术Apache Apex提升为Apache顶级项目
数据流和批量大数据分析技术Apache Apex近日被Apache软件基金会提升为顶级项目。这项技术已被包括第一资本(Capital One)和通用电气(GE)在内的企业组织使用,可以帮助开发人员更快速地创建充分利用实时数据的应用 ...
Storm上的实时统计利器-easycount
Storm上的实时统计利器-easycount
Storm是TRC(腾讯实时计算)平台的核心组件。与Hadoop不同,storm之上没有像hive,pig之类的解放应用开发人员效率的工具。开发原生的storm应用必须掌握storm的api,开发门槛高,调试困难,效率低下。EasyCount(SQL on ...
保证分布式系统数据一致性的6种方案
保证分布式系统数据一致性的6种方案
在电商等业务中,系统一般由多个独立的服务组成,如何解决分布式调用时候数据的一致性?具体业务场景如下,比如一个业务操作,如果同时调用服务 A、B、C,需要满足要么同时成功;要么同时失败。A、B、C 可 ...
百度地图的工程师都是如何利用Apache Kylin处理数据的
百度地图的工程师都是如何利用Apache Kylin处理数据的
百度地图开放平台业务部数据智能组主要负责百度地图内部相关业务的大数据计算分析,处理日常百亿级规模数据,为不同业务提供单条SQL毫秒级响应的OLAP多维分析查询服务。对于Apache Kylin在实际生产环境中的应用,在 ...
Mesos 全方位“烹饪”指南
Mesos 全方位“烹饪”指南
如今与Mesos相关的文章可谓层出不穷,不过展示能够直接用于生产的完整基础设施的资料却相当少见。在今天的文章中,我将介绍各组件的配置与使用方式,旨在帮助大家利用Mesos构建起持续交付且拥有容错能力的运行时平台 ...
在 Apache Hive 中轻松生存的12个技巧
在 Apache Hive 中轻松生存的12个技巧
Hive并不是关系型数据库(RDBMS),但是它大多数时候都表现得像是一个关系型数据库一样,它有表、可以运行 SQL、也支持 JDBC 和 ODBC。这种表现既有好的一面,也有不好的一面:Hive 并不像关系型数据库那样执行 SQL ...
基于Locust、Tsung的百万并发秒杀压测案例
基于Locust、Tsung的百万并发秒杀压测案例
不久前,数人云联合清华大学交叉信息研究院 OCP 实验室通过 10 台 OCP 服务器成功承载了百万并发 HTTP 请求。此次实验设立的目标是在物理资源最小值的情况下完成 100 万并发处理,通过此次实验,最大化验证了基于 Me ...
Kafka在大数据生态系统中的价值
Kafka在大数据生态系统中的价值
近几年, Apache Kafka的应用有了显著的增长。Kafka最新的客户包括Uber, Twitter, Netflix, LinkedIn, Yahoo, Cisco, Goldman Sachs 等。Kafka是个高可扩展的生产消费者系统。利用Kafka系统,用户可以发布大量的消息 ...
MemCache 超详细解读
MemCache 超详细解读
MemCache是一个自由、源码开放、高性能、分布式的分布式内存对象缓存系统,用于动态Web应用以减轻数据库的负载。它通过在内存中缓存数据和对象来减少读取数据库的次数,从而提高了网站访问的速度。MemCaChe是一个存 ...
关于分布式数据库,你该了解的几件事
关于分布式数据库,你该了解的几件事
随着业务对大数据技术需求的不断演变,分布式数据库在整个生态圈中的地位愈加重要,已可预见必将成为未来大数据技术发展的又一个核心,而其中OLAP(联机分析处理)显得尤其重要。基本理论数据库的基本理论ACID原子性 ...
50PB海量数据排序,谷歌是这么做的
50PB海量数据排序,谷歌是这么做的
用于大规模数据集并行运算的MapReduce诞生之后,谷歌工程师对其进行了大规模随机数据的排序测试。最近,他们向外界披露了过去几年的测试数据和经验总结,特别是50PB海量数据的排序,对于关注数据处理的技术人员来说 ...

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

社区热帖

     

    GMT+8, 2018-10-22 10:28 , Processed in 0.168843 second(s), 16 queries .