聚合国内IT技术精华文章,分享IT技术精华,帮助IT从业人士成长

  • 2928949 views阅读

    Hadoop 2.6.x 下Distributed Cache的用法

    仔细记录一下Java的Map-Reduce job使用distributed cache的方法,毕竟以前一直都是copy paste ~ ✓ 适用的Hadoop版本 CDH 5.8.0(Hadoop 2.6.0) 别的版本没有测试过,但后面相近的版本应该也能用。 ✓ 准备工作:上传本地文件到HDFS 为了在Java代码中把一个文件加入 distributed cache...

    分类:技术文章 时间:2020-07-29 04:35 我要评论(0个)

  • 1047214 views阅读

    采访Hadoop创始人Doug Cutting纪要

    2020年6月9日,无意在Wordpress草稿箱发现了11年跟@董世晓一起对Doug Cutting的采访纪要。感谢世晓和CSDN给我这个机会。9年之后回顾这个采访内容,还觉得很有意思。一个影响行业的技术大牛,都是在一个技术领域深耕多年的。而最早开源的原因,竟然是Doug想复用他写的代码:) 最后修改 2011-12-05 有关Doug Cutting这次采访的更详细内容,请关注最新一...

    分类:技术文章 时间:2020-06-09 19:50 我要评论(0个)

  • 1130465 views阅读

    ZooKeeper原理及其在Hadoop和HBase中的应用

    ZooKeeper是一个开源的分布式协调服务,由雅虎创建,是Google Chubby的开源实现。分布式应用程序可以基于ZooKeeper实现诸如数据发布/订阅、负载均衡、命名服务、分布式协调/通知、集群管理、Master选举、分布式锁和分布式队列等功能。 简介 ZooKeeper是一个开源的分布式协调服务,由雅虎创建,是Google Chubby的开源实现。分布式应用程序可以基于Zoo...

    分类:技术文章 时间:2017-02-28 09:30 我要评论(0个)

  • 1778278 views阅读

    如何搭建一个易于维护的 Hadoop 集群?

    学习如何搭建一个易于维护的hadoop集群。 之前,关于部署Apache Hadoop的硬件选择上,我们发表了一些推荐规范。那篇文章就集群规划和部署方面提出了一些不错的想法。比如工作负载分析,CPU、磁盘、内存分配相关的建议。这篇文章我们将对下一实施步骤提供最佳的实践指导:等机器一到,我们就能开始配置机器了。通过这两篇文章,你就可以向着部署一个完美Hadoop生产坏境的目标迈出一大步了。 ...

    分类:技术文章 时间:2016-08-25 13:50 我要评论(0个)

  • 1790496 views阅读

    浅谈分布式计算的开发与实现(1)

    阅读目录: 介绍 利用分片算法 利用消息队列 Hadoop简介 MapReduce 离线计算 介绍 分布式计算简单来说,是把一个大计算任务拆分成多个小计算任务分布到若干台机器上去计算,然后再进行结果汇总。 目的在于分析计算海量的数据,从雷达监测的海量历史信号中分析异常信号(外星文明),淘宝双十一实时计算各地区的消费习惯等。 海量计算最开始的方案是提高单机计算性能,如大型机,后来由于数据...

    分类:技术文章 时间:2015-11-18 04:25 我要评论(0个)

  • 1046445 views阅读

    Hadoop 家族介绍

    简介 Apache Hadoop是一款支持数据密集型分布式应用并以Apache 2.0许可协议发布的开源软件框架。它支持在商品硬件构建的大型集群上运行的应用程序。Hadoop是根据Google公司发表的MapReduce和Google档案系统的论文自行实作而成。 Hadoop框架透明地为应用提供可靠性和数据移动。它实现了名为MapReduce的编程范式:应用程序被分割成许多小部分,而每个部...

    分类:技术文章 时间:2015-09-10 22:15 我要评论(0个)

  • 1409042 views阅读

    CentOS 6.6 安装 Hadoop 集群记录(准备阶段)

    本次安装选用的是Cloudera Hadoop CDH 5.2.3版本,Cent OS 6.6 的系统,安装流程为非常的不专业。仅供记录,勿参考。 一、安装前准备 1、更新系统yum update2、安装JDK A、下载并安装RPM包cd /usr/local/src wget --no-cookies --no-check-certificate --header "Cookie: g...

    分类:技术文章 时间:2015-08-19 08:25 我要评论(0个)

  • 2215515 views阅读

    如何在一个简单的 RES T客户端使用 SQL,Hadoop,Drill?

    根据福雷斯特研究公司(Forrester Research)的观点,SQL将成为Hadoop生态系统中最多产的应用方案之一。Apache Drill 是一个应用于大数据搜索的开源SQL查询引擎。REST服务和客户端已经成为互联网流行的技术。 Apache HBase则是一个广受欢迎的Hadoop NoSQL数据库。在本文中,我将结合 SQL、Hadoop、Drill、REST with J...

    分类:技术文章 时间:2015-08-04 07:45 我要评论(0个)

  • 1609369 views阅读

    Hadoop的Server及其线程模型分析

    一、Listener Listener线程,当Server处于运行状态时,其负责监听来自客户端的连接,并使用Select模式处理Accept事件。 同时,它开启了一个空闲连接(Idle Connection)处理例程,如果有过期的空闲连接,就关闭。这个例程通过一个计时器来实现。 当select操作调用时,它可能会阻塞,这给了其它线程执行的机会。当有accept事件发生,它就会被唤醒以处理...

    分类:技术文章 时间:2015-07-28 20:55 我要评论(0个)

  • 1337875 views阅读

    学习笔记:Twitter核心数据类库团队的Hadoop优化经验

    一、来源 Streaming Hadoop Performance Optimization at Scale, Lessons Learned at Twitter (Data platform @Twitter) 二、观后感 2.1 概要 此稿介绍了Twitter的核心数据类库团队,在使用Hadoop处理离线任务时,使用的性能分析方法,及由此发现的问题和优化手段,对如何使用JVM/Ho...

    分类:技术文章 时间:2015-07-17 20:40 我要评论(0个)

  • 1442017 views阅读

    Twitter 核心数据类库团队的 Hadoop 优化经验

    一、来源 Streaming Hadoop Performance Optimization at Scale, Lessons Learned at Twitter (Data planform @Twitter) 二、观后感 2.1 概要 此稿介绍了Twitter的核心数据类库团队,在使用Hadoop处理离线任务时,使用的性能分析方法,及由此发现的问题和优化手段,对如何使用JVM/H...

    分类:技术文章 时间:2015-07-16 22:35 我要评论(0个)

  • 1284189 views阅读

    SQL on Hadoop 的真相(2)

    这是一组系列博客,目的是详尽介绍 SQL-on-Hadoop 。该系列的第一篇会介绍一些存储引擎和在线事务处理(简称 OLTP )相关话题,这一篇将介绍联机分析处理(简称 OLAP ),第三篇将介绍对 Hadoop 引擎改造以及在相关替代产品中如何选型等话题。 数据处理与联机分析处理 ( OLAP ) 联机分析处理是那些为了支持商业智能,报表和数据挖掘与探索等业务而开展的工作。这类工作的例...

    分类:技术文章 时间:2015-05-29 07:55 我要评论(0个)