Hadoop部署
Hadoop发展历程以及配套项目
Hadoop发展历程是怎样的呢?Hadoop原本来自于谷歌一款名为MapReduce的编程模型包。谷歌的MapReduce框架可以把一个应用程序分解为许多并行计算指令,跨大量的计算节点运行非常巨大的数据集。使用该框架的一个典型例子就是在网络数据上运行的搜索...
不看不知道:六个超大规模Hadoop部署案例
虽然Hadoop是眼下热闹非凡的大数据领域最热话题,但它肯定不是可以解决数据中心和数据管理方面所有难题的灵丹妙药。考虑到这一点,我们暂且不想猜测这个平台未来会如何,也不想猜测各种数据密集型解决方案的开源技术未来会如何,而是关注让Hadoop越来越火的实...
传国内最大Hadoop集群阿里云梯即将下线
据阿里巴巴员工罗李在微博上透露:阿里云梯,这个国内最大Hadoop集群,下线已经进入倒计时。此消息一出,引发业界一片哗然。罗李,花名鬼厉,是阿里“云梯”集群的元老级创立者,也是阿里分布式计算团队的第一批员工,长期从事分布式存储和ha...
薪酬调查:Hadoop从业者收入超过Oracle DBA
在我们上一次的数据库工程师薪酬调查报告中,Oracle DBA的平均收入是最高的,而这一情况在2013年出现了变化。伴随大数据时代的到来,包括Hadoop、NoSQL相关技术的从业人员收入大部分高于平均水平。根据本次调查显示,Hadoop从业者的平均年收入最高...
应用Hadoop 十分必要
在Apache Hadoop的起步阶段,主要支持类似搜索引擎的功能。如今,Hadoop已经被数十个行业采用,它们依靠大数据计算来提升业务处理性能。政府、制造业、医疗保健、零售业和其他部门越来越多的从经济发展和Hadoop计算能力中受益,然而受到传统企业解决方案...
九头蛇与大象之争,Hydra或将取代Hadoop
Hydra(九头蛇),分布式任务处理系统,由社交标签服务提供商AddThis六年前开发,现在已得到Apache的开源许可,就像Hadoop一样,只是还没有Hadoop那样的知名度和声势。Hydra的创造者称,该“多头”平台非常擅长处理一...
【程序员】大数据实时处理:百分点实时计算架构和算法
当今时代,数据不再昂贵,但从海量数据中获取价值变得昂贵,而要及时获取价值则更加昂贵,这正是大数据实时计算越来越流行的原因。以百分点公司为例,在高峰期每秒钟会有近万HTTP请求发送到百分点服务器上,这些请求包含了用户行为和个性化推荐请求。如何从这...
Hadoop关于处理大量小文件的问题和解决方法
小文件指的是那些size比HDFS的block size(默认64M)小的多的文件。如果在HDFS中存储小文件,那么在HDFS中肯定会含有许许多多这样的小文件(不然就不会用hadoop了)。而HDFS的问题在于无法很有效的处理大量小文件。任何一个文件,目录...
Hadoop虽然强大 但并不是万能的
随着 Hadoop 应用的不断拓展,使很多人陷入了对它的盲目崇拜中,认为它能解决一切问题。虽然Hadoop是一个伟大的分布式大型数据计算的框架,但Hadoop不是万能的。比如在下面这几种场景就不适合使用Hadoop:1、低延迟的数据访问Hadoop并不...
Google打造云中Hadoop便捷版,强势对抗AWS
Google Compute Engine 的虚拟机提供了一种快速、可靠的方式来运行 Apache Hadoop。如今,Google 正在努力通过Google Cloud Storage Hadoop预览版更简单的在 Google Cloud Platform...
洞悉大数据:Hadoop和云分析七大误解
七大误解:大数据与hadoop对于Hadoop技术而言,可以说是开源领域的传奇,然而如今业界还伴随着一些流言,这些流言可能会导致IT高管们带着“有色”的观点去制定策略。从IDC分析师报告中2013年数据存储上的增长速度将达到53...
看Netflix是如何良性融合AWS和Apache Hadoop的!
近日,Netflix大数据平台架构经理Jeff Magnusson就他们的数据平台即服务(Data Platform as a Service)做了演讲。跟随这个演讲的线索,我们试图进一步解释技术堆栈是如何存在的以及它是如何帮助Netflix处理重要的商业决策...
Facebook数据专家:处理大数据,仅有Hadoop不够
有很多很普及的大数据的观念需要被质疑,首先一点就是人们普遍认为你可以简单地利用Hadoop,并且Hadoop易于使用。问题是,Hadoop是一项技术,而大数据和技术无关。大数据是和业务需求有关的。事实上,大数据应该包括Hadoop和关系型数据库以及任何其它适合...
使用Hadoop-RDMA加速大数据处理
中国最具影响、规模最大的大数据领域盛会—— 2013中国大数据技术大会(Big Data Technology Conference,BDTC)于2013年12月5-6日在北京举行。数十家领军企业,近七十场主题演讲,不仅覆盖Hadoop...
Hadoop序列化与Writable接口(一)
序列化序列化(serialization)是指将结构化的对象转化为字节流,以便在网络上传输或者写入到硬盘进行永久存储;相对的反序列化(deserialization)是指将字节流转回到结构化对象的过程。在分布式系统中进程将对象序列化为字节流,通过网络传...
china hadoop summit议程出台 暗藏大数据走向
作为本年度最具看点的Hadoop压轴盛宴,2013 Hadoop中国技术峰会即将于11月22日-23日在北京福朋喜来登大酒店盛大开幕.大会集结了近千名CIO、CTO、架构师、IT经理、咨询顾问、工程师、Hadoop技术爱好者,以及从事Hadoop研究与推广的I...
YARN赋予Hadoop新的能力
近日,Hadoop 2 GA版发布,借助于YARN,Hadoop 2可以创建能在Hadoop中本地工作的数据处理应用。通过将集群资源管理这些关注点从数据处理中分离出来,YARN使得Hadoop能应用于Map-Reduce以外的数据处理中。因此,这样大量新项目就...
Hadoop无法解决的难题
因为项目的需要,学习使用了Hadoop,和所有过热的技术一样,“大数据”、“海量”这类词语在互联网上满天乱飞。Hadoop是一个非常优秀的分布式编程框架,设计精巧而且目前没有同级别同重量的替代品。另外也接触到一个...
单机模式处理大数据的一些开源利器
1. LibFM:项目主页2. Svdfeature:项目主页3. Libsvm和Liblinear:libsvm项目主页、liblinear项目主页、初次使用必读、libsvm的开发心得by林智仁4. rt-rank:项目主页5. Mahout:项目主页6....
Hadoop虚拟化的调优经验
Hadoop虚拟化的调优经验(1)计划初始规模:集群表现于跟数据中心基础设施和配置密切相关,建议用户在一开始对环境表现难以预测的时候,先建立小规模集群,比如5台或者6台服务器,部署Hadoop,然后运行标准Hadoop基准了解自己数据中心的特点。然后根据需...
Hadoop 从小象到巨人的崛起
随着互联网、移动互联网、物联网、云计算的快速发展,各行各业爆炸性增长的海量数据将再一次颠覆云时代,信息量暴增的大数据时代吹响了号角。用户如何从这庞大的数据库中提取对自己有用的信息呢?这就需要大数据分析技术和工具,而传统的商业智能(BI)工具已经...
Hortonworks推新版HDP 提升Hadoop性能
作为以Apache Hadoop YARN架构为基础的新一代方案,HDP 2.0(HDP,Hortonworks Data Platform,Hortonworks数据平台)的出现让Hadoop从单一用途的Web规模批量数据处理平台进化为一套多用型操作系统。如...
配置hadoop伪分布模式
使用的linux mint 15 64bit,hadoop使用的是1.2.1版本。1、设置ssh安装ssh相关软件包:sudo apt-get install openssh-client openssh-server然后使用下面两个命令之一启动/...
Hadoop中国技术峰会引发Hadoop 2.0风暴
Hadoop从2006年诞生到现在已经走过7年。试问当今全球执Hadoop技术牛耳者当谁?你一定会想到Hortonworks和Cloudera,否则你都不好意思说你了解Hadoop。作为本年度大中华地区规模最大的Hadoop技术峰会,China Hadoo...