大数据
AWS领跑云市场 开源数据库各显神通
亚马逊领跑云市场 微软大打亲和牌这周对于亚马逊来说,应该是“悲喜交加”的一周。首先,AWS在中国的首次市场培训活动在北京拉开帷幕,来自全国各地的近400参会者让会场座无虚席,开了“AWS中国行”的好兆头。...
Hadoop 平台在金融银行业的应用架构
Hadoop 平台在金融银行业的应用架构薛强彦一、金融银行业现状随着我国金融银行业的发展和网络通信基础设施水平的提高,金融银行业信息化已经逐渐普及,但是随着互联网技术和应用的飞速发展,许多新兴的支付方式不断涌现,金融银行业的数据信息量也在快速增长...
优酷土豆Hadoop 平台开放之路(1)
优酷土豆Hadoop 平台开放之路(1)傅杰背景早在2011 年之前,只有优酷网数据团队在使用Hadoop。两年间随着Hadoop 技术的推广以及大数据的影响,越来越多的领域都在使用Hadoop,公司的其他团队也在逐步引入Hadoop 技术。201...
如何利用Mahout和Hadoop处理大规模数据
利用Mahout和Hadoop处理大规模数据规模问题在机器学习算法中有什么现实意义?让我们考虑你可能需要部署Mahout来解决的几个问题的大小。据粗略估计,Picasa三年前就拥有了5亿张照片。 这意味着每天有百万级的新照片需要处理。一张照片的分析本身...
优酷土豆Hadoop 平台开放之路(2)
优酷土豆Hadoop 平台开放之路(2)引入KerberosHadoop 在1.0 以后的版本中支持了Kerberos,我们将Kerberos 安全认证开启,上述描述的相关问题都能得到解决。下图所示为Kerberos 的主体结构图,包括Identity...
机器学习对大数据应用贡献非凡
机器学习对大数据应用投资回报的贡献主要体现在两个方面:一是促进数据科学家们的多产性;二是发现一些被忽视的方案,有些方案甚至遭到了最好的数据科学家们的忽视。...
HDP新版本让Hadoop真正成为企业级数据平台
Hadoop欧洲地区峰会上,Hortonworks公布了Hortonworks Data Platform (HDP)2.1版本。这一Hadoop发行版的升级版本新增了数据治理、安全、流处理和搜索等新企业功能。...
Hadoop连载系列之六:数据收集分析系统Chukwa
系列几篇文章中介绍了分布式存储和计算系统Hadoop以及Hadoop集群的搭建、Zookeeper集群搭建、HBase分布式部署等。当Hadoop集群的数量达到1000+时,集群自身的信息将会大量增加。Apache开发出一个开源的数据收集和分析系统&mdash...
Hadoop技术:三大巨头领航
在大数据时代,Hadoop技术是最为常见的,随着Hadoop技术应用的逐渐深入,人们对Hadoop的关注也变得炙手可热。我们首先要介绍一点背景知识:Hadoop属于开源Apache项目,任何用户都可以免费下载其核心组件——其中包括H...
九家Hadoop技术企业最值得关注
如果大家手中握有大量数据,那么接下来要做的就是选择一款理想的Hadoop发行版了。作为曾经仅仅为谷歌及雅虎等互联网帝国服务的旧日稀罕儿,如今这款大数据管理系统已经积累起极高的知名度与平民人气、并开始逐步走入寻常企业环境。促成这一现状的原因有二:其...
不得不用Hadoop进行大数据处理的五大理由
Joe Brightly身为Hadoop的超级粉丝,自己曾经在无数个场合承认自己热爱Hadoop来进行数据处理的理由,比如“可以处理PB级别的数据;可以扩展到数千个处理大量计算工作的节点;可以用非常灵活的方式存储和加载数据…&hell...
从火种到核心 浅析Hadoop大数据用户的演变
在Hadoop发展的8年时间里,我们看到一种“使用浪潮”——一代又一代用户在相同的时间和类似的环境下使用Hadoop。每一个在数据处理时使用了Hadoop的用户,都面临着类似的挑战,为了让一切正常运转,要么被迫协...
Hortonworks为Hadoop发行版新增企业级功能
在近日结束的Hadoop欧洲地区峰会上,Hortonworks公布了Hortonworks Data Platform (HDP)2.1版本。这一Hadoop发行版的升级版本新增了数据治理、安全、流处理和搜索等新企业功能,代表着针对交互式SQL查询的Sting...
Hadoop Streaming编程实例
Hadoop Streaming是Hadoop提供的多语言编程工具,通过该工具,用户可采用任何语言编写MapReduce程序,本文将介绍几个Hadoop Streaming编程实例,大家可重点从以下几个方面学习:(1)对于一种编写语言,应该怎么编写Mapper...
2014年值得关注的10个开源项目
【编者按】如果你认为开源软件的优势是免费和拿来主义,那么你就错了,在当今的软件市场中开源项目越来越耀眼,选择开源软件的最大优势无非是风险低、产品透明、行业适应能力强等等,但是在开源项目领域真正有影响力的企业,绝对是那些为这个项目贡献代码最多...
开源Hadoop发展迅猛 用户与厂商各取所需
就大数据的核心而言,Hadoop是一个用于有效存储和处理大数据的开源架构。多年来,开源初创公司Cloudera和Hortonworks在 Hadoop市场一直占有绝对地位,诸如Oracle、微软以及其他一些公司也想在这个市场占有一席之地,但更多是通过与专业的H...
Hadoop的核心思想
Hadoop包括两大核心,分布式存储系统和分布式计算系统。1.1.1.1. 分布式存储为什么数据需要存储在分布式的系统中哪,难道单一的计算机存储不了吗,难道现在的几个TB的硬盘装不下这些数据吗?事实上,确实装不下。比如,很多的电信通话记录就存储在很多台...
hadoop权威指南——IBM与AWS关键看啥?
Hadoop:不是选配而是发展趋势就大数据的核心而言,Hadoop是一个用于有效存储和处理大数据的开源架构。多年来,开源初创公司Cloudera和Hortonworks在Hadoop市场一直占有绝对地位,诸如Oracle、微软以及其他一些公司也想在这个市场...