White Elephant：开发者必备的Hadoop利器_Hadoop

LinkedIn是全球最大的职业社交网站，从2002年12月创立到2013年初，LinkedIn注册用户已到2亿，平均每秒增加一个新用户，86%的“财富100强企业”正在使用LinkedIn的付费解决方案，270万个公司主页在此安家落户，用户每年发起超过几十亿次搜索。为了应对这些超大数据，LinkedIn使用Hadoop进行产品开发，并且为了更好地理解LinkedIn在所有用例中的Hadoop集群使用情况，他们创建了White Elephant。

以下为文章全文：

随着Hadoop的发展，调度、容量规划和计费已成为其关键问题，这些都是公开的问题。今天，我们高兴地宣布我们开源LinkedIn的解决方案：White Elephant。

在LinkedIn，我们使用Hadoop进行产品开发（如People You May Know和Endorsements那样的预测分析应用），为了更好地理解我们在所有用例中的Hadoop集群使用情况，我们创建了White Elephant。

虽然Ganglia这样的工具提供了系统级指标，但我们还是希望能够了解每个用户在任何时间所使用的资源。White Elephant解析Hadoop日志为Hadoop集群提供了逐层向下监视以及任务统计汇总，包括总任务时间、使用的时段、CPU时间和失败的工作项。

White Elephant满足了以下几个需求：

调度：White Elephant具有在利用率较低的时段安排工作的能力，最大限度地提高集群效率。容量规划：可计划未来的硬件需求，了解作业资源使用量的增长。计费：Hadoop集群的容量有限，所以在多租户环境中White Elephant可针对作业商业价值的大小来分配使用的资源。

在这篇文章中，我们将分享White Elephant的架构，并展示了一些它提供的可视化效果。我们已在GitHub上公布代码，你可以自己尝试一下！

架构

White Elephant架构图

White Elephant：开发者必备的Hadoop利器

这张图里分别有A、B、C这三个Hadoop网格，White Elephant将计算统计如下：

上传任务：任务定期运行在Job Tracker上，并逐步拷贝新的日志文件到一个Hadoop网格进行分析。计算： MapReduce作业的顺序通过Job Executor进行协调，解析上传的日志并计算汇总统计。查看：一个查看器应用逐步加载汇总统计数据，缓存到本地，并公开一个Web界面，该做法可以细分Hadoop集群的统计数据。

例子

以下是我们实际使用的情况：我们在过去几个月里注意到集群使用情况的增加，但没人对此负责。我们可以使用White Elephant来调查这个问题。

下图显示了过去几个月里一个示例数据集每周被使用的总时数，你会注意到，自1月中旬以来，每周的集群使用量基线从6000小时大约增加到了10000小时。

White Elephant：开发者必备的Hadoop利器