深入Nutch index源代码解析二)-大数据-中存储网

2014-09-05 00:12:06

来源
中存储

大数据

Nutch采用一个MR对爬取下来的文档进行清洗和封装成一个action列表。Nutch会将封装好的数据采用基于http的POST的方法发送一个请求数据包给solr的服务器，solr.commit();这个方法在前面一篇文章中解释有些偏差，solr的整个事务都是在solr服务器端的，这跟以前的的事务有所

上篇文章写到，Nutch采用一个MR对爬取下来的文档进行清洗和封装成一个action列表。

接下来介绍怎么爬取下来的数据如何推送给solr。

----------------------------------------------------华丽的分割线---------------------------------------------

Ntuch自定义了一个 IndexerOutputFormat，这个类继承于FileOutputFormat Override?getRecordWriter方法

代码如下：

public class IndexerOutputFormat extends FileOutputFormat<Text, NutchIndexAction> {

? @Override

? public RecordWriter<Text, NutchIndexAction> getRecordWriter(FileSystem ignored,

? ? ? JobConf job, String name, Progressable progress) throws IOException {

? ? ? ? ...

? ? ? }

方法里面调用Nutch自定义的一个接口NutchIndexWriter，我们看下他的一个实现类SolrWriter，我们主要看下他的close方法，代码如下：

?public void close() throws IOException {

? ? try {

? ? ? if (!inputDocs.isEmpty()) {

? ? ? ? LOG.info("Indexing " + Integer.toString(inputDocs.size()) + " documents");

? ? ? ? if (numDeletes > 0) {

? ? ? ? ? LOG.info("Deleting " + Integer.toString(numDeletes) + " documents");

? ? ? ? }

? ? ? ? UpdateRequest req = new UpdateRequest();

? ? ? ? req.add(inputDocs);

? ? ? ? req.setParams(params);

? ? ? ? req.process(solr);

? ? ? ? inputDocs.clear();

? ? ? }

? ? ? // solr.commit();

? ? } catch (final SolrServerException e) {

? ? ? throw makeIOException(e);

? ? }

在关闭的时候，Nutch会将封装好的数据采用基于http的POST的方法发送一个请求数据包给solr的服务器，solr.commit();这个方法在前面一篇文章中解释有些偏差，solr的整个事务都是在solr服务器端的，这跟以前的的事务有所区别，而这个方法就是再发送一个请求，要求提交当前的事务。

至于之前索引的增删查改也在这个类中实现，如想知道详情，可查看这个类实现。

至此，Nutch的整个index流程基本完成了。

由于时间仓促只是介绍了大概流程，如想了解其中一些细节问题，如有兴趣可以留言。或者发站内信给我。

第一次写，欢迎留言批评~~~~

声明： 此文观点不代表本站立场；转载须要保留原文链接；版权疑问请联系我们。

深入Nutch index源代码解析二)

深入Nutch index源代码解析(一)

腾讯是如何利用游戏大数据的

数据仓库系统Mesa 谷歌的新大作值得期待

Google高级数据分析师加盟食品创业公司

新型 Linux Rootkit PUMAKIT 使用先进的隐身技术躲避检测

OpenAI就ChatGPT宕机致歉：部分服务恢复，Sora仍处于瘫痪状态

N-able 收购现有战略合作伙伴 Adlumin

美方指控“与中国有关黑客”入侵多家电信公司网络，外交部驳斥

IDC：英方软件第九次获中国专业灾备软件厂商第一

阿里云盘回应相册陌生照片“乱入”问题：已快速修复，用户影响面较小

Backblaze：如何扩展公司的云存储？

以色列初创企业Datafy在种子轮融资600万美元

Cloudflare宣布R2的主要更新，包括事件通知和GCS支持

IDrive Backup新功能：云对云备份Google数据

60国签署巴黎AI峰会声明，美英缺席

富士通横滨国立大学使用 Fugaku 超级计算机推进台风龙卷风预报

Jülich 购买 D-Wave 量子计算机加强量子研究

Trane 将液体冷却集成到 AI 和 HPC 的热管理中

D-Wave 宣布举办 Qubits 2025 量子计算用户大会

Trendfocus 磁带和归档存储服务 CQ3 '24 季度更新报告

适用于 IBM Spectrum Scale 的联想分布式存储解决方案

CES 2025：威刚/XPG Schowcasing 工业和游戏存储设备

AI推理将驱动AIDC需求提升数据中心行业有望复苏

美光采样 6550 ION PCIe Gen5 高达 61TB 的 E3 数据中心 SSD

中国信通院发布《智能化医疗装备产业蓝皮书（2024年）》

使用 Ardis DDP10EF 和 SupremeRAID SR-1000 for M&E 解锁更高水平的媒体性能

多地点运营的企业，分布式管理与集中式管理哪种更具有网络保护的优势？

数字政府一体化建设白皮书（2024年）

Orico公司联合西部数据推出面向创作者的混合存储产品

科技要闻

IDC 发布《FutureScape 2025 年全球制造业预测 – 亚太地区（不包括日本）影响》报告

60国签署巴黎AI峰会声明，美英缺席

一月手机激活量统计数据出炉：华为领跑，小米崛起，苹果失速！

Nasuni 2024年财报创纪录

慧荣Silicon Motion公布24 财年第四季度财务业绩

深入Nutch index源代码解析二)

猜你喜欢

科技要闻