告诉你Ubuntu 11.10下Nutch1.4安装及测试的方法及命令-Ubuntu-中存储网

2015-05-30 14:07:57

来源
中存储网

Ubuntu

Nutch安装及测试一安装环境： Ubuntu 版本：11.10 Kernel 版本：3.0.0.12-generic 二安装Java的JDK 安装JDK命令：apt-getinstall openjdk-6-jdk 三下载Nutch及解压安装 Nutch版本：apache-nutch-1.4-bin.tar.gz 四设置环境变量问题一：当设置完环境变

Nutch安装及测试

一安装环境：

Ubuntu 版本：11.10

Kernel 版本：3.0.0.12-generic

二安装Java的JDK

安装JDK命令：apt-getinstall openjdk-6-jdk

三下载Nutch及解压安装

Nutch版本：apache-nutch-1.4-bin.tar.gz

四设置环境变量

问题一：当设置完环境变量后，在命令行输入”nutch”，然后回车，无法运行nutch，且出现现提示：“/home/is11/lidexin/apache-nutch-1.4-bin/runtime/local/bin/nutch:Permission denied”

解决方法：在目录“/home/is11/lidexin/apache-nutch-1.4-bin/runtime/local/bin/”下输入命令“chmod +x nutch”,然后回车。

（注意此问题不一定会出现，中存储在Ubuntu10.04上安装Nutch时就没出现过）

五建立urls目录

在目录“/apache-nutch-1.4-bin/runtime/local”下建立urls目录

六在urls目录下建立url.txt文件,并输入你想爬的网站网址。

七编辑nutch-site.xml文件。

进入到/apache-nutch-1.4-bin/runtime/local/conf目录下，修改nutch-site.xml文件。

八编辑regex-urlfilter.txt文件

进入到/apache-nutch-1.4-bin/runtime/local/conf目录下，修改regex-urlfilter.txtl文件,在“# accept anything else”接下来输入：“+^http://([a-z0-9*.])*mittrchinese.com/”，然后保存

九开始爬了

命令：nutch crawl urls –dir crawl –depth 3 –topN 5

此命令的意思：“We are using the nutch crawlcommand. The urlsdir is the urls directory that we added to the distributedfilesystem. (I've called it "urlsdir" to make it clearer that itisn't merely the *file* containing urls). The "-dir crawl" is theoutput directory. This will also go to the distributed filesystem. The depth is3 meaning it will only get 3 page links deep. There are other options you canspecify, see the command documentation for those options.”

解决方法如下：

回到/apache-nutch-1.4-bin/runtime/local目录下，执行“chmod +x urls”命令，回车。

（注意此问题不一定会出现，中存储在Ubuntu10.04上安装Nutch时就没出现过）

重新输入命令：nutch crawl urls –dir crawl –depth 3 –topN 5

声明： 此文观点不代表本站立场；转载须要保留原文链接；版权疑问请联系我们。

告诉你Ubuntu 11.10下Nutch1.4安装及测试的方法及命令

告诉你Ubuntu 12.04下安装Wireshark的方法及命令

告诉你Ubuntu Unity移除的方法及命令

告诉你Ubuntu 12.04 gcin icon显示设定的方法及命令

告诉你Ubuntu 12.04安装最新版VLC2.0.2的方法及命令

告诉你Kubuntu 11.10/12.04安装在X220上的省电方式的方法及命令

科技要闻

甲骨文副总裁撰文痛批拜登政府即将推出的AI扩散禁令

2025 年量子计算 — 是否正在转折？

中信重工：公司自主研发建设了矿山装备工业互联网平台

江西：工业互联网平台赋能中小企业数字化转型倡议

走向全球！“重庆造”将亮相CES 2025

告诉你Ubuntu 11.10下Nutch1.4安装及测试的方法及命令

相关推荐

科技要闻