在Eclipse下编译和运行Nutch
就在刚刚,终于把Nutch 0.9在Eclipse中配置成功了,苦恼了我一个星期的问题终于解决了!现在真的是心情舒畅哦!哈哈,当然,我首先还是要感谢一下笨笨的,在网上搜到了他的博客文章,给了我很大的帮助哦。呵呵,还有我的同学,虽然和我隔着远了点,不过还是给我帮了很大的忙哦!哈哈,真的要好好感谢一下他呢!我又在毕业设计成功的道路上迈进了一大步呢!怎么也要纪念一下么!哈哈!
笨笨的原文地址是:http://blog.sina.com.cn/s/blog_4c98b960010092h2.html,感兴趣的朋友可以去看看他的原文哦,或许能得到意外的惊喜呢!也说不定哦!而Nutch官网上也有介绍在Eclipse中配置Nutch的方法,地址是:http://wiki.apache.org/nutch/RunNutchInEclipse0.9。
下面是我在Eclipse中配置Nutch 0.9的过程与心得,或许对你也会有点点帮助哦!
具体步骤是:
1. 下载Nutch并解压到某个目录下,建议在根目录下。具体的解压过程如果有不知道的朋友可以去看看我的另一篇日志:在Windows环境下安装和配置Nutch 0.9
2. 修改Nutch\conf目录下的nutch-site.xml和crawl-urlfilter.txt两个文件,具体的修改方法也在在Windows环境下安装和配置Nutch 0.9中有详细的介绍。(为了后面的方便,建议在修改完成后将conf文件夹复制一下,并保存在硬盘的其他的地方。)
3. 到下面两个页面去下载两个jar文件,他们分别是:
http://nutch.cvs.sourceforge.net/nutch/nutch/src/plugin/parse-mp3/lib/
http://nutch.cvs.sourceforge.net/nutch/nutch/src/plugin/parse-rtf/lib/
下载其中的jid3lib-0.5.1.jar和rtf-parser.jar两个文件,并分别把他们拷贝到Nutch\src\plugin\parse-mp3\lib和Nutch\src\plugin\parse-rtf\lib两个文件夹下。
4. 准备工作做好以后就可以在Eclipse中配置Nutch了。打开Eclipse后,我们开始建立Java project。具体的做法是:
File > New > Project > Java project创建Eclipse项目,给我们的项目命名,然后选择Create project from existing source,并指向你的Nutch目录。
5. 点击Next后我们就能看到用于定义Java build的设置环境。在第一个选项卡source下面我们可以看到三个连接,我们需要选择第三个:Add project ‘Nutch’ to build path,点击之后我们就选择conf,完成以上步骤之后我们就将conf加入到了classpath中。注意:这里不是指上面的第三个选项卡。
6. 现在需要我们选择Default output folder,在这里我们必须选择Nutch/conf作为它的Default output folder,否则就会找不到crawl-urlfilter.txt,从而不能完成网站的爬行,就会出现我之前一只没有解决的问题,会出现以下提示:
Generator: 0 records selected for fetching, exiting ...
Stopping at depth=0 - no more URLs to fetch.
No URLs to fetch - check your seed list and URL filters.
7. 点击Finish,这时我们就完成了前续的配置工作,这时我们就可点击运行,选择Java Application点击OK,开始让Eclipse自己寻找项目的主类。我们选择Crawl-org.apache.nutch.crawl,点击OK。
8. 这时我们可以回到Nutch\conf目录下看下,我们可以看到里面的内容发生了改变,这时就需要我们还原原来conf下的内容,这时我们在第2步中另外保存的conf文件夹就起到了作用。(当然,新生成的东西并不影响我们的后续爬行工作,我们可以只考虑将原来conf下的内容复制回来,但是我个人觉得为了文件夹的管理和查找方便,我建议将新生成的内容全部删除后在将原来conf下的内容复制回来。还有一点需要我们注意,conf里面不可以有org文件夹,如果有的话delete,否则的话会影响index。)当然,拷回来以后得记得刷新一下哦!
9. 点击菜单中的Run > Open run dialog,选择Java Application分支,选中Arguments选项卡。
在Program arguments中填写爬行命令,如:myUrl -dir myDir -depth 2 -topN 50
在VM arguments中填写:-Dhadoop.log.dir=logs -Dhadoop.log.file=hadoop.log
填写完成后,点击apply完成提交。由于我们到目前为止还没有建立需要我们爬行的url地址,所以我们在提交完成后,点击close,然后我们就可以建立需要Nutch爬行的url地址,建好之后,只要我们在点击工具栏上的运行按钮,我们就可以在Console的透视图中看到Nutch爬行的结果了。当然如果我们之前已经建立好了我们需要爬行的url地址,我们就可以直接点击run,这时我们也可以在Console的透视图中看到Nutch爬行的结果。
至此,我们的工作全部完成了,当然我建议在Eclipse里面配置Nutch之前,我们最好能够熟悉在Shell的环境下运行Nutch。如果有什么不对的地方,欢迎大家指正,我也很希望能和大家一起学习有关Nutch的相关内容。
分享到:
相关推荐
Eclipse 中编译 Nutch-1.0 运行源代码
Eclipse 编译 Nutch-0.9
eclipse配置nutch,eclipse配置nutch
Windows下使用Eclipse配置Nutch2图文详解
已编译好的版本,可以直接导入eclipse、idea。Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。
apache-nutch-2.2.1(Eclipse直接运行版)今天刚做的,发现有很多坑,分享给大家实验,JDK1.7 Win10。我分享的两个压缩卷一起下载才可以用,资源限制太小了 002地址:...
1.1 环境准备 1.1.1 本期引言 1.1.2 环境介绍 1.1.3 JDK 安装配置 1.1.4 ANT 安装配置 1.1.5 IvyDE 安装配置 1.1.5 Tomcat 安装配置 ...1.2 Eclipse 开发 1.2.1 Solr 部署 1.2.2 Nutch 导入 1.2.3 Solr 与Nutch 结合
nutch 在windows下环境搭配 已经如何在eclipse下配置,有配图,很详细
本文章修改了在eclipse中加入Nutch的详细过程!
Eclipse中编译Nutch-1.0。。。。。。。。。。。。
提高nutch运行效率的原理与方法,nutch的运行过程相对来说还是很慢的,对于一些特殊的应用来说,必须对nutch做很多修改来达到提高速度的目的,本人在这方面有深入研究,可以提高2-5倍性能。
nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据
windows下安装nutch 各异常说明
学习nutch 源码解读 轻松入门 搭建自己的nutch搜索引擎
详细介绍nutch在windows下myeclipse中的配置以及执行,本人空间还有nutch1.2包,nwgwin安装包等
Apache Nutch 1.7 在windows和Linux下的安装,有详细的图示和步骤说明,测试过多次。
Nutch1[1].4_windows下eclipse配置图文详解
Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫
Nutch在windows下的安装 JDK安装 Tomcat安装 Cygwin安装
一个解析MP3,一个解析rtf文件