在Eclipse下编译和运行Nutch

nhy520

浏览: 944628 次
性别:
来自: 北京

最近访客更多访客>>

yunzhu

k0521klb

remote_silence

prog

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

搜索引擎学习

Eclipse 配置管理 CVS Hadoop Windows

在Eclipse下编译和运行Nutch
就在刚刚，终于把Nutch 0.9在Eclipse中配置成功了，苦恼了我一个星期的问题终于解决了！现在真的是心情舒畅哦！哈哈，当然，我首先还是要感谢一下笨笨的，在网上搜到了他的博客文章，给了我很大的帮助哦。呵呵，还有我的同学，虽然和我隔着远了点，不过还是给我帮了很大的忙哦！哈哈，真的要好好感谢一下他呢！我又在毕业设计成功的道路上迈进了一大步呢！怎么也要纪念一下么！哈哈！

笨笨的原文地址是：http://blog.sina.com.cn/s/blog_4c98b960010092h2.html，感兴趣的朋友可以去看看他的原文哦，或许能得到意外的惊喜呢！也说不定哦！而Nutch官网上也有介绍在Eclipse中配置Nutch的方法，地址是：http://wiki.apache.org/nutch/RunNutchInEclipse0.9。

下面是我在Eclipse中配置Nutch 0.9的过程与心得，或许对你也会有点点帮助哦！

具体步骤是：

1.       下载Nutch并解压到某个目录下，建议在根目录下。具体的解压过程如果有不知道的朋友可以去看看我的另一篇日志：在Windows环境下安装和配置Nutch 0.9

2.       修改Nutch\conf目录下的nutch-site.xml和crawl-urlfilter.txt两个文件，具体的修改方法也在在Windows环境下安装和配置Nutch 0.9中有详细的介绍。（为了后面的方便，建议在修改完成后将conf文件夹复制一下，并保存在硬盘的其他的地方。）

3.       到下面两个页面去下载两个jar文件，他们分别是：

http://nutch.cvs.sourceforge.net/nutch/nutch/src/plugin/parse-mp3/lib/

http://nutch.cvs.sourceforge.net/nutch/nutch/src/plugin/parse-rtf/lib/

下载其中的jid3lib-0.5.1.jar和rtf-parser.jar两个文件，并分别把他们拷贝到Nutch\src\plugin\parse-mp3\lib和Nutch\src\plugin\parse-rtf\lib两个文件夹下。

4.       准备工作做好以后就可以在Eclipse中配置Nutch了。打开Eclipse后，我们开始建立Java project。具体的做法是：

File > New > Project > Java project创建Eclipse项目，给我们的项目命名，然后选择Create project from existing source，并指向你的Nutch目录。

5.       点击Next后我们就能看到用于定义Java build的设置环境。在第一个选项卡source下面我们可以看到三个连接，我们需要选择第三个：Add project ‘Nutch’ to build path，点击之后我们就选择conf，完成以上步骤之后我们就将conf加入到了classpath中。注意：这里不是指上面的第三个选项卡。

6.       现在需要我们选择Default output folder，在这里我们必须选择Nutch/conf作为它的Default output folder，否则就会找不到crawl-urlfilter.txt，从而不能完成网站的爬行，就会出现我之前一只没有解决的问题，会出现以下提示：

Generator: 0 records selected for fetching, exiting ...

Stopping at depth=0 - no more URLs to fetch.

No URLs to fetch - check your seed list and URL filters.

7.       点击Finish，这时我们就完成了前续的配置工作，这时我们就可点击运行，选择Java Application点击OK，开始让Eclipse自己寻找项目的主类。我们选择Crawl-org.apache.nutch.crawl，点击OK。

8.       这时我们可以回到Nutch\conf目录下看下，我们可以看到里面的内容发生了改变，这时就需要我们还原原来conf下的内容，这时我们在第2步中另外保存的conf文件夹就起到了作用。（当然，新生成的东西并不影响我们的后续爬行工作，我们可以只考虑将原来conf下的内容复制回来，但是我个人觉得为了文件夹的管理和查找方便，我建议将新生成的内容全部删除后在将原来conf下的内容复制回来。还有一点需要我们注意，conf里面不可以有org文件夹，如果有的话delete，否则的话会影响index。）当然，拷回来以后得记得刷新一下哦！

9.       点击菜单中的Run > Open run dialog，选择Java Application分支，选中Arguments选项卡。

在Program arguments中填写爬行命令，如：myUrl -dir myDir -depth 2 -topN 50

在VM arguments中填写：-Dhadoop.log.dir=logs -Dhadoop.log.file=hadoop.log

填写完成后，点击apply完成提交。由于我们到目前为止还没有建立需要我们爬行的url地址，所以我们在提交完成后，点击close，然后我们就可以建立需要Nutch爬行的url地址，建好之后，只要我们在点击工具栏上的运行按钮，我们就可以在Console的透视图中看到Nutch爬行的结果了。当然如果我们之前已经建立好了我们需要爬行的url地址，我们就可以直接点击run，这时我们也可以在Console的透视图中看到Nutch爬行的结果。

至此，我们的工作全部完成了，当然我建议在Eclipse里面配置Nutch之前，我们最好能够熟悉在Shell的环境下运行Nutch。如果有什么不对的地方，欢迎大家指正，我也很希望能和大家一起学习有关Nutch的相关内容。

分享到：

Nutch部署及相关问题（中文乱码等）修正 | 启动heritrix

2009-05-09 15:33
浏览 1972
评论(0)
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论