crawl完成后,就可以部署到tomcat,提供搜索引擎服务了。步骤如下:
1. 安装WAR文件
将WAR文件$nutch$/nutch-*.war拷贝到目录$tomcat$/webapps/,
cp $nutch$/nutch-*.war $tomcat$/webapps/nutch.war
这样就可以通过URL: http://127.0.0.1:8080/nutch 来打开搜索主页面
如果是保存为ROOT.war, 对应的URL为http://127.0.0.1:8080
cp $nutch$/nutch-*.war $tomcat$/webapps/ROOT.war
2. 指定搜索数据目录
需要为搜索服务程序指定数据文件的位置。
假设WAR文件保存为nutch.war,重启动Tomcat,解压缩成目录$tomcat$/webapps/nutch/。
打开文件$tomcat$/webapps/nutch/WEB-INF/classes/nutch-site.xml,添加searcher.dir
属性,例如数据文件保存在/local/nutch/crawl目录中,则添加:
<property>
<name>searcher.dir</name>
<value>/local/nutch/crawl</value>
</property>
这样search.jsp就知道数据文件的在哪里了。
3. 让Tomcat支持中文输入
如果要用中文词汇做为关键词来搜索,Tomcat必须要支持中文输入。为此必须修改tomcat的
配置文件$tomcat$/conf/server.xml, 在端口8080上的Connector中加入两个属性URIEncoding
和useBodyEncodingForURI。代码如下:
<Connector port="8080" maxHttpHeaderSize="8192"
maxThreads="150" minSpareThreads="25" maxSpareThreads="75"
enableLookups="false" redirectPort="8443" acceptCount="100"
connectionTimeout="20000" disableUploadTimeout="true"
URIEncoding="UTF-8" useBodyEncodingForURI="true"/>
4. 如果要搜索大型网站,例如网络门户,还需要修改一些配置,因为缺省配置是搜索intranet的。
修改db.max.outlinks.per.page,它定义一个网页的最大link数,超过此数的链接都要被忽略掉。缺省是100,改为1000足够了。
<property>
<name>db.max.outlinks.per.page</name>
<value>1000</value>
<description>The maximum number of outlinks that we'll process for a page.
If this value is nonnegative (>=0), at most db.max.outlinks.per.page outlinks
will be processed for a page; otherwise, all outlinks will be processed.
</description>
</property>
修改urlfilter.order,指定URL过滤器的顺序。作者比较喜欢用正则表达式,所以设置为org.apache.nutch.urlfilter.regex.RegexURLFilter。
<property>
<name>urlfilter.order</name>
<value>org.apache.nutch.urlfilter.regex.RegexURLFilter</value>
<description>The order by which url filters are applied.
If empty, all available url filters (as dictated by properties
plugin-includes and plugin-excludes above) are loaded and applied in system
defined order. If not empty, only named filters are loaded and applied
in given order. For example, if this property has value:
org.apache.nutch.urlfilter.regex.RegexURLFilter org.apache.nutch.urlfilter.prefix.PrefixURLFilter
then RegexURLFilter is applied first, and PrefixURLFilter second.
Since all filters are AND'ed, filter ordering does not have impact
on end result, but it may have performance implication, depending
on relative expensiveness of filters.
</description>
</property>
5. 再次重启Tomcat
用浏览器打开URL: "http://127.0.0.1:8080/nutch", 大功告成,现在开始enjoy nutch。
分享到:
相关推荐
windows下nutch的安装配置以及与tomcat的集成.doc
Nutch在Tomcat下的部署.doc
Nutch 1.3 学习笔记,讲的比较清楚的文档
本文是我学习Nutch的笔记,包括安装、配置、修改分词和关键词的代码;还有Luke和Lius的简单配置;
nutchnutch nutchnutch nutchnutch nutchnutch
NULL 博文链接:https://chenhua-1984.iteye.com/blog/380779
初学NUTCHLUCENCENUTCH可以看
Nutch全文搜索学习笔记.doc Yahoo的Hadoop教程.doc [硕士论文]_基于Lucene的Web搜索引擎实现.pdf [硕士论文]_基于MapReduce的分布式智能搜索引擎框架研究.pdf [硕士论文]_基于Nutch的垂直搜索引擎的分析与实现.pdf ...
我们需要去抓取网页数据的时候我们就用nutch来爬取,我们对它进行二次开发使其更加符合我们的需求
介绍 Nutch 的背景知识,包括 Nutch 架构,爬虫和搜索器。然后以开发一个基于 Nutch 的实际应用为例向读者展示如何使用 Nutch 开发自己的搜索引擎。在该示例中,首先带领读者开发一个作为 Nutch 爬虫抓取的目标网站...
nutch学习nutch帮助文档;nutch学习 入门
nutch1.3在myclipse部署工程源码nutch1.3在myclipse部署工程源码nutch1.3在myclipse部署工程源码
1.6 Tomcat中启动搜索站台 1. 将Nutch.war包考到Tomcat的webapps下。 部署后,进入站台目录下的WEB-INF\classes,找到“nutch-site.xml”文件,打开,向其中根节点添加: <property> <name>searcher.dir</name> ...
Windows下cygwin+MyEclipse 8.5+Nutch1.2+Tomcat 6.0 Windows下cygwin+MyEclipse 8.5+Nutch1.2+Tomcat 6.0 Windows下cygwin+MyEclipse 8.5+Nutch1.2+Tomcat 6.0
学习nutch 源码解读 轻松入门 搭建自己的nutch搜索引擎
Nutch 1.2 学习笔记,讲的比较清楚的文档
nutch入门学习不错的一本书,有代码,有截图,解释清晰详细。更有助与于了解搜索引擎。
nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据
nutch 0.9 版代码包,包含src源代码,war可直接部署到tomcat中的war包,以及爬取网页的可执行文件,nutch crawl文件。