`
文章列表
1.nutch建立索引成功,通过lucene直接搜索索引文件可以搜索到相关结果,但是通过nutch搜索不到结果 解决方案: <property>  <name>searcher.dir</name>  <value>crawl</value></property> 在nutch-default.xml中配置searcher.dir的默 ...
在nutch-site.xml添加以下配置, <configuration> ... <property>  <name>searcher.summary.length</name>  <value>50</value>//默认为20  <description>  The total number of terms to display in a hit summary.  </description></property> ... </configuration> ...
Windows 下运行Nutch批处理脚本 日期:2007-08-03   点击: <script src="/plus/count.php?view=yes&amp;aid=39"></script> 403   作者:不会游泳的鱼   来源:   字体:[ 大 中 小 ] <script type="text/javascript"></script><script src="http://pagead2.googlesyndicati ...
**     * Low level api to get the most relevant (formatted) sections of the document.     * This method has been made public to allow visibility of score information held in TextFragment objects.     * Thanks to Jason Calabrese for help in redefining the interface.     * @param tokenStream     * @par ...
在对Nutch抓取工作流程分析中,已经简单地提及到了inject操作,如下所示: inject操作调用的是nutch的核心包之一crawl包中的类org.apache.nutch.crawl.Injector。它执行的结果是:crawldb数据库内容得到更新,包括URL及其状态。 inject操作主要作用可以从下面3方面来说明: (1) 将URL集合进行格式化和过滤,消除其中的非法URL,并设定URL状态(UNFETCHED),按照一定方法进行初始化分值; (2) 将URL进行合并,消除重复的URL入口; (3) 将URL及其状态、分值存入crawldb数据库,与原数据库中重复的则删除旧的,更换 ...
原文来自http://blog.chinaunix.net/u1/50183/showart_395349.html 搜索引擎nutch在查询搜索结果时,只有下一页功能。现在实现了分页功能,并把是show all hits删去1.删去show all hits修改:         int hitsPerSite = 0; // max hits per site2.分页功能   ...
从网上搜索到的让nutch高亮的例子总是不行,读了源码,自己改了,也行. 1修改类:org.apache.nutch.searcher.Summary;   public String toHtml(boolean encode) {    Fragment fragment = null;    StringBuffer buf = new StringBuffer();    for (int i=0; i<fragments.size(); i++) {      fragment = (Fragment) fragments.get(i);      if (fragment ...
nutch 0.9二次开发--内存溢出 在用nutch抓取网页的时候,设置了10层,运行5个多小时之后,系统提示内存溢出异常: java.lang.OutOfMemoryError: Java heap spacefetcher caught:java.lang.OutOfMemoryError: Java heap spacejava.lang.OutOfMemoryError: Java heap spacefetcher caught:java.lang.OutOfMemoryError: Java heap spaceException in thr ...
在lucene包org.apache.lucene.analysis中,它的分词模块抽象出来了一个抽象类—Analyzer.java。这个类包含这个抽象方法      public abstract TokenStream tokenStream(String fieldName, Reader reader);      用户自定义的Analyzer主要就是实现这个方法。这个方法要返回一个token流。而要返回一个分词的完整的token流,又要写另一个类的子类,它就是——Tokenizer.java,而它又是继承自TokenStream.java的。用户自定义的Tokenizer类要写 ...
nutch 0.9二次开发--抓不到包含?等符号的URL 问题:使用nutch抓取不到http://www.tianya.cn/new/TianyaCity/content.asp?idItem=296&idArticle=53561&idWriter=0&key=0等URL 分析:使用nutch默认的配置过滤文件的话,是不抓取到包含?*!@=等字符的URL 解决办法:修改crawl-urlfilter的过滤规则,   # The url filter file used by the crawl command. # Better for intrane ...
nutch 0.9二次开发--网页快照 nutch通过相关词进行搜索网页的时候,会查询出这个关键词对应的相关信息.. 比如:title,url,content等等. 通过URL我们可以链接到相关真实的URL. 而网页快照其实是nutch在索引时,索引以前网页的内容. 所有当点击网页快照时,我们根据索引文档的ID,去索引出原网页内容.  Hit hit = new Hit(getIndexNo,getIndexDocNo); HitDetails details = bean.getDetails(hit); String content = new St ...
在Windows下运行Nutch,很简单,只要你能执行Crawl这个类就行,写一个Ant脚本放在Nuthc的根目录下执行它就OK,内容如下: <project name="nutch-crawl" default="crawl" basedir=".">        <property name="lib.dir"  location="lib"/>    <property name="conf.dir"  location=" ...
使用nutch 0.9自带的程序包搜索的时候,存在一个冗余数据的情况。例如,如果想搜索关于姚明、易建联等的信息时,nutch默认会把网页中导航条或者一些标题等中包含姚明和易建联信息的页面检索出来,以腾讯为例,http://sports.qq.com/nba/的导航条部分包含了姚明和易建联。 但这个页面的其他信息没有设计到姚明和易建联,所以这个页面可能实际上不是我们想要的; 还有一种情况,当我们想搜索“莎娃”的时,nutch会抓取到http://sports.qq.com/a/20090108/000407.htm,但实际上“莎娃”只是在这个页面的右边超链接款上有包含“莎娃”的信息。 ...
方法1.将 org.apache.nutch.searcher.Summary 第107行 代码 修改为: public String toString() {    StringBuffer buffer = new StringBuffer();    for (int i = 0; i < fragments.size(); i++) {      buffer.append(fragments.get(i));    }    return "<span style='color:red'>" + buffer.toString()+ &quo ...
就是教你怎样把邮件建立索引,再搜索出来。用MAPI把邮件读取到数据库里,用SharpICTCLAS做一个lucene的中文的语汇单元分析器,用lucene建立索引及查询索引。 把某目录邮件读取到数据库里的代码很简单 private static void getmails(){    _Application appOutlook = new Application();    NameSpace outlookNS = appOutlook.GetNamespace("MAPI"
Global site tag (gtag.js) - Google Analytics