Apache Nutch和Solr集成

我试图遵循nutch教程,但是schema.xml文件存在一些问题。

我被告知nutch为我的项目提供了模式,基本上这…

cp ${NUTCH_RUNTIME_HOME}/conf/schema.xml ${APACHE_SOLR_HOME}/example/solr/conf/ 

我已经在Tomcat中部署了我的solr文件,当我进入Solr仪表板时出现错误

 collection1: org.apache.solr.common.SolrException:org.apache.solr.common.SolrException: Plugin init failure for [schema.xml] fieldType "text": Plugin init failure for [schema.xml] analyzer/filter: Error loading class 'solr.EnglishPorterFilterFactory' 

在我的solrconfig.xml文件中涉及到这个元素(我可以评论这个,但不知道这是多么重要)

 <filter class="solr.EnglishPorterFilterFactory" protected="protwords.txt"/> 

我已经编辑了我的solrconfig.xml来尝试包括solr附带的一系列jar文件

 <lib path="/etc/solr/collection1/libs/dist/solr-core-4.2.1.jar" /> <lib path="/etc/solr/collection1/libs/dist/solr-analysis-extras-4.2.1.jar" /> 

但我不认为他们包含缺less的类“solr.EnglishPorterFilterFactory”

有没有人有想法,为什么这可能不工作,或者如果我错过了什么? 我不是一个Java开发人员顺便说一句,所以毫无疑问,这将是简单的东西:)

更新发现模式有一些旧的类被引用后,我有另一个看在nutch / conf和tt看起来像有一个$ {NUTCH_RUNTIME_HOME} /conf/schema-solr4.xml文件似乎工作。

不是100%,如果这是正确的,但嘿…

看起来像EnglishPorterFilterFactory已经不在4.x中了。 请参阅3.6.0文档中的说明 :

 Deprecated. Use SnowballPorterFilterFactory with language="English" instead 

许多弃用的东西在4.0中消失了。 我会做它说的,请参阅SnowballPorterFilterFactory的文档 。