国内私募机构九鼎控股打造APP,来就送 20元现金领取地址:http://jdb.jiudingcapital.com/phone.html
内部邀请码:C8E245J (不写邀请码,没有现金送)
国内私募机构九鼎控股打造,九鼎投资是在全国股份转让系统挂牌的公众公司,股票代码为430719,为“中国PE第一股”,市值超1000亿元。
——————————————————————————————————————————————————————
来源地址:http://www.oschina.net/translate/nutch-tutorial
介绍
Apache Nutch是一个用Java编写的开源网络爬虫。通过它,我们就能够自动地找到网页中的超链接,从而极大地减轻了维护工作的负担,例如检查那些已经断开了的链接,或是对所有已经访问过的网页创建一个副本以便用于搜索。接下来就是Apache Solr所要做的。Solr是一个开源的全文搜索框架,通过Solr我们能够搜索Nutch已经访问过的网页。幸运的是,关于Nutch和Solr之间的整合在下方已经解释得相当清楚了。
Apache Nutch对于Solr已经支持得很好,这大大简化了Nutch与Solr的整合。这也消除了过去依赖于Apache Tomcat来运行老的Nutch网络应用以及依赖于Apache Lucene来进行索引的麻烦。只需要从这里下载一个二进制的发行版即可。
|
2人顶
Nutch2Tutorial。
1.从二进制发行包安装Nutch
- 从这里下载二进制包(apache-nutch-1.X-bin.zip)。
- 解压缩您的Nutch包。那应该会有一个新文件夹apache-nutch-1.X。
- cd apache-nutch-1.X/
从现在开始,我们将会使用${NUTCH_RUNTIME_HOME}来代替当前目录(apache-nutch-1.X/)。
从源代码安装Nutch
高级用户也可能会使用源代码发行包:
- 下载一个源代码包(apache-nutch-1.X-src.tar.gz)
- 解压缩
- cd apache-nutch-1.X/
- 在这个目录里运行ant(参见:RunNutchInEclipse)
- 现在那会有一个目录runtime/local,它包含了准备使用的Nutch安装
当使用源代码包时,我们会用${NUTCH_RUNTIME_HOME}代替目录apache-nutch-1.X/runtime/local/。记住这些:
- 配置文件在apache-nutch-1.X/runtime/local/conf/目录里面
- ant clean将会移除这个目录(并保留被更改的配置文件的备份)
|
1人顶
kzjnet 翻译于 1年前
1人顶
kzjnet 翻译于 1年前
0人顶
kzjnet 翻译于 1年前
0人顶
kzjnet 翻译于 1年前
0人顶
kzjnet 翻译于 1年前
0人顶
kzjnet 翻译于 1年前
0人顶
这里下载二进制文件。
解压缩到$HOME/apache-solr-3.X,从现在起,我们将会用${APACHE_SOLR_HOME}代替它。
cd ${APACHE_SOLR_HOME}/example
java -jar start.jar
5.检验Solr的安装
在您启动Solr管理员控制台以后,您应该能够访问下列这些链接:
http://localhost:8983/solr/admin/ http://localhost:8983/solr/admin/stats.jsp
|
0人顶
http://localhost:8983/solr/admin/进行搜索。如果您想要看到有Solr创建的原始HTML索引,您需要更改schema.xml当中定义的content字段为:
<field name=”content” type=”text” stored=”true” indexed=”true”/>
|