Solr data import 中XMLHTTP 数据源的使用.docx_第1页
Solr data import 中XMLHTTP 数据源的使用.docx_第2页
Solr data import 中XMLHTTP 数据源的使用.docx_第3页
Solr data import 中XMLHTTP 数据源的使用.docx_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Solr data import 中XML/HTTP 数据源的使用文章分类:Java编程 参考自:/solr/DataImportHandlerDataImportHandler可以通过datasource数据源索引来自于HTTP的数据。包括REST/XML和RSS/ATOM。在版本1.4中,推荐使用URLDataSource。配置示例如下:Xml代码 1. 2. 3. datasource的属性有: baseUrl(可选): you should use it when the host/port changes between Dev/QA/Prod environments. Using this attribute isolates the changes to be made to the solrconfig.xmlencoding(可选):定义响应头里面的编码方式。这个属性可以替换掉服务器的默认编码方式。connectionTimeout(可选):默认时间是5000msreadTimeout(可选):默认是10000ms下面是一个data-config.xml示例的配置:这是一个Slashdot RSS feed的例子。Xml代码 1. 2. 3. 4. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 看到这个东西的确有点迷糊,因此下面是我们索引wikipedia的例子: 下面这个data-config.xml是用于索引/enwiki/20100312/ 这个网页下的pages-articles.xml.bz2文件,我们需要去这个网页下载该文件,解压以后放到conf/data目录下,这个文件不压缩的大小是1.50GB。Xml代码 1. 2. 3. 4. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 注意一下上面的url最好写绝对路径,我的相对路径老是出错-_-。 相关的schema.xml文件如下:Xml代码 1. 2. 3. 4. 5. 6. 7. 8. 9. . 10. id11. .id下面会花费数小时的时间去索引数据,并且内存使用率将持续最高,请注意很多wikipedia的文章都仅仅是指向其它文章$skipDoc(1.4)的使用可以使得这些文章被忽略,当然前提是正则表达式匹配。 请注意:由于目前唯一支持delta import的EntityProcessor是SqlEntityProcessor,而XPathEntityProcess

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论