



全文预览已结束
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Solr data import 中XML/HTTP 数据源的使用文章分类:Java编程 参考自:/solr/DataImportHandlerDataImportHandler可以通过datasource数据源索引来自于HTTP的数据。包括REST/XML和RSS/ATOM。在版本1.4中,推荐使用URLDataSource。配置示例如下:Xml代码 1. 2. 3. datasource的属性有: baseUrl(可选): you should use it when the host/port changes between Dev/QA/Prod environments. Using this attribute isolates the changes to be made to the solrconfig.xmlencoding(可选):定义响应头里面的编码方式。这个属性可以替换掉服务器的默认编码方式。connectionTimeout(可选):默认时间是5000msreadTimeout(可选):默认是10000ms下面是一个data-config.xml示例的配置:这是一个Slashdot RSS feed的例子。Xml代码 1. 2. 3. 4. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 看到这个东西的确有点迷糊,因此下面是我们索引wikipedia的例子: 下面这个data-config.xml是用于索引/enwiki/20100312/ 这个网页下的pages-articles.xml.bz2文件,我们需要去这个网页下载该文件,解压以后放到conf/data目录下,这个文件不压缩的大小是1.50GB。Xml代码 1. 2. 3. 4. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 注意一下上面的url最好写绝对路径,我的相对路径老是出错-_-。 相关的schema.xml文件如下:Xml代码 1. 2. 3. 4. 5. 6. 7. 8. 9. . 10. id11. .id下面会花费数小时的时间去索引数据,并且内存使用率将持续最高,请注意很多wikipedia的文章都仅仅是指向其它文章$skipDoc(1.4)的使用可以使得这些文章被忽略,当然前提是正则表达式匹配。 请注意:由于目前唯一支持delta import的EntityProcessor是SqlEntityProcessor,而XPathEntityProcess
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 采购成本控制策略制定指南
- 一年级书信给老师的一封信150字7篇范文
- 早期阅读小鸟和大树课件
- 市场推广和联合营销合同书内容
- 人类请高抬贵手700字(12篇)
- 2025年日语J.TESTT级试卷
- 早孕健康知识培训课件
- 2025年三支一扶考试公共基础知识备考与模拟试卷
- 纪委监督检查知识培训课件
- 清华中学数学试卷
- 脑梗死病人-护理查房课件
- 美育PPT精选文档课件
- 医院介入手术病人护送交接流程
- 农机职业技能竞赛农机修理工理论题库
- 食品物流学:食品配送课件
- 学校家庭教育指导(班主任培训班) 课件
- 楼板厚度检测报告
- 精神发育迟滞课件
- (高职)物流运输管理电子课件(全套)
- 【老师必备】部编版三年级语文上册第一单元【集体备课】
- 《基础笔译》课程教学大纲
评论
0/150
提交评论