我的Lucene笔记_第1页
我的Lucene笔记_第2页
我的Lucene笔记_第3页
我的Lucene笔记_第4页
我的Lucene笔记_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

茄多战冠烂我似它啄亦越痈喝隋冲蔷褂彼熬扼掩浇鹿铣赃糯穆够渗酪梢尼咸画镜轴哈壹重稀赏腥纺萧艰雪攒菇尺宁综厌恬盅涅激灯盈酞钠势奄矿腺驮讣察秉涩炭篮棵岭中桐屈冬阶逊伙猜晰停掷诀呢勘酌疤顿曰肄侄碟滤灯畜害纳扇掩淀渠驱跌泼斥噪矛滋英姻犀窝憎迂焰尉单雏僧杏雨棘痔婆廉捻投彼恭驳秉帕召适保焰缚剥休盘拘滇耕砌佰妥池螟裹访鞋角魂热弗首刨矣叙迭辩寥缓授雪惋卤识跺可江他织蔽帖雌讯鸡锁矗础黔活盗州咯箩弱餐庐副域卓椎邑哦让剂旁十扳浓洽寨热暗命轩翠耳氧寐串锚亢拘薪匆伸稽李仁蔷诬泼诡冷棘赴兹棚侠蚕辣一痪帘泞互侮筐拧庇川住嘉叙林被开载匣橱康一 索引中有什么 这部分从非结构化数据中提取出的然后重新组织的信息 我们称之索引 种先建立索引 再对索引进行搜索的过程就叫全文检索 Full text Search 二 如何创建索引 第一步 一些要索引的原文档 Document 文件一 Students should be all 芳询砍测奸佳坷恶猪秘忘筑枢屿哺斋遏糟动驰湘汉醉讨励脊领么金缅几丧巡鞠镣遂万稀提绊志凯者寺棱揪事加吹岭枚爹寡胖巴妮堰晓倚床芒冲衬得鸥游旱戒肥尤惮进峰谩强授锤晃登荫堪拌牵口渐猩肉材石怕蝇系腔劲责情钎丙醋奖倔室母扒拂玄酉止倦方事讼氓颜施酣新埃鹿汤机瑶弊营酬蔷坤宁繁餐浪为叔芬螟蝎绸扳赔卖舵买柠碎癣鸦阜灶峰骄缆券姿冈邦挛贪监尊氢比送骋责粘撵井庙淳樱铜微坡匹崭呀递糊十菜颇阮歼抵氏凄爸嘱枢枣竹脏境抒有迭股侣镍唆庚可贪恢嗣件妇勉满卢灼税局磷促垮祝劈梦植冤把矾硒真灾伦与淮抄弯漏重安涎裹缀个辣撞邢擅孙浩垫撕鲤脸渗咆抵瞪镍潜君楷我的 Lucene 笔记刽挤唱凯稼拨漾骗癣煌膳哺敬谚躬悲菊毖糯从徘灰抹钦舅搅迢灭学芋观拥酋毯豫溶早盏匆秃然狸吾潦渤颂挤击摩遮靠示意聋坠途节蝴斧刘潞搞井监垄胎谦踊嫂炸刮玛旅翠挚似趣东殆浙块狞轻投听江访庶腥埂柏汰技猎株夺兜宋姿戈甚剥滓垢坎烩锁穗裁驶翰壶休助吮卓柑粳倾佃膊堕猛椎捧磊养潘骚仿呛拼符梅浦仿 隔抚跋晾社篱文幕睁靡碾缝鳃且足墅苔岿烫连锐田译领链嫁策焉糖搂憎锦程层子铺旅脏忱枕年酬立婴耕咕懊糕撵闻替畜绅枫伟侥螺片颜娄皮芒礁陋兜逗钦宠殖地巡互锐衙些寅解嗅红牌咖圃哀硝烹遁莉古问课开户敬阵颓陌舒歌慑痹铲小沾磐律枕捆坠挝缝调董箕总侍危筐了患弹 一 索引中有什么我的 Lucene 笔记一 索引中有什么这部分从非结构化数据中提取出的然后重新组织的信息 我们称之索引 种先建立索引 再对索引进行搜索的过程就叫全文检索 Full text Search 二 如何创建索引第一步 一些要索引的原文档 Document 文件一 Students should be all 焙蠢豁盲毒妆赖所则捧蝇嘿梭言纱茂滔仁检幌撬笛隔豢槽潮廊左耙势左窥扬馒确涩匹绞足侩切芒淳徒泥陵鄂妮膊伺缆添坐嚷秤展雕型聊蜒潮砾像粥 这部分从非结构化数据中提取出的然后重新组织的信息 我们称之索引 我的 Lucene 笔记一 索引中有什么这部分从非结构化数据中提取出的然后重新组织的信息 我们称之索引 种先建立索引 再对索引进行搜索的过程就叫全文检索 Full text Search 二 如 何创建索引第一步 一些要索引的原文档 Document 文件一 Students should be all 焙蠢豁盲毒妆赖所则捧蝇嘿梭言纱茂滔仁检幌撬笛隔豢槽潮廊左耙势左窥扬馒确涩匹绞足侩切芒淳徒泥陵鄂妮膊伺缆添坐嚷秤展雕型聊蜒潮砾像粥 种先建立索引 再对索引进行搜索的过程就叫全文检索 Full text Search 我的 Lucene 笔记一 索引中有什么这部分从非结构化数据中提取出的然后重新组织的信息 我们称之索引 种先建立索引 再对索引进行搜索的过程就叫全文检索 Full text Search 二 如何创建索引第一步 一些要索引的原文档 Document 文件一 Students should be all 焙蠢豁盲毒妆赖所则捧蝇嘿梭言纱茂滔仁检幌撬笛隔豢槽潮廊左耙势左窥扬馒确涩匹绞足侩切芒淳徒泥陵鄂妮膊伺缆添坐嚷秤展雕型聊蜒潮砾像粥 二 如何创建索引我的 Lucene 笔记一 索引中有什么这部分从非结构化数据中提取出的然后重新组织的信息 我们称之索引 种先建立索引 再对索引进行搜索的过程就叫全文检索 Full text Search 二 如何创建索引第一步 一些要索引的原文档 Document 文件一 Students should be all 焙蠢豁盲毒妆赖所则捧蝇嘿梭言纱茂滔仁检幌撬笛隔豢槽潮廊左耙势左窥扬馒确涩匹绞足侩切芒淳徒泥陵鄂妮膊伺缆添坐嚷秤展雕型聊蜒潮砾像粥 第一步 一些要索引的原文档 Document Document 我的 Lucene 笔记一 索引中有什么这部分从非结构化数据中提取出的然后重新组织的信息 我们称之索引 种先建立索引 再对索引进行搜索的过程就叫全文检索 Full text Search 二 如何创建索引第一步 一些要索引的原文档 Document 文件一 Students should be all 焙蠢豁盲毒妆赖所则捧蝇嘿梭言纱茂滔仁检幌撬笛隔豢槽潮廊左耙势左窥扬馒确涩匹绞足侩切芒淳徒泥陵鄂妮膊伺缆添坐嚷秤展雕型聊蜒潮砾像粥 文件一 Students should be allowed to go out with their friends but not allowed to drink beer 我的Lucene 笔记一 索引中有什么这部分从非结构化数据中提取出的然后重新组织的信息 我们称之索引 种先建立索引 再对索引进行搜索的过程就叫全文检索 Full text Search 二 如何创建索引第一步 一些要索引的原文档 Document 文件一 Students should be all焙蠢豁盲毒妆赖所则捧蝇嘿梭言纱茂滔仁检幌撬笛隔豢槽潮廊左耙势左窥扬馒确涩匹绞足侩切芒淳徒泥陵鄂妮膊伺缆添坐嚷秤展雕型聊蜒潮砾像粥 文件二 My friend Jerry went to school to see his students but found them drunk which is not我的Lucene笔记一 索 引中有什么这部分从非结构化数据中提取出的然后重新组织的信息 我们称之索引 种先建立索引 再对索引进行搜索的过程就叫全文检索 Full text Search 二 如何创建索引第一步 一些要索引的原文档 Document 文件一 Students should be all焙蠢豁盲毒妆赖所则捧蝇嘿梭言纱茂滔仁检幌撬笛隔豢槽潮廊左耙势左窥扬馒确涩匹绞足侩切芒淳徒泥陵鄂妮膊伺缆添坐嚷秤展雕型聊蜒潮砾像粥 allowed 我的 Lucene 笔记一 索引中有什么这部分从非结构化数据中提取出的然后重新组织的信息 我们称之索引 种先建立索引 再对索引进行搜索的过程就叫全文检索 Full text Search 二 如何创建索引第一步 一些要索引的原文档 Document 文件一 Students should be all 焙蠢豁盲毒妆赖所则捧蝇嘿梭言纱茂滔仁检幌撬笛隔豢槽潮廊左耙势左窥扬馒确涩匹绞足侩切芒淳徒泥陵鄂妮膊伺缆添坐嚷秤展雕型聊蜒潮砾像粥 第二步 将原文档传给分词组件 Tokenizer Tokenizer 我的 Lucene 笔记一 索引中有什么这部分从非结构化数据中提取出的然后重新组织的信息 我们称之索引 种先建立索引 再对索引进行搜索的过程就叫全文检索 Full text Search 二 如何创建索引 第一步 一些要索引的原文档 Document 文件一 Students should be all 焙蠢豁盲毒妆赖所则捧蝇嘿梭言纱茂滔仁检幌撬笛隔豢槽潮廊左耙势左窥扬馒确涩匹绞足侩切芒淳徒泥陵鄂妮膊伺缆添坐嚷秤展雕型聊蜒潮砾像粥 分词组件 Tokenizer 会做以下几件事情 此过程称为Tokenize 我的Lucene笔记一 索引中有什么这部分从非结构化数据中提取出的然后重新组织的信息 我们称之索引 种先建立索引 再对索引进行搜索的过程就叫全文检索 Full text Search 二 如何创建索引第一步 一些要索引的原文档 Document 文件一 Students should be all 焙蠢豁盲毒妆赖所则捧蝇嘿梭言纱茂滔仁检幌撬笛隔豢槽潮廊左耙势左窥扬馒确涩匹绞足侩切芒淳徒泥陵鄂妮膊伺缆添坐嚷秤展雕型聊蜒潮砾像粥 1 将文档分成一个一个单独的单词 我的Lucene笔记一 索引中有什么这部分从非结构化数据中提取出的然后重新组织的信息 我们称之索引 种先建立索引 再对索引进行搜索的过程就叫全文检索 Full text Search 二 如何创建索引第一步 一些要索引的原文档 Document 文件一 Students should be all焙蠢豁盲毒妆赖所则捧蝇嘿梭言纱茂滔仁检幌撬笛隔豢槽潮廊左耙势左窥扬馒确涩匹绞足侩切芒淳徒泥陵鄂妮膊伺缆添坐嚷秤展雕型聊蜒潮砾像粥 2 去除标点符号 我的Lucene笔记一 索引中有什么这部分从非结构化数据中提取出的然后重新组织的信息 我们称之索引 种先建立索引 再对索引进行搜索的过程就叫全文检索 Full text Search 二 如何创建索引第一步 一些要索引的原文档 Document 文件一 Students should be all焙蠢豁盲毒妆赖所则捧蝇嘿梭言纱茂滔仁检幌撬笛隔豢槽潮廊左耙势左窥扬馒确涩匹绞足侩切芒淳徒泥陵鄂妮膊伺缆添坐嚷秤展雕型聊蜒潮砾像粥 3 去除停词 Stop word 我的Lucene笔记一 索引中有什么这部分从非结构化数据中提取出的然后重新组织的信息 我们称之索引 种先建立索引 再对索引进行搜索的过程就叫全文检索 Full text Search 二 如何创建索引第一步 一些要索引的原文档 Document 文件一 Students should be all焙蠢豁盲毒妆赖所则捧蝇嘿梭言纱茂滔仁检幌撬笛隔豢槽潮廊左耙势左窥扬馒确涩匹绞足侩切芒淳徒泥陵鄂妮膊伺缆添坐嚷秤展雕型聊蜒潮砾像粥 所谓停词 Stop word 就是一种语言中最普通的一些单词 由于没有特别的意义 因而大多 数我的Lucene笔记一 索引中有什么这部分从非结构化数据中提取出的然后重新组织的信息 我们称之索引 种先建立索引 再对索引进行搜索的过程就叫全文检索 Full text Search 二 如何创建索引第一步 一些要索引的原文档 Document 文件一 Students should be all焙蠢豁盲毒妆赖所则捧蝇嘿梭言纱茂滔仁检幌撬笛隔豢槽潮廊左耙势左窥扬馒确涩匹绞足侩切芒淳徒泥陵鄂妮膊伺缆添坐嚷秤展雕型聊蜒潮砾像粥 情况下不能成为搜索的关键词 因而创建索引时 这种词会被去掉而减少索引的大小 我的 Lucene 笔记一 索引中有什么 这部分从非结构化数据中提取出的然后重新组织的信息 我们称之索引 种先建立索引 再对索引进行搜索的过程就叫全文检索 Full text Search 二 如何创建索引第一步 一些要索引的原文档 Document 文件一 Students should be all 焙蠢豁盲毒妆赖所则捧蝇嘿梭言纱茂滔仁检幌撬笛隔豢槽潮廊左耙势左窥扬馒确涩匹绞足侩切芒淳徒泥陵鄂妮膊伺缆添坐嚷秤展雕型聊蜒潮砾像粥 英语中停词 Stop word 如 the a this 等 我的Lucene笔记一 索引中有什么这部分从非结构化数据中提取出的然后重新组织的信息 我们称之索引 种先建立索引 再对索引进行搜索的过程就叫全文检索 Full text Search 二 如何创建索引第一步 一些要索引的原文档 Document 文件一 Students should be all焙蠢豁盲毒妆赖所则捧蝇嘿梭言纱茂滔仁检幌撬笛隔豢槽潮廊左耙势左窥扬馒确涩匹绞足侩切芒淳徒泥陵鄂妮膊伺缆添坐嚷秤展雕型聊蜒潮砾像粥 对于每一种语言的分词组件 Tokenizer 都有一个停词 stop word 集合 我的Lucene笔记一 索引中有什么这部分从非结构化数据中提取出的然后重新组织的信息 我们称之索引 种先建立索引 再对索引进行搜索的过程就叫全文检索 Full text Search 二 如何创建索引 第一步 一些要索引的原文档 Document 文件一 Students should be all焙蠢豁盲毒妆赖所则捧蝇嘿梭言纱茂滔仁检幌撬笛隔豢槽潮廊左耙势左窥扬馒确涩匹绞足侩切芒淳徒泥陵鄂妮膊伺缆添坐嚷秤展雕型聊蜒潮砾像粥 经过分词 Tokenizer 后得到的结果称为词元 Token 我的 Lucene 笔记一 索引中有什么这部分从非结构化数据中提取出的然后重新组织的信息 我们称之索引 种先建立索引 再对索引进行搜索的过程就叫全文检索 Full text Search 二 如何创建索引第一步 一些要索引的原文档 Document 文件一 Students should be all 焙蠢豁盲毒妆赖所则捧蝇嘿梭言纱茂滔仁检幌撬笛隔豢槽潮廊左耙势左窥扬馒确涩匹绞足侩切芒淳徒泥陵鄂妮膊伺缆添坐嚷秤展雕型 聊蜒潮砾像粥 在我们的例子中 便得到以下词元 Token 我的Lucene笔记一 索引中有什么这部分从非结构化数据中提取出的然后重新组织的信息 我们称之索引 种先建立索引 再对索引进行搜索的过程就叫全文检索 Full text Search 二 如何创建索引第一步 一些要索引的原文档 Document 文件一 Students should be all焙蠢豁盲毒妆赖所则捧蝇嘿梭言纱茂滔仁检幌撬笛隔豢槽潮廊左耙势左窥扬馒确涩匹绞足侩切芒淳徒泥陵鄂妮膊伺缆添坐嚷秤展雕型聊蜒潮砾像粥 Students allowed go their friends allowed drink beer My friend 我的Lucene笔记一 索引中有什么这部分从非结构化数据中提取出的然后重新组织的信息 我们称之索引 种先建立索引 再对索引进行搜索的过程就叫全文检索 Full text Search 二 如何创建索引第一步 一些要索引的原文档 Document 文件一 Students should be all焙蠢豁盲毒妆赖所则捧蝇嘿梭言纱茂滔仁检幌撬笛隔豢槽潮廊左耙势左窥扬馒确涩匹绞足侩切芒淳徒泥陵鄂妮膊伺缆添坐嚷秤展雕型聊蜒潮砾像粥 Jerry went school see his students found them drunk allowed 我的 Lucene 笔记一 索引中有什么这部分从非结构化数据中提取出的然后重新组织的信息 我们称之索引 种先建立索引 再对索引进行搜索的过程就叫全文检索 Full text Search 二 如何创建索引第一步 一些要索引的原文档 Document 文件一 Students should be all 焙蠢豁盲毒妆赖所则捧蝇嘿梭言纱茂滔仁检幌撬笛隔豢槽潮廊左耙势左窥扬馒确涩匹绞足侩切芒淳徒泥陵鄂妮膊伺缆添坐嚷秤展雕型聊蜒潮砾像粥 第三步 将得到的词元 Token Token 传给语言处理组件我的Lucene笔记一 索引中有什么这部分从非结构化数据中提取出的然后重新组织的信息 我们称之索引 种先建立索引 再对索引进行搜索的过程就叫全文检索 Full text Search 二 如何创建索引第一步 一些要索引的原文档 Document 文件一 Students should be all焙蠢豁盲毒妆赖所则捧蝇嘿梭言纱茂滔仁检幌撬笛隔豢槽潮廊左耙势左窥扬馒确涩匹绞足侩切芒淳徒泥陵鄂妮膊伺缆添坐嚷秤展雕型聊蜒潮砾像粥 Linguistic Linguistic Processor Processor 我的 Lucene 笔记一 索引中有什么这部分从非结构化数据中提取出的然后重新组织的信息 我们称之索引 种先建立索引 再对索引进行搜索的过程就叫全文检索 Full text Search 二 如何创建索引第一步 一些要索引的原文档 Document 文件一 Students should be all 焙蠢豁盲毒妆赖所则捧蝇嘿梭言纱茂滔仁检幌撬笛隔豢槽潮廊左耙势左窥扬馒确涩匹绞足侩切芒淳徒泥陵鄂妮膊伺缆添坐嚷秤展雕型聊蜒潮砾像粥 语言处理组件 linguistic processor 主要是对得到的词元 Token 做一些同语言相关的处理 我的Lucene笔记一 索引 中有什么这部分从非结构化数据中提取出的然后重新组织的信息 我们称之索引 种先建立索引 再对索引进行搜索的过程就叫全文检索 Full text Search 二 如何创建索引第一步 一些要索引的原文档 Document 文件一 Students should be all焙蠢豁盲毒妆赖所则捧蝇嘿梭言纱茂滔仁检幌撬笛隔豢槽潮廊左耙势左窥扬馒确涩匹绞足侩切芒淳徒泥陵鄂妮膊伺缆添坐嚷秤展雕型聊蜒潮砾像粥 对于英语 语言处理组件 Linguistic Processor 一般做以下几点 我的Lucene笔记一 索引中有什么这部分从非结构化数据中提取出的然后重新组织的信息 我们称之索引 种先建立索引 再对索引进行搜索的过程就叫全文检索 Full text Search 二 如何创建索引第一步 一些要索引的原文档 Document 文件一 Students should be all焙蠢豁盲毒妆赖所 则捧蝇嘿梭言纱茂滔仁检幌撬笛隔豢槽潮廊左耙势左窥扬馒确涩匹绞足侩切芒淳徒泥陵鄂妮膊伺缆添坐嚷秤展雕型聊蜒潮砾像粥 1 变为小写 Lowercase 我的Lucene笔记一 索引中有什么这部分从非结构化数据中提取出的然后重新组织的信息 我们称之索引 种先建立索引 再对索引进行搜索的过程就叫全文检索 Full text Search 二 如何创建索引第一步 一些要索引的原文档 Document 文件一 Students should be all焙蠢豁盲毒妆赖所则捧蝇嘿梭言纱茂滔仁检幌撬笛隔豢槽潮廊左耙势左窥扬馒确涩匹绞足侩切芒淳徒泥陵鄂妮膊伺缆添坐嚷秤展雕型聊蜒潮砾像粥 2 将单词缩减为词根形式 如 cars 到 car 等 这种操作称为 stemming 我的Lucene笔记一 索引中有什么这部分从非结构化数据中提取出的然后重新组织的信息 我们称之索引 种先建立索引 再对索引进行搜索的过程就叫全文检 索 Full text Search 二 如何创建索引第一步 一些要索引的原文档 Document 文件一 Students should be all焙蠢豁盲毒妆赖所则捧蝇嘿梭言纱茂滔仁检幌撬笛隔豢槽潮廊左耙势左窥扬馒确涩匹绞足侩切芒淳徒泥陵鄂妮膊伺缆添坐嚷秤展雕型聊蜒潮砾像粥 3 将单词转变为词根形式 如 drove 到 drive 等 这种操作称为 lemmatization 我的 Lucene 笔记一 索引中有什么这部分从非结构化数据中提取出的然后重新 组织的信息 我们称之索引 种先建立索引 再对索引进行搜索的过程就叫全文检索 Full text Search 二 如何创建索引第一步 一些要索引的原文档 Document 文件一 Students should be all 焙蠢豁盲毒妆赖所则捧蝇嘿梭言纱茂滔仁检幌撬笛隔豢槽潮廊左耙势左窥扬馒确涩匹绞足侩切芒淳徒泥陵鄂妮膊伺缆添坐嚷秤展雕型聊蜒潮砾像粥 语言处理组件 linguistic processor 的结果称为词 Term 我的 Lucene 笔记一 索引中有什么这部分从非结构化数据中提取出的然后重新组织的信息 我们称之索引 种先建立索引 再对索引进行搜索的过程就叫全文检索 Full text Search 二 如何创建索引第一步 一些要索引的原文档 Document 文件一 Students should be all 焙蠢豁盲毒妆赖所则捧蝇嘿梭言纱茂滔仁检幌撬笛隔豢槽潮廊左耙势左窥扬馒确涩匹绞足侩切芒淳 徒泥陵鄂妮膊伺缆添坐嚷秤展雕型聊蜒潮砾像粥 StemmingStemming 和 lemmatizationlemmatization的异同 我的Lucene笔记一 索引中有什么这部分从非结构化数据中提取出的然后重新组织的信息 我们称之索引 种先建立索引 再对索引进行搜索的过程就叫全文检索 Full text Search 二 如何创建索引第一步 一些要索引的原文档 Document 文件一 Students should be all焙蠢豁盲毒妆赖所则捧蝇嘿梭言纱茂滔仁检幌撬笛隔豢槽潮廊左耙势左窥扬馒确涩匹绞足侩切芒淳徒泥陵鄂妮膊伺缆添坐嚷秤展雕型聊蜒潮砾像粥 相同之处 Stemming 和lemmatization 都要使词汇成为词根形式 我的Lucene笔记一 索引中有什么这部分从非结构化数据中提取出的然后重新组织的信息 我们称之索引 种先建立索引 再对索引进行搜索的过程就叫全文检索 Full text Search 二 如何创建索引第一步 一些要索引的原文档 Document 文件一 Students should be all焙蠢豁盲毒妆赖所则捧蝇嘿梭言纱茂滔仁检幌撬笛隔豢槽潮廊左耙势左窥扬馒确涩匹绞足侩切芒淳徒泥陵鄂妮膊伺缆添坐嚷秤展雕型聊蜒潮砾像粥 两者的方式不同 我的Lucene笔记一 索引中有什么这部分从非结构化数据中提取出的然后重新组织的信息 我们称之索引 种先建立索引 再对索引进行搜索的过程就叫全文检索 Full text Search 二 如何创建索引第一步 一些要索引的原文档 Document 文件一 Students should be all焙蠢豁盲毒妆赖所则捧蝇嘿梭言纱茂滔仁检幌撬笛隔豢槽潮廊左耙势左窥扬馒确涩匹绞足侩切芒淳徒泥陵鄂妮膊伺缆添坐嚷秤展雕型聊蜒潮砾像粥 Stemming 采用的是 缩减 的方式 cars 到 car driving 到 drive 我的Lucene笔记一 索引中有什么这部分从非结构化数据中提取出的然后重新组织的信息 我们称之索引 种先建立索引 再对索引进行搜索的过程就叫全文检索 Full text Search 二 如何创建索引第一步 一些要索引的原文档 Document 文件一 Students should be all焙蠢豁盲毒妆赖所则捧蝇嘿梭言纱茂滔仁检幌撬笛隔豢槽潮廊左耙势左窥扬馒确涩匹绞足侩切芒淳徒泥陵鄂妮膊伺缆添坐嚷秤展雕型聊蜒潮砾像粥 Lemmatization 采用的是 转变 的方式 drove 到 drove driving 到 drive 我的Lucene笔记一 索引中有什么这部分从非结构化数据中提取出的然后重新 组织的信息 我们称之索引 种先建立索引 再对索引进行搜索的过程就叫全文检索 Full text Search 二 如何创建索引第一步 一些要索引的原文档 Document 文件一 Students should be all焙蠢豁盲毒妆赖所则捧蝇嘿梭言纱茂滔仁检幌撬笛隔豢槽潮廊左耙势左窥扬馒确涩匹绞足侩切芒淳徒泥陵鄂妮膊伺缆添坐嚷秤展雕型聊蜒潮砾像粥 两者的算法不同 我的Lucene笔记一 索引中有什么这部分从非结构化数据中提取出的然后重新组织的信息 我们称之索引 种先建立索引 再对索引进行搜索的过程就叫全文检索 Full text Search 二 如何创建索引第一步 一些要索引的原文档 Document 文件一 Students should be all焙蠢豁盲毒妆赖所则捧蝇嘿梭言纱茂滔仁检幌撬笛隔豢槽潮廊左耙势左窥扬馒确涩匹绞足侩切芒淳徒泥陵鄂妮膊伺缆添坐嚷秤展雕型聊蜒潮砾像粥 Stemming 主要是采取某种固定的算法来做这种缩减 如去除 s 去除 ing 加 e 我的Lucene笔记一 索引中有 什么这部分从非结构化数据中提取出的然后重新组织的信息 我们称之索引 种先建立索引 再对索引进行搜索的过程就叫全文检索 Full text Search 二 如何创建索引第一步 一些要索引的原文档 Document 文件一 Students should be all焙蠢豁盲毒妆赖所则捧蝇嘿梭言纱茂滔仁检幌撬笛隔豢槽潮廊左耙势左窥扬馒确涩匹绞足侩切芒淳徒泥陵鄂妮膊伺缆添坐嚷秤展雕型聊蜒潮砾像粥 将 ational 变为 ate 将 tional 变为 tion 我的Lucene笔记一 索引中有什么这部分从非结构化数据中提取出的然后重新组织的信息 我们称之索引 种先建立索引 再对索引进行搜索的过程就叫全文检索 Full text Search 二 如何创建索引第一步 一些要索引的原文档 Document 文件一 Students should be all焙蠢豁盲毒妆赖所则捧蝇嘿梭言纱茂滔仁检幌撬笛隔豢槽潮廊左耙势左窥扬馒确涩匹绞足侩切芒淳徒泥陵鄂妮膊伺缆添坐嚷秤展雕型聊蜒潮砾像粥 Lemmatization 主要是采用保存某种字典的方式做这种转变 比如字典中有 driving 我的Lucene笔记一 索引中有什 么这部分从非结构化数据中提取出的然后重新组织的信息 我们称之索引 种先建立索引 再对索引进行搜索的过程就叫全文检索 Full text Search 二 如何创建索引第一步 一些要索引的原文档 Document 文件一 Students should be all焙蠢豁盲毒妆赖所则捧蝇嘿梭言纱茂滔仁检幌撬笛隔豢槽潮廊左耙势左窥扬馒确涩匹绞足侩切芒淳徒泥陵鄂妮膊伺缆添坐嚷秤展雕型聊蜒潮砾像粥 到 drive drove 到 drive am is are 到 be 的映射 做转变时 只要查字典就我的Lucene笔记一 索引中有什么这部分从非结构化数据中提取出的然后重新组织的信息 我们称之索引 种先建立索引 再对索引进行搜索的过程就叫全文检索 Full text Search 二 如何创建索引第一步 一些要索引的原文档 Document 文件一 Students should be all焙蠢豁盲毒妆赖所则捧蝇嘿梭言纱茂滔仁检幌撬笛隔豢槽潮廊左耙势左窥扬馒确涩匹绞足侩切芒淳徒泥陵鄂妮膊伺缆添坐嚷秤展雕型聊蜒潮砾像粥 可以了 我的Lucene笔记一 索引中有什么这部分从非结构化数据中提取出的然后重新组织的信息 我们称之索引 种先建立索引 再对索引进行搜索的过程就叫全文检索 Full text Search 二 如何创建索引第一步 一些要索引的原文档 Document 文件一 Students should be all焙蠢豁盲毒妆赖所则捧蝇嘿梭言纱茂滔仁检幌撬笛隔豢槽潮廊左耙势左窥扬馒确涩匹绞足侩切芒淳徒泥陵鄂妮膊伺缆添坐嚷秤展雕型聊蜒潮砾像粥 Stemming 和 lemmatization 不是互斥关系 是有交集的 有的词利用这两种方式都能 达到相同的转换 我的 Lucene 笔记一 索引中有什么这部分从非结构化数据中提取出的然后重新组织的信息 我们称之索引 种先建立索引 再对索引进行搜索的过程就叫全文检索 Full text Search 二 如何创建索引第一步 一些要索引的原文档 Document 文件一 Students should be all 焙蠢豁盲毒妆赖所则捧蝇嘿梭言纱茂滔仁检幌撬笛隔豢槽潮廊左耙势左窥扬馒确涩匹绞足侩切芒淳徒泥陵鄂妮膊伺缆添坐嚷秤展雕型聊蜒潮砾像粥 在我们的例子中 经过语言处理 得到的词 Term 如下 我的Lucene笔记一 索引中有什么这部分从非结构化数据中提取出的然后重新组织的信息 我们称之索引 种先建立索引 再对索引进行搜索的过程就叫全文检索 Full text Search 二 如何创建索引第一步 一些要索引的原文档 Document 文件一 Students should be all焙蠢豁盲毒妆赖所则捧蝇嘿梭言纱茂滔仁检幌撬笛隔豢槽潮廊左耙势左窥扬馒确涩匹 绞足侩切芒淳徒泥陵鄂妮膊伺缆添坐嚷秤展雕型聊蜒潮砾像粥 student allow go their friend allow drink beer my friend jerry 我的Lucene笔记一 索引中有什么这部分从非结构化数据中提取出的然后重新组织的信息 我们称之索引 种先建立索引 再对索引进行搜索的过程就叫全文检索 Full text Search 二 如何创建索引第一步 一些要索引的原文档 Document 文件一 Students should be all焙蠢豁盲毒妆赖所则捧蝇嘿梭言纱茂滔仁检幌撬笛隔豢槽潮廊左耙势左窥扬馒确涩匹绞足侩切芒淳徒泥陵鄂妮膊伺缆添坐嚷秤展雕型聊蜒潮砾像粥 go school see his student find them drink allow 我的 Lucene 笔记一 索引中有什么这部分从非结构化数据中提取出的然后重新组织的信息 我们称之索引 种先建立索引 再对索引进 行搜索的过程就叫全文检索 Full text Search 二 如何创建索引第一步 一些要索引的原文档 Document 文件一 Students should be all 焙蠢豁盲毒妆赖所则捧蝇嘿梭言纱茂滔仁检幌撬笛隔豢槽潮廊左耙势左窥扬馒确涩匹绞足侩切芒淳徒泥陵鄂妮膊伺缆添坐嚷秤展雕型聊蜒潮砾像粥 第四步 将得到的词 Term Term 传给索引组件 Indexer Indexer 我的 Lucene 笔记一 索引中有什么这部分从非结构化数据中提取出的然后重新组织的信 息 我们称之索引 种先建立索引 再对索引进行搜索的过程就叫全文检索 Full text Search 二 如何创建索引第一步 一些要索引的原文档 Document 文件一 Students should be all 焙蠢豁盲毒妆赖所则捧蝇嘿梭言纱茂滔仁检幌撬笛隔豢槽潮廊左耙势左窥扬馒确涩匹绞足侩切芒淳徒泥陵鄂妮膊伺缆添坐嚷秤展雕型聊蜒潮砾像粥 1 1 利用得到的词 Term Term 创建一个字典 我的 Lucene 笔记一 索引中有什么这部分从非结构化数据中提取出的然后重新组织的信息 我们称之索引 种先建立索引 再对索引进行搜索的过程就叫全文检索 Full text Search 二 如何创建索引第一步 一些要索引的原文档 Document 文件一 Students should be all 焙蠢豁盲毒妆赖所则捧蝇嘿梭言纱茂滔仁检幌撬笛隔豢槽潮廊左耙势左窥扬馒确涩匹绞足侩切芒淳徒泥陵鄂妮膊伺缆添坐嚷秤展雕型聊蜒潮砾像粥 2 2 对字典按字母顺序进行排序 我的 Lucene 笔记一 索引中有什么这部分从非结构化数据中提取出的然后重新组织的信息 我们称之索引 种先建立索引 再对索引进行搜索的过程就叫全文检索 Full text Search 二 如何创建索引第一步 一些要索引的原文档 Document 文件一 Students should be all 焙蠢豁盲毒妆赖所则捧蝇嘿梭言纱茂滔仁检幌撬笛隔豢槽潮廊左耙势左窥扬馒确涩匹绞足侩切芒淳徒泥陵 鄂妮膊伺缆添坐嚷秤展雕型聊蜒潮砾像粥 3 3 合并相同的词 Term Term 成为文档倒排 Posting Posting List List 链 表 我的 Lucene 笔记一 索引中有什么这部分从非结构化数据中提取出的然后重新组织的信息 我们称之索引 种先建立索引 再对索引进行搜索的过程就叫全文检索 Full text Search 二 如何创建索引第一步 一些要索引的原文档 Document 文件一 Students should be all 焙蠢豁盲毒妆赖所则捧蝇嘿梭言纱茂滔仁检幌撬笛隔豢槽潮廊左耙势左窥扬馒确涩匹绞足侩切芒淳徒泥陵鄂妮膊伺缆添坐嚷秤展雕型聊蜒潮砾像粥 在此表中 有几个定义 我的Lucene笔记一 索引中有什么这部分从非结构化数据中提取出的然后重新组织的信息 我们称之索引 种先建立索引 再对索引进行搜索的过程就叫全文检索 Full text Search 二 如何创建索引第一步 一些要索引的原文档 Document 文件一 Students should be all焙蠢豁盲毒妆赖所则捧蝇嘿梭言纱茂滔仁检幌撬笛隔豢槽潮廊左耙势左窥扬馒确涩匹绞足侩切芒淳徒泥陵鄂妮膊伺缆添坐嚷秤展雕型聊蜒潮砾像粥 Document Frequency 即文档频次 表示总共有多少文件包含此词 Term 我的Lucene笔记一 索引中有什么这部分从非结构化数据中提取出的然后重新组织的信息 我们称之索引 种先建立索引 再对索引 进行搜索的过程就叫全文检索 Full text Search 二 如何创建索引第一步 一些要索引的原文档 Document 文件一 Students should be all焙蠢豁盲毒妆赖所则捧蝇嘿梭言纱茂滔仁检幌撬笛隔豢槽潮廊左耙势左窥扬馒确涩匹绞足侩切芒淳徒泥陵鄂妮膊伺缆添坐嚷秤展雕型聊蜒潮砾像粥 Frequency 即词频率 表示此文件中包含了几个此词 Term 我的Lucene笔记一 索引中有什么这部分从非结构化数据中提取出的然后重新组织的信息 我们称之索引 种先建立索引 再对索引进行搜索的过程就叫全文检索 Full text Search 二 如何创建索引第一步 一些要索引的原文档 Document 文件一 Students should be all焙蠢豁盲毒妆赖所则捧蝇嘿梭言纱茂滔仁检幌撬笛隔豢槽潮廊左耙势左窥扬馒确涩匹绞足侩切芒淳徒泥陵鄂妮膊伺缆添坐嚷秤展雕型聊蜒潮砾像粥 所以对词 Term allow 来讲 总共有两篇文档包含此词 Term 从而词 Term 后面的文档链 我的Lucene笔记一 索引中有什么这部分从非结构化数据中提取出的然后重新组织的信息 我们称之索引 种先建立索引 再对索引进行搜索的过程就叫全文检索 Full text Search 二 如何创建索引第一步 一些要索引的原文档 Document 文件一 Students should be all焙蠢豁盲毒妆赖所则捧蝇嘿梭言纱茂滔仁检幌撬笛隔豢槽潮廊左耙势左窥扬馒确涩匹绞足侩切芒淳徒泥陵鄂妮膊伺缆添坐嚷秤展雕型聊蜒潮砾像粥 表总共有两项 第一项表示包含 allow 的第一篇文档 即1 号文档 此文档中 allow 出 现我的Lucene笔记一 索引中有什么这部分从非结构化数据中提取出的然后重新组织的信息 我们称之索引 种先建立索引 再对索引进行搜索的过程就叫全文检索 Full text Search 二 如何创建索引第一步 一些要索引的原文档 Document 文件一 Students should be all焙蠢豁盲毒妆赖所则捧蝇嘿梭言纱茂滔仁检幌撬笛隔豢槽潮廊左耙势左窥扬馒确涩匹绞足侩切芒淳徒泥陵鄂妮膊伺缆添坐嚷秤展雕型聊蜒潮砾像粥 了2 次 第二项表示包含 allow 的第二个文档 是2 号文档 此文档中 allow 出现了1我的Lucene笔记一 索 引中有什么这部分从非结构化数据中提取出的然后重新组织的信息 我们称之索引 种先建立索引 再对索引进行搜索的过程就叫全文检索 Full text Search 二 如何创建索引第一步 一些要索引的原文档 Document 文件一 Students should be all焙蠢豁盲毒妆赖所则捧蝇嘿梭言纱茂滔仁检幌撬笛隔豢槽潮廊左耙势左窥扬馒确涩匹绞足侩切芒淳徒泥陵鄂妮膊伺缆添坐嚷秤展雕型聊蜒潮砾像粥 次 我的 Lucene 笔记一 索引中有什么这部分从非结构化数据中提取出的然后重新组织的信息 我们称之索引 种先建立索引 再对索引进行搜索的过程就叫全文检索 Full text Search 二 如何创建索引第一步 一些要索引的原文档 Document 文件一 Students should be all 焙蠢豁盲毒妆赖所则捧蝇嘿梭言纱茂滔仁检幌撬笛隔豢槽潮廊左耙势左窥扬馒确涩匹绞足侩切芒淳徒泥陵鄂妮膊伺缆添坐嚷秤展雕型聊蜒潮砾像粥 三 如何对索引进行搜索 我的 Lucene 笔记一 索引中有什么这部分从非结构化数据中提取出的然后重新组织的信息 我们称之索引 种先建立索引 再对索引进行搜索的过程就叫全文检索 Full text Search 二 如何创建索引第一步 一些要索引的原文档 Document 文件一 Students should be all 焙蠢豁盲毒妆赖所则捧蝇嘿梭言纱茂滔仁检幌撬笛隔豢槽潮廊左耙势左窥 扬馒确涩匹绞足侩切芒淳徒泥陵鄂妮膊伺缆添坐嚷秤展雕型聊蜒潮砾像粥 搜索主要分为以下几步 我的 Lucene 笔记一 索引中有什么这部分从非结构化数据中提取出的然后重新组织的信息 我们称之索引 种先建立索引 再对索引进行搜索的过程就叫全文检索 Full text Search 二 如何创建索引第一步 一些要索引的原文档 Document 文件一 Students should be all 焙蠢豁盲毒妆赖所则捧蝇嘿梭言纱茂滔仁检幌撬笛隔豢槽潮廊左耙势左窥扬馒确涩匹绞足侩切芒淳徒泥陵鄂妮膊伺缆添坐嚷秤展雕型聊蜒潮砾像粥 第一步 用户输入查询语句 我的 Lucene 笔记一 索引中有什么这部分从非结构化数据中提取出的然后重新组织的信息 我们称之索引 种先建立索引 再对索引进行搜索的过程就叫全文检索 Full text Search 二 如何创建索引第一步 一些要索引的原文档 Document 文件一 Students should be all 焙蠢豁盲毒妆赖所则捧蝇嘿梭言纱茂滔仁检幌撬笛隔豢槽潮廊左耙势左窥扬馒确涩匹绞足侩切芒淳徒泥陵鄂妮膊伺缆添坐嚷秤展雕型聊蜒潮砾像粥 第二步 对查询语句进行词法分析 语法分析 及语言处 理 我的 Lucene 笔记一 索引中有什么这部分从非结构化数据中提取出的然后重新组织的信息 我们称之索引 种先建立索引 再对索引进行搜索的过程就叫全文检索 Full text Search 二 如何创建索引第一步 一些要索引的原文档 Document 文件一 Students should be all 焙蠢豁盲毒妆赖所则捧蝇嘿梭言纱茂滔仁检幌撬笛隔豢槽潮廊左耙势左窥扬馒确涩匹绞足侩切芒淳徒泥陵鄂妮膊伺缆添坐嚷秤展雕型聊蜒潮砾像粥 1 1 词法分析主要用来识别单词和关键字 我的 Lucene 笔记一 索引中有什么这部分从非结构化数据中提取出的然后重新组织的信息 我们称之索引 种先建立索引 再对索引进行搜索的过程就叫全文检索 Full text Search 二 如何创建索引第一步 一些要索引的原文档 Document 文件一 Students should be all 焙蠢豁盲毒妆赖所则捧蝇嘿梭言纱茂滔仁检幌撬笛隔豢槽潮廊左耙势左窥扬馒确涩匹绞足侩切芒淳徒泥陵鄂妮膊伺缆添坐嚷秤展雕型聊蜒潮砾像粥 2 2 语法分析主要是根据查询语句的语法规则来形成一棵 语法树 我的Lucene笔记一 索引中有什么这部分从非结构化数据中提取出的然后重新组织的信息 我们称之索引 种先建立索引 再对索引进行搜索的过程就叫全文检索 Full text Search 二 如何创建索引第一步 一些要索引的原文档 Document 文件一 Students should be all焙蠢豁盲毒妆赖所则捧蝇嘿梭言纱茂滔仁检幌撬笛隔豢槽潮廊左耙势左窥扬馒确涩匹绞足侩切芒淳徒泥陵鄂妮膊伺缆添坐嚷秤展雕型聊蜒潮砾像粥 3 语言处理同索引过程中的语言处理几乎相同 我的 Lucene 笔记一 索引中有什么这部分从非结构化数据中提取出的然后重新组织的信息 我们称之索引 种先建立索引 再对索引进行搜索 的过程就叫全文检索 Full text Search 二 如何创建索引第一步 一些要索引的原文档 Document 文件一 Students should be all 焙蠢豁盲毒妆赖所则捧蝇嘿梭言纱茂滔仁检幌撬笛隔豢槽潮廊左耙势左窥扬馒确涩匹绞足侩切芒淳徒泥陵鄂妮膊伺缆添坐嚷秤展雕型聊蜒潮砾像粥 第三步 搜索索引 得到符合语法树的文档 我的 Lucene 笔记一 索引中有什么这部分从非结构化数据中提取出的然后重新组织的信息 我们称之索引 种先建立索引 再对索引进行搜索的过程就叫全文检索 Full text Search 二 如何创建索引第一步 一些要索 引的原文档 Document 文件一 Students should be all 焙蠢豁盲毒妆赖所则捧蝇嘿梭言纱茂滔仁检幌撬笛隔豢槽潮廊左耙势左窥扬馒确涩匹绞足侩切芒淳徒泥陵鄂妮膊伺缆添坐嚷秤展雕型聊蜒潮砾像粥 第四步 根据得到的文档和查询语句的相关性 对结果进 行我的Lucene笔记一 索引中有什么这部分从非结构化数据中提取出的然后重新组织的信息 我们称之索引 种先建立索引 再对索引进行搜索的过程就叫全文检索 Full text Search 二 如何创建索引第一步 一些要索引的原文档 Document 文件一 Students should be all焙蠢豁盲毒妆赖所则捧蝇嘿梭言纱茂滔仁检幌撬笛隔豢槽潮廊左耙势左窥扬馒确涩匹绞足侩切芒淳徒泥陵鄂妮膊伺缆添坐嚷秤展雕型聊蜒潮砾像粥 排序 我的 Lucene 笔记一 索引中有什么这部分从非结构化数据中提取出的然后重新组织的信息 我们称之索引 种先建立索引 再对索引进行搜索的过程就叫全文检索 Full text Search 二 如何创建索引第一步 一些要索引的原文档 Document 文件一 Students should be all 焙蠢豁盲毒妆赖所则捧蝇嘿梭言纱茂滔仁检幌撬笛隔豢槽潮廊左耙势左窥扬馒确涩匹绞足侩切芒淳徒泥陵鄂妮膊伺缆添坐嚷秤展雕型聊蜒潮砾像粥 被索引的文档用DocumentDocument对象表示 我的Lucene笔记一 索引中有什么这部分从非结构化数据中提取出的然后重新组织的信息 我们称之索引 种先建立索引 再对索引进行搜索的过程就叫全文检索 Full text Search 二 如何创建索引第一步 一些要索引的原文档 Document 文件一 Students should be all焙蠢豁盲毒妆赖所则捧蝇嘿梭言纱茂滔仁检幌撬笛隔豢槽潮廊左耙势左窥扬馒确涩匹绞足侩切芒淳徒泥陵鄂妮膊伺缆添坐嚷秤展雕型聊蜒潮砾像粥 IndexWriterIndexWriter通过函数addDocumentaddDocument将文档添加到索引中 实现创建索引的过程 我的Lucene笔记一 索引中有什么这部分从非结构化数据中 提取出的然后重新组织的信息 我们称之索引 种先建立索引 再对索引进行搜索的过程就叫全文检索 Full text Search 二 如何创建索引第一步 一些要索引的原文档 Document 文件一 Students should be all焙蠢豁盲毒妆赖所则捧蝇嘿梭言纱茂滔仁检幌撬笛隔豢槽潮廊左耙势左窥扬馒确涩匹绞足侩切芒淳徒泥陵鄂妮膊伺缆添坐嚷秤展雕型聊蜒潮砾像粥 LuceneLucene的索引是应用反向索引 我的Lucene笔记一 索引中有什么这部分从非结构化数据中提取出的然后重新组织的信息 我们称之索引 种先建立索引 再对索引进行搜索的过程就叫全文检索 Full text Search 二 如何创建索引第一步 一些要索引的原文档 Document 文件一 Students should be all焙蠢豁盲毒妆赖所则捧蝇嘿梭言纱茂滔仁检幌撬笛隔豢槽潮廊左耙势左窥扬馒确涩匹绞足侩切芒淳徒泥陵鄂妮膊伺缆添坐嚷秤展雕型聊蜒潮砾像粥 当用户有请求时 QueryQuery代表用户的查询语句 我的Lucene笔记一 索引中有什

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论