基于特征抽取和转换方法的全文检索研究.doc_第1页
基于特征抽取和转换方法的全文检索研究.doc_第2页
基于特征抽取和转换方法的全文检索研究.doc_第3页
基于特征抽取和转换方法的全文检索研究.doc_第4页
基于特征抽取和转换方法的全文检索研究.doc_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

华中师范大学计算机学院 篜 学位论文版权使用授权书定享受相关权益。圃童途塞握童后进卮魃坏坏哂 甌 琣 目录狶新模型的特征分布实验结果及分析 小结 研究背景及意义 国内外相关研究等人通过构建同义词词典,并从词典中深度挖掘词语问的相关语义信息,并将这些信息扩展到查询关键词,提出了一种基于概念的语义检索方法【,开创了对查询词进行概念扩展的先河。模型和信息检索相结合。他们利用词频和文档频率这些基于统计的信息,计算抽样出查询条件的概率,然后依据概率排序来获取相关文档。然后统计语言概率模型被广泛应用到各种格式,内容,甚至从技术层面改进的检索任务中,通过概率统计来分析文本内容或是进行查询扩展,这是一种技术的提高。比如,年在年通过对查询关键词进行概念获取,得到相关词语间的语义信术【】。 文本的潜在主题信息,由此改变词语在文档内容中分布的比例,通过新的概率值计算对查询结果进行重排。 【】理论运用到在自然语言处理中,如获取自动文摘,挖掘文本特征,文本分类,关联规则提取等方面,并在这些研究方向上取得了较为令人满意的效果。擞迷颇停岷掀铀乇匆端狗椒形谋痉峙小,并获得了较高的分类正确率。综上分析,主题模型是挖掘文档中隐含主题的一种概率方法,将主题当作认知理解范围内的概念,可以是一个虚拟的存在,通过概率发生条件选择词语,可以通过一系列相关的词语汇聚表示,概括说就是“在词汇表中所有词语在主题上有一个条件概率分布,我们将主题模型引入到信息检索中,并分析其现有的一些不足,再融入模糊理论的思想,寻去新的提高检索的模型和方法。本文主要研究内容 论文的组织结构论文文共包含五章内容,具体安排如下:第二章相关背景知识介绍:介绍了本文中用到的相关背景知识和理论基础。 信息检索是指按一定的方式来组织信息,然后根据用户的查询需求找出相关的户需求的信息子集。信息检索有广义和狭义的之分。广义的信息检索包括形式上的文本检索,图像检索,音频、视频检索等,内容下指定主题下文献检索,科技检索等各方面的检索,涵盖的范围比较广,所指信息的表现形式也多样,也称为“信息存储与检索”。狭义的信息检索通常仅指查找或检索,多针对非结构化的文本检索。信息检索的过程大致可以分为:数据预处理,建立索引,查询,检索四个过程【】。 ,珼瑆,若用户查询需求为:向量空间模型模型中,假设文档和查询词都是一个蛄靠瘴实囊徊糠郑渲衪表示索引词 概率检索模型件不相关的概率,多豯尺硎灸称N牡掂卦诓幌喙匚牡导疪中被选中的概率。 查询和查询集相关性、相关度和相关文档果中的文档与用户提交的查询之间的匹配关系,一般用一个数值表示,反映了文档与用户信息需求的相关程度,这个数值并不是一个绝对的固定值,在不同检索系统,或是检索模型计算下,数值是会变化的,只有在同一集合下对不同相关文档分别对应的这个数值进行比较才有价值,这个值表现了对文档与查询的相关性程度的度量,而之间的这种可能性的程度就称为相关度。 理,首先会按相关度排序来评测检索结果,然后可以更进一步利用某种标准对检索结果的准确性和正确性进行评测以此来判断得到的检索结果中哪些符合要求,哪些需要在改进检索后避免被查询到,即,既要用一个方式表示结果,一般用相关性得分,还要有个测评来测评得到的结果,这种评测是对检索系统的检索性能的评测【。信息检索系统的性能评测方法一般要选定一个测试集合,如前面我们提到的椋槭删些地方,用户可能就不会再继续翻阅下去,所以一般比较看重检索结果的前或个结果处的查准率,也即排序后排在前面的相关文档的查准率显得更为重要。查准率和召回率并不是两个统一变化的指标,随着召回率的增加,查准率反而会不断下降。若是仅仅只注重查准率,例如牺牲召回率的一般情况是只获取标注认为的最相关的少数文档作为结果,那么就会得到很高的查准率,但是有些相关文档被排在了很后面或是没被检索出来,使得用户不能比较完整的浏览到所有信息,这样可能就无法满足用户查询要求,检索的效果也显而易见。反之,如果单纯的又牺牲查准率,只追求召回率,这样就会引入大量无关结果,让用户在茫茫结果中寻找相关且有用的信息,那检索的意义就不存在,同样无法满足要求。因此,在这两者 合衡量。查询腗计算公式:云模型理论 :画鏊恣;图云模型的三个数字特征图 从数据挖掘角度来看,是从属性的实际分布中抽取概念,从定量表示到定性描 第三章基于甃模型的文本特征抽取方法我们可以仅从具有代表性的词语,甚至是只言片语,就可以推断出该篇文章的主题和中心思想,这些词语我们就可以说是文本的特征项,能表征这一篇文章。特征项需要具有以下性质:要能够最大可能的展示文本内容;要能够区别目标文本和无关文本;为避免造成高维计算难,特征的数量要适中;特征项要容易提取。 图文本挖掘结构图对于文本分析,英文比汉语要容易处理,英文中一般都有空格隔开,较自然语言容易处理,针对汉语,首先要进行分词处理,选择合理的分词器也是一项很重要的技术,很多研究者针对如何将汉语能合理划分开进行了不懈研究,在一个合理的分词系统预处理下,才能合理的提取文本特征,有了文本特征才能进行其他各领域的应用,目前,最常用的一个表示模式是向量空问模型珼、互表特征选择方法的对比方法描述狪一类出现频率高,另一类频率低,身的重要程度和其分布情况,导致特征词权重出现偏差。词频方法就是简单的计算一个词在文档中出现的次数,设定一个阈值,若指定词语的词频小于阈值,就不考虑该词语,将其删除,只选取词频在阈值以上的词语作为特征词语。方法可以通过简单统计实现特征空间降维的功能,但在信息检索任务中,有时频率小的词反而含有更多的信息,若是大量的去除了这些词语反而会导致信息的缺失,造成分类的不准确。 它度量两个对象之间的关联程度。一般用于表示特征对于主题分类的区分度。互信息值最大的类别就是特征词所最能表示的类别,就可以将特征词划分到这一类别下。该方法不需要假设特征词和类别之间的关系,因此适合于文本分类的特征和类别的配准工作。但是该方法受词条边缘概率的影响过大,有选择稀有特征的倾向。期望交叉熵交叉熵反映了包含指定词语的文本的分布和文本类别总的分布之问的距离,距离是一种关系,用概率值计算。只有单个类的情况:卡方统计扑愦侍鮰与文档类评估分值对在同一类别中的词是可比的,在不同类中频说妒统计对于一些低频词来说是不可靠的。 首先,本文用一个射击的例子来进行说明。一个射击者射中或射不中靶子具有:珽琀: 期望显示了射击的平均环数,反映了射击者射中目标距离靶心的程度。若值越大,则表明离靶心也越近。熵体现了射中的程度射中度,射手是否能射中中心,越大射手越可能射击接近中心,也反映弹着点相对于平均点的离散度;反映了熵的离散程度,体现了确定度的不确定性,第二个射手相对于第一个射击者在整体上来看,明显普遍比较远离靶心。假如射手的心理素质对比赛有影响作用,那构建一个文本也可以看作一个射击问题。自然语言中的单词是确定的,但是在不同的语言环境中单词又包含不同的意思。假设每一篇文档是一个靶子,每一个词语都可以看作是这个文档区域上包含的着弹点。用一个概率值来表示词语对文档的贡献度,这个值越大,词语与文档越相关,高的贡献度意味着这些词语能更好的表示该文档。因为这些词语能反映出某篇文档,他们可以被考虑作为文档的特征,他们可以被应用到作为文本分类的特征,标签自动提取和信息检索等领域。若查询词匹配上了这些有高的贡献度的词语,并且匹配的越多,那么文档与查询就越相关。在节中偷幕戏治觯琇模型很好的估算了文档,主题和词语之间的分布关系,每一个主题可以用一定的关键词表示,若干个关键词汇聚在一起,就可以归纳出这个主题是什么,主题就像一个装满词语的桶,根据定的概率分布从词汇表中选择具有高频率的词语作为相关系列词语,每个主题都有这样的一个的分布,然后这些主题有共同构成文章。为文章的主题赋予不同的权重,不同权重的主题之下词语也可能因为分布的概率不一样而出现被选用或被弃用,这些都是基于但同样也是一个随机过程,这个概率分布本身并不是固定的。 仅仅只在潜在主题上有个分布,同时还要受中心概念牡鹘诳刂疲珻在实质上和主题一样由词语表示而成,但是我们抽象出这个概念服从主题间的关系分配,简单举例:一篇议论文有一个中心观点,在论证过程中我们可以正面举例证明,也可以反面案例反证加强说明,这些例证所围绕的主题肯定是不一样的,正面主题自然可能有交叉,互相辅证,反面主题若单独看来反而起到了削弱观点的作用,加入调节其中定义“亲魑4视镌谖恼轮械闹匾3潭纫还毕锥龋硎玖酥魈鈌的关系。 目前,有许多推理算法被用于主题模型的参数估计中,例如,期望最大化,魈庠诟拍钌系姆植;数和数字特征,是词语在文档中的平均贡献度,越接近这个贡献度的词语才认为与文章越接近,词语是否能表示文档具有不确定性和随机性,这种不确定性恰恰是由主题关系的不确定性引起的,所以就是对选择的词语对中心概念相关度的不确定性程度的表示,这种不确定性程度越低,就表示越能确定词语接近文档概念,从公式上来看是熵的熵,是对这种不确定性的度量,超熵越低,不确定性越低。州炯够陋渗等卜琧飧龈怕史植际窃诓问齉、基础之上, 筽。 軮褀瑃吒前次数时出现的次数。实验结果及分析 表被,运动员,使用体育,金志扬,本即将,开, 北,本报,记者,张晓敏 ,金志扬带领,北京J,表高贡献度的新特征提取,大学,精神,金志 表系腗比较表上的狿结果比较删分布,我们可以将其应用到提炼文本特征,内容标签推荐,文本分类聚类领域。 语义指纹和狶模型词语分布标签和相关词群语义指纹获取 肼,硎敬视飛和标签涞木嗬耄琾硎景视飛的文档数,输出:相关词群及其相关度表示如:利用上述公式计算;算法结束。图概念标签和相关词群的相关度的计算分布,每篇文档在标签上有一个分布,每个标签与主题间有一个分布目,而主题在词语 。的词语和标签的关系材。假定綤,这种关系体现可以用向量表示定义:布值,那么标签的集合可以表示如下: 度数值表示,这是一个整体全局方面的信息,集合可以表示为:图基于石模型的文本特征转抉个云滴,依据谥械墓蕉澹扑慊怂,砌,于趃口如趃根据云模型相邻概念的融合理论,合并后的正态分布有一个新的数字特征: 公式等价于勘是一个以砌如鸨砒轨气如魂那么向量朴成浜螅玫皆瓶占涞南蛄縆。,协;甠如,如,。鑫 。鑫在合并后的空间上具有一致性。命题得证。于是,在特征转换和融合的假设之上,获取了,停的关系, 火公式于是提取分量,可以计算标签和词语的关系: 上述转换之后的标签对词语的分布。抽样过程如下:结合本章语义空间转换,设置经验值,则根据图概率模型图,基于各印啤苝或 ,名髄帚,乙,乏。縫基于文本特征转换的二次检索模型系统框架实验结果与分析 媒体拦缡衾网站美国D时代涝从表格中我们可以看到,与查询词本身同一个词语的标签的相关度最大,虽然 ,在肪场罚甈的结果展示 表系腗比较正删上述表中得出,由于加入了语义信息,在啦庀拢渭焖鞯慕峁鸐 的贡献度,确定对中心概念的有贡献的词语的新的概率值,在获取文档中词语的新接下来基于对用户查询需求的分析和查询意图的理解,用尽量少的特征标识文本,考虑特征向量的维度的问题,融合了统计概率和语义信息的方法上得到文档特征,首先进行查询关键词的匹配,对其进行扩展,聚焦用户的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论