


全文预览已结束
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
几种相似度计算方法作对比句子相似度的计算在自然语言处理具有很重要的地位,如基于实例的机器翻译(Example Based Ma-chine Translation,EBMT)、自动问答技术、句子模糊匹配等.通过对术语之间的语义相似度计算,能够为术语语义识别1、术语聚类2、文本聚类3、本体自动匹配4等多项任务的开展提供重要支持。在已有的术语相似度计算方法中,基于搜索引擎的术语相似度算法以其计算简便、计算性能较高、不受特定领域语料库规模和质量制约等优点而越来越受到重视1。相似度计算方法总述:1 向量空间模型信息检索技术讨论,刘斌,陈桦发表于计算机学报,2007相似度S(Similarity):指两个文档内容相关程度的大小,当文档以向量来表示时,可以使用向量文档向量间的距离来衡量,一般使用内积或夹角0的余弦来计算,两者夹角越小说明似度越高。由于查询也可以在同一空间里表示为一个查询向量(见图1),可以通过相似度计算公式计算出每个档向量与查询向量的相似度,排序这个结果后与设立的阈值进行比较。如果大于阈值则页面与查询相关,保留该页面查询结果;如果小于则不相关,过滤此页。这样就可以控制查询结果的数量,加快查询速度。2 相似度计算方法综述相似度计算用于衡量对象之间的相似程度,在数据挖掘、自然语言处理中是一个基础性计算。其中的关键技术主要是两个部分,对象的特征表示,特征集合之间的相似关系。在信息检索、网页判重、推荐系统等,都涉及到对象之间或者对象和对象集合的相似性的计算。而针对不同的应用场景,受限于数据规模、时空开销等的限制,相似度计算方法的选择又会有所区别和不同。下面章节会针对不同特点的应用,进行一些常用的相似度计算方法进行介绍。内积表示法:1 基于语义理解的文本相似度算法,金博,史彦君发表于大连理工大学学报,2007在中文信息处理中,文本相似度的计算广泛应用于信息检索、机器翻译、自动问答系统、文本挖掘等领域,是一个非常基础而关键的问题,长期以来一直是人们研究的热点和难点。计算机对于中文的处理相对于对于西文的处理存在更大的难度,集中体现在对文本分词的处理上。分词是中文文本相似度计算的基础和前提,采用高效的分词算法能够极大地提高文本相似度计算结果的准确性。本文在对常用的中文分词算法分析比较的基础上,提出了一种改进的正向最大匹配切分(MM)算法及歧义消除策略,对分词词典的建立方式、分词步骤及歧义字段的处理提出了新的改进方法,提高了分词的完整性和准确性。随后分析比较了现有的文本相似度计算方法,利用基于向量空间模型的TF-IDF方法结合前面提出的分词算法,给出了中文文本分词及相似度计算的计算机系统实现过程,并以科技文本为例进行了测试,对所用方法进行了验证。这一课题的研究及其成果对于中文信息处理中的多种领域尤其是科技类文本相似度的计算比较,都将具有一定的参考价值和良好的应用前景。2 随机内积空间,林熙,郭铁信发表于科学通报,2007称(s,盘)为数域K上的以概率空间(口,a,)为基的随机内积空间(Randominnerproductspace,简RI空间),若s是数域K上的线性空间且映射盘:_+L(口,)满足Vpg,VK,(RIP一1):L(口)且(。)一0as。P一0(中零元);(RIP一2):M(m)一”(m);as其中x表x的共轭随机变量。(RIP一3):xo()一aX();a。s。(RIP一4):X+。,()一X,。,()+Xf,()。a。s。若还存在零测集,使得对所有E口上述公理成立,则称0,。劈)为一致随机内积空间。在RIP空间中称x为p与9的随机内积。余弦响亮度量方法:1 基于云计算的余弦向量度量法文本检索模型,付永贵发表在情报科学,2012目前信息检索技术在国内外已经取得了很大的究成果,为用户信息检索提供了很大的便利,具体体现在不同的检索模型的应用,比如布尔模型、扩布尔模型、向量空间模型、概率模型、潜在语义模、统计语言模型等等,在文本信息检索中向量空间型中的余弦向量度量法是应用相对广泛而且效率。经典的余弦向量度量法文本检索模型(theclassiccosinevectormeasuringmethodtextretrievalmodel)中查询和文本均被看成是由索引项构成的向量,比如对于有n个索引项的文本检索,可以由这n个索引项构成的空间向量来表示查询q和文本dj。则查询q可以表示为:q=(t1q,t2q,tnq),文本dj可以表示为:dj=(s1j,s2j,snj)。其中tkq,skj(1kn)分别表示查询q和文本dj的第k个索引项。在具体应用中通常用索引项在查询q和文本dj的权值来表示其在查询和文本中的重要程度,则查询q和文本dj可以用索引项权值构成的空间向量来表示,设q=(w1q,w2q,wnq),wkq(1kn)表示索引项tkq(1kn)在查询q中的权值,文本dj=(v1j,v2j,vnj),vkj(1kn)表示索引项skj(1kn)在文本dj中的权值。2 基于项目评分预测的协同过滤推荐算法,邓爱林,朱扬勇,施伯乐发表在软件学报,2012度量用户间相似性的方法有多种,主要包括如3种方法【:余弦相似性相关相似性及修正的余弦相似性余弦相似性(cosine):用户评分被看做是n维项目空间上的向量,如果用户对项目没有进行评分,则将用户对该项目的评分设为0,用户间的相似性通过向量间的余弦夹角度量。设用户i和用户-,在n维项目空间上的评分分别表示为向量,歹,则用户i和用户之间的相似性sim(id) 分子为两个用户评分向量的内积,分母为两个用户向量模的乘积。相关相似性(correlation):设经用户i和用户共同评分的项目集合用表示,则用i和用户,之间的相似性sim(id)通过Pearson相关系数度量:Rf。表示用户i对项目C的评分,R和R,分别表示用户i和用户-,对项目的平均评分。修正的余弦相似性(adjustedcosine):在余弦相似性度量方法中没有考虑不同用户的评分尺度问题,修正的余弦相似性度量方法通过减去用户对项目的平均评分来改善上述缺陷,设经用户i和用户共同评分的项目集合用表示和分别表示经用户i和用户J评分的项目集合,则用户i和用户之间的相似性sim(ij)为Rf。表示用户i对项目c的评分,R和R,分别表示用户i和用户J对项目的平均评分。JaccardCoefficient:1 信息检索-向量空间模型此方法看上去很好理解,就是用query和文档共同出现的词的个数,除以一共的词数。当然也有很多问题1没有考虑文档中词出现的次数(没有考虑tf因素)2没有考虑文档的频率(没考虑idf因素)3没有考虑文档的长度,长文档和短文档计算相似度的差别会很大系数主要用于计算符号度量或布尔值度
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 南昌环氧地坪施工方案
- 钢筋加工及安装施工方案
- 自行车车棚施工方案
- 数据库软考课件
- 竹胶板施工方案
- 工厂法律知识培训课件
- 制作无公害蔬菜酱菜系列产品创新创业项目商业计划书
- 数据可课件教学课件
- 物联网家庭智能宠物照顾创新创业项目商业计划书
- 盐酸基础知识培训课件
- 电子商务法律风险与合规管理
- 调查报告青州市区房地产调查报告
- 成人重症患者镇痛管理(专家共识)
- 棬槽沟村道路建设实施方案
- 中国民族史纲要罗佑贤
- JJF(石化)053-2021间隙式湿膜制备器校准规范
- 4.3闭环控制系统的工作过程教学设计-高中通用技术必修《技术与设计2》
- 2023版设备管理体系标准
- 产品设计程序与方法-整理版
- 办公家具供货安装、保障实施及售后服务方案
- 《曼陀罗绘画疗愈-初三减压》PPT
评论
0/150
提交评论