下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、.相似度计算在数据挖掘中经常需要用到比较两个东西的相似度。比如搜索引擎要避免非常相似的文档出现在结果的前几页,再比如很多网站上都有的“查找与你口味相似的用户”、“你可能喜欢什么什么”之类的功能。后者其实是很大的一块叫做“协同过滤”的研究领域,留待以后详谈。首先我们定义两个集合S,T的Jaccard相似度: Sim(S,T) = |S,T的交集| / |S,T的并集|。直观上就容易感觉出这是一个很简单而且比较合理的度量,我不清楚有没有什么理论上的分析,在此省略。下面先主要说一下文档的相似度。如果是判断两个文档是否完全相同,问题就变得很简单,只要简单地逐字符比较即可。但是在很多情况下并不是这样,比
2、如网站文章的转载,主体内容部分是相同的,但是不同网页本身有自己的Logo、导航栏、版权声明等等,不能简单地直接逐字符比较。这里有一个叫做Shingling的方法,其实说起来很圡,就是把每相邻的k个字符作为一个元素,这样整篇文档就变成了一个集合。比如文档是banana,若k=2,转化以后得到集合为ba,an,na,于是又变成了前述集合相似度的问题。关于k值的设置,显然过小或过大都不合适,据说比较短的比如email之类可以设k=5,比如长的文章如论文之类可以设k=9。当然,这是一个看上去就很粗糙的算法,这里的相似度比较只是字符意义上的,如果想进行语义上的比较就不能这么简单了(我觉得肯定有一摞摞的p
3、aper在研究这个)。不过同样可以想见的是,在实际中这个粗糙算法肯定表现得不坏,速度上更是远优于复杂的NLP方法。在实际工程中,必然糙快猛才是王道。有一点值得注意的是,Shingling方法里的k值比较大时,可以对每个片段进行一次hash。比如k=9,我们可以把每个9字节的片段hash成一个32bit的整数。这样既节省了空间又简化了相等的判断。这样两步的方法和4-shingling占用空间相同,但是会有更好的效果。因为字符的分布不是均匀的,在4-shingling中实际上大量的4字母组合没有出现过,而如果是9-shingling再hash成4个字节就会均匀得多。在有些情况下我们需要用压缩的方式
4、表示集合,但是仍然希望能够(近似)计算出集合之间的相似度,此时可用下面的Minhashing方法。首先把问题抽象一下,用矩阵的每一列表示一个集合,矩阵的行表示集合中所有可能的元素。若集合c包含元素r,则矩阵中c列r行的元素为1,否则为0。这个矩阵叫做特征矩阵,往往是很稀疏的。以下设此矩阵有R行C列。所谓minhash是指把一个集合(即特征矩阵的一列)映射为一个0.R-1之间的值。具体方法是,以等概率随机抽取一个0.R-1的排列,依此排列查找第一次出现1的行。例如有集合S1=a,d, S2=c, S3 = b,d,e, S4 = a,c,d,特征矩阵即如下S1S2S3S40a10011b0010
5、2c01013d10114e0010设随机排列为43201(edcab),按edcab的顺序查看S1列,发现第一次出现1的行是d(即第3行),所以h(S1) = 3,同理有h(S2)=2, h(S3)=4, h(S4)=3。此处有一重要而神奇的结论:对于等概率的随机排列,两个集合的minhash值相同的概率等于两个集合的Jaccard相似度。证明:同一行的两个元素的情况有三种:X.两者都为1;Y.一个1一个0;Z.两者都为0。易知Jaccard相似度为|X|/(|X|+|Y|)。另一方面,若排列是等概率的,则第一个出现的X中元素出现在Y中元素之前的概率也为|X|/(|X|+|Y|),而只有这种
6、情况下两集合的minhash值相同。于是方法就有了,我们多次抽取随机排列得到n个minhash函数h1,h2,hn,依此对每一列都计算n个minhash值。对于两个集合,看看n个值里面对应相等的比例,即可估计出两集合的Jaccard相似度。可以把每个集合的n个minhash值列为一列,得到一个n行C列的签名矩阵。因为n可远小于R,这样我们就把集合压缩表示了,并且仍能近似计算出相似度。在具体的计算中,可以不用真正生成随机排列,只要有一个hash函数从0.R-1映射到0.R-1即可。因为R是很大的,即使偶尔存在多个值映射为同一值也没大的影响。-如果有N个集合,求它们之间两两的相似度就需要N*(N-
7、1)/2次计算,当N很大时这个代价仍然承受不起。于是我们需要一种方法能够不遍历所有可能的元素对就找出相似度较大的那些(大于某个给定的阈值t),这就是所谓Locality-Sensitive Hashing。第三章的后半部分基本全是围绕这一话题展开的。这里又要出现一个比较神奇的方法了:由上篇文章所述,对每一列c(即每个集合)我们都计算出了n行minhash值,我们把这n个值均分成b组,每组包含相邻的r=n/b行。对于每一列,把其每组的r个数都算一个hash值出来,把此列的编号记录到hash值对应的bucket里。如果两列被放到了同一个bucket里,说明它们至少有一组(r个)数的hash值相同,
8、此时可认为它们有较大可能相似度较高(称为一对candidate)。最后在比较时只对落在同一个bucket里的集合两两计算,而不是全部的两两比较。下面进行一点理论上的分析。如果两个集合被放到一个桶里,说明它们至少有一组minhash值是相同的。设两个元素的一次minhash值相同的概率是s(就是那个Jaccard相似度),那么一组全相同的概率是sr,则b组中至少有一组相同的概率为1-(1-sr)b。如果b和r固定,那么此概率与s值形成的曲线是一个S型。S型斜率最高的点大约在(1/b)(1/r)处。可以发现这个算法只能得到近似的结果,有可能两个相似度大于阈值t的集合没有被放到一个桶里,于是就漏掉了
9、;另外也可能相似度小于t的集合被放到了一个桶里,造成了无效的计算。我们希望这两种错误都尽可能地小。形式化一点就是,我们定义一种函数(Locality-Sensitive Function, LSF),它把一个集合映射为一个值,如果两个集合映射到的值相同,就认为他们有可能相似度较高。这个函数的好坏可以用一个四元组(d1,d2,p1,p2)表示,意思是说,如果两集合的距离(此处我们把距离定义为1减去Jaccard相似度)小于d1,则它们至少有p1的概率映射为同一个值;如果两集合的距离大于d2,则它们至多有p2的概率映射为同一个值。可以发现对于同样的一对(d1,d2),p1越大p2越小,那么这个函数
10、的效果就越好。对于上述minhash的例子,如果只用一次minhash值作为LSF,那么它是(d1,d2,1-d1,1-d2)-sensitive,此时其实那个S-曲线是一条直线。比如令d1=0.2, d2=0.6,它就是(0.2, 0.6, 0.8, 0.4)。而如果我们用4组每组4个minhash值按上述方法计算,那么它是(0.2, 0.6, 0.8785, 0.0985),可以发现p1变大而p2变小了。在极端情况下,如果b和r都很大,那个S曲线将近似成为一个分段函数,一开始的时候几乎一直是0,突然极快地跳到接近1,这时效果是非常好的,但是需要大量的minhash值计算。另外,这里对于LSH的讨论实际上是很一般化的,待比较的东西不一定是集合,“距离”的定义不一定非和Jaccard相似度有关,LSF函数也不一定和minhash算法有关。比如可以定义01串的hamming距离,或者欧氏空间中的点的距离等等。对于hamming距离,LSF可定义为随机取一个二进制位看其是否相同,那么对于两个长度为L,Hamming距离为d的串,相同的概率就是
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026湖北天门市人才引进63人备考题库附答案详解(精练)
- 2026广西北海市群众艺术馆招录公益性岗位人员1人备考题库及答案详解(名师系列)
- 2026年山东轻工职业学院公开招聘备考题库(15人)及一套参考答案详解
- 2026广西百色市西林县农业农村局招聘编外聘用人员5人备考题库附答案详解(能力提升)
- 2026年丽水市松阳县教育系统公开招聘中小学、幼儿园教师10人备考题库(一)附答案详解(综合卷)
- 2026海南省昌江黎族自治县校园招聘(海口站)高中紧缺学科教师16人备考题库(第1号)含答案详解(巩固)
- 2026浙江宁波市北仑区小港街道编外工作人员招聘1人备考题库及答案详解(真题汇编)
- 2026四川共青团成都市成华区委员会专职青少年事务社工招聘2人备考题库含答案详解(巩固)
- 2026广西百色市西林县机构编制电子政务服务中心招聘编外聘用人员2人备考题库附答案详解ab卷
- 2026四川资阳发展投资集团有限公司选聘资阳苌润资产管理有限公司总经理1人备考题库及答案详解(名师系列)
- GB/T 13609-2025天然气气体取样
- 脑机接口科普
- 隔声保温垫层施工方案
- 西蒙决策管理理论
- 2025年黑龙江辅警招聘考试真题附答案详解(完整版)
- 《水利水电工程施工图审查技术导则》
- 2025至2030创新环保产品行业产业运行态势及投资规划深度研究报告
- 高中团课考试题目及答案
- 2024年医药代表专业技能提升培训方案
- 深静脉血栓形成临床路径标准流程
- 润燥止痒胶囊的作用
评论
0/150
提交评论