


全文预览已结束
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
(1)余弦相似性 通过测量两个向量之间的角的余弦值来度量它们之间的相似性。0度角的余弦值是1,而其他任何角度的余弦值都不大于1;并且其最小值是-1。从而两个向量之间的角度的余弦值确定两个向量是否大致指向相同的方向。所以,它通常用于文件比较。 详见百科介绍(点击打开链接)(2)算法实现的中未使用权重(IDF -逆文档频率),使用词项的出现次数作为向量空间的值。javaview plaincopy1. importjava.util.HashMap;2. importjava.util.Iterator;3. importjava.util.Map;4. 5. publicclassSimilarDegreeByCos6. 7. /*8. *计算两个字符串(英文字符)的相似度,简单的余弦计算,未添权重9. */10. publicstaticdoublegetSimilarDegree(Stringstr1,Stringstr2)11. 12. /创建向量空间模型,使用map实现,主键为词项,值为长度为2的数组,存放着对应词项在字符串中的出现次数13. MapvectorSpace=newHashMap();14. intitemCountArray=null;/为了避免频繁产生局部变量,所以将itemCountArray声明在此15. 16. /以空格为分隔符,分解字符串17. StringstrArray=str1.split();18. for(inti=0;istrArray.length;+i)19. 20. if(vectorSpace.containsKey(strArrayi)21. +(vectorSpace.get(strArrayi)0);22. else23. 24. itemCountArray=newint2;25. itemCountArray0=1;26. itemCountArray1=0;27. vectorSpace.put(strArrayi,itemCountArray);28. 29. 30. 31. strArray=str2.split();32. for(inti=0;istrArray.length;+i)33. 34. if(vectorSpace.containsKey(strArrayi)35. +(vectorSpace.get(strArrayi)1);36. else37. 38. itemCountArray=newint2;39. itemCountArray0=0;40. itemCountArray1=1;41. vectorSpace.put(strArrayi,itemCountArray);42. 43. 44. 45. /计算相似度46. doublevector1Modulo=0.00;/向量1的模47. doublevector2Modulo=0.00;/向量2的模48. doublevectorProduct=0.00;/向量积49. Iteratoriter=vectorSpace.entrySet().iterator();50. 51. while(iter.hasNext()52. 53. Map.Entryentry=(Map.Entry)iter.next();54. itemCountArray=(int)entry.getValue();55. 56. vector1Modulo+=itemCountArray0*itemCountArray0;57. vector2Modulo+=itemCountArray1*itemCountArray1;58. 59. vectorProduct+=itemCountArray0*itemCountArray1;60. 61. 62. vector1Modulo=Math.sqrt(vector1Modulo);63. vector2Modulo=Math.sqrt(vector2Modulo);64. 65. /返回相似度66. return(vectorProduct/(vector1Modulo*vector2Modulo);67. 68. 69. /*70. *71. */72. publicstaticvoidmain(Stringargs)73. 74. Stringstr1=goldsilvertruck;75. Stringstr2=Shipmentofgolddamagedinafire;76. Stringstr3=Deliveryofsilverarrivedinasilvertruck;77. Stringstr4=Shipmentofgoldarrivedinatruck;78. Stringstr5=goldgoldgoldgoldgoldgold;79. 80. System.out.println(SimilarDegreeByCos.getSimilarDegree(str1,str2);81. System.out.println(SimilarDegreeByCos.getSimilarDegree(str1,str3);82. System.out.println(SimilarDe
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 湖南商务职业技术学院单招测试题(附解析)英语
- 教师招聘之《小学教师招聘》复习提分资料及参考答案详解(模拟题)
- 2025年教师招聘之《幼儿教师招聘》考前冲刺练习题及参考答案详解(典型题)
- 教师招聘之《小学教师招聘》能力提升题库附答案详解【培优b卷】
- 教师招聘之《小学教师招聘》考前冲刺测试卷附有答案详解及参考答案详解(培优a卷)
- 押题宝典教师招聘之《幼儿教师招聘》通关考试题库及参考答案详解【巩固】
- 演出经纪人之《演出经纪实务》每日一练及参考答案详解1套
- 2025年教师招聘之《幼儿教师招聘》预测试题含答案详解【新】
- 2025年公务员考试行测真题及答案
- 白酒行业盈利能力分析-以山西汾酒为例
- 甲状腺癌的护理查房课件
- 毕业设计(论文)-三辊卷板机设计
- 广东春季高考2024年数学试卷
- 肿瘤药物外渗护理
- 具身智能行业深度:技术路线、市场机遇、产业链及相关公司深度梳理
- 江西省防雷减灾白皮书 (2024年)
- 职业院校模块化课程体系构建与实践研究
- DB50-T233-2020-道路照明设施维护技术规程-重庆市
- T/CAQI 70-2019管道直饮水系统安装验收要求
- 中卫市第八幼儿园建设项目土壤污染状况调查报告
- 敏感皮肤护理培训
评论
0/150
提交评论