版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、,TOP科技开发小组,词聚类的设计与实现,TOP科技团队,PPT内容简介,1、文本聚类及其应用 2、词聚类系统的简要介绍 3、用户需求分析; 4、项目演示; 5、实现词聚类的流程分析;,1、文本聚类,A、文本聚类(Text clustering)文档聚类 主要是依据著名的聚类假设:同类的文档 相似度较大,而不同类的文档相似度较小。 B、可用于生成一篇简明扼要的摘要文档; 对搜索引擎返回的结果进行聚类,使用 户迅速定位到所需要的信息。文本聚类对 人们挖掘数据信息有着不可提到的作用, 用途广泛 。 C、而词聚类就是根据这个假设对文档中的词 进行聚类。,2、词聚类系统的简要介绍,给出一篇文章,能通过
2、统计,求出每两个词在这篇文章中的相似度,进而对词进行分类。,本系统是一款简单的单机版的文本(词)聚类系统,主要运用java界面编程,流程控制判断,集合类,文件读取类。,3 、用户需求分析,取得文章中的所有词字符串数组中 取出各个词的上下文 计算每两个词的相似度最大相似度 按照词的相似度对词语进行分类 每分好一个类,写到一个记事本文件里。,3.1 上下文的概念,一个词在一文章中,它前后出现的每个词,即为它的上下文 ,在这里只统计每个词前后各一个的上下文, 例:“迈向 充满 希望 的 新 世纪”,如果想找“充满”的上下文,只统计到“迈向”和“希望”就可以了。 如果词的上下文有重复,则累计到该词上下
3、文对应的数量里 如:充满 迈向:3 希望:6 信心:1,3.2 相似度的计算,对每两个词的上下文进行比较,如果它们的 上下文有相同的词,数字,字母,符号,则相 似度值大于0,用公式计算 如果没有相同的上下文内容,则直接判断相似度为0 公式: a*b/(词1所有上下文的次数的平方和的开方) +(词2) 相似度:01,3.3 分类算法,例: .迈向和迈进相似度:0.8, 迈向和迈出相似度0.7, 迈向和走向相似度:0.9, 则取它们之间相似度最高的 迈向、走向, 把迈向存到数组 .走向、奔向 相似度最高:0.78 把走向和奔向存到一起 .0.780.9, 所以把走向加入到 迈向所在的文件里,所以
4、这里咱们需要用的是: 词与词的 最大相似度 即 根据最相近的词分类,3.3 分类算法,.当进行到当前相似度 大于 前面的那个相似度时, 把类分开 如: 奔向和奔去的相似度为0.8, 大于 走向和奔向的相似度0.78。 把迈向,走向归为一类, 把奔向和奔去归为一类。,每分好一个类 就写到 一个记事本文件,详细流程图,4.1 Face.java,用户界面显示,演示,点击确定按钮,4.2 文件内容,各个文件内容,演示,原始文本,5、系统的整体流程分析,从文本中取词,得到最大相似度,得到每个词的上下文,分类算法,得到分类文件,5.3、得到分类文件流程图,得到未分类的新词-word,产生一本新文件并把w
5、ord放到文件中,与word最相近的词-aa-相似度-aaa,与aa最相近的词-bb-相似度-bbb,bbbaaa,N,Y,aa追加到word所在的文件,与bb最相近的词-cc-相似度-ccc,cccbbb,bb追加到word所在文件,Y,N,Word-aa放在一类,Word单独分一类,判断aa是否与word一类,判断bb是否与aa一类,重复,返回,5.1、得到词的上下文流程图,返回,取出-word-上下文集合,得到word的-after-词-before词,是否是第一个词,Y,N,以word为key,上下文为value放入map,是否已经存在词-word-的上下文,N,Y,-after-词-
6、before词是否存在于上下文,N,Y,把-after-词-before词加入word的上下文-次数:1,把-after-词加入word的上下文-次数:1,文章开头的一个词,出现次数+1,从-wordArr-中依次取词word,把-after-词-before词加入word的上下文-次数:1,5.2、相似度的算法,所有词上下文集合map,上下文集合list(map的value),相似度计算公式:分子/分母(计算公式是用户给定的) 分子:相同上下文出现次数的乘积 (例:b*xx ) 是以个累加的过程 分母:sqrt(a*a+b*b+x*x)+ sqrt(aa*aa+bb*bb+xx*xx),如有问题,请联系TOP科技团队,我们将竭诚问您服务,谢谢您的观看和收听,TOP科技团队,Enter的调用流程A,Face.java Void view(),Enter.java,GetSort.java void sort(String path),GetSortMethods.java,分类时调用的方法类,显示界面,入口main(),对词进行分类,分类算法的调用流程,String getWordsArr( String path) 得到文章中 所
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 危重症患者的静脉输液管理
- 护理文书的绿色环保
- 护理教学实践技能比赛技巧
- 金太阳陕西省2026届高三下学期3月联考地理(26-287C)+答案
- 护理学考研:妇产科护理学考点梳理
- 基于情感化的产品设计课题研究
- 客户服务中的人性化服务策略
- 旅游行业产品策划与推广的面试要点
- 零售业门店经理选拔面试流程
- 旅游电商客服务流程优化及面试策略
- 四川党校在职研究生考试真题及答案
- 《汽车底盘构造与维修(第三版)》 课件 项目五 制动系构造与维修
- 2025年税务局信息技术专员招聘考试题库
- 北师大版七年级数学下册-第一章-名校检测题【含答案】
- 【《汽车排气系统三维建模及有限元仿真分析》17000字(论文)】
- 急危重症快速识别与急救护理
- 2026年新高考数学专题复习 103.马尔科夫链讲义
- 初中数学备课教案模板
- 浙江建设监理管理办法
- 运输公司废物管理办法
- 水库安全度汛培训课件
评论
0/150
提交评论