




已阅读5页,还剩24页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
个人微博中公共事件检测算法的研究,PPT模板下载:/moban/,目录Contents,课题介绍,微博定义:即微博客(micro-blog)的简称(不超过140个中英文字符),是近年来新兴起的,且发展迅速的新闻媒体。用户可以随时随地通过WEB、移动客户端等途径实现状态更新和信息分享。目前新浪是流行度最广的微博网站。,个人微博文本特点:内容的随机性;文本表现形式的多样性;时间跨度的不连续性;,PPT模板下载:/moban/,课题介绍,课题目的:针对个人微博数据的随机性、不规则性等多种特点,挖掘出用户在一段时间内所关注的公共事件,以确定该用户的兴趣爱好等多方面信息,所以这也是个人微博信息检测技术领域首要解决的问题。,课题意义:以短文本数据挖掘为研究背景,以个人微博信息为数据集,以提取主题词为目的,展开从文本预处理到相似性度量,再到特征值计算等一系列研究,为今后个人微博事件检测、自动摘要生成提供依据。,PPT模板下载:/moban/,目录Contents,PPT模板下载:/moban/,课题解决方案与设计,PPT模板下载:/moban/,课题解决方案与设计,流行度:由转发数、赞数和评论数而提出的文本流行度概念。,(公式1),通过多次实验,设定a为0.5,b为0.3,c为0.2时,得出的特征值最能反应一条微博的受关注程度。,PPT模板下载:/moban/,课题解决方案与设计,耦合相似度:运用了Jaccard公式来实现耦合相似度的衡量。,(公式2),其中分子表示两条微博的分词交集,即重叠数量,分母表示分词的并集。,PPT模板下载:/moban/,课题解决方案与设计,时序相似度:运将时序相似度的计算在耦合相似度的基础上进行,减少时间复杂度。,(公式3),其中分子表示两条微博的分词交集,即重叠数量,分母表示分词的并集。,PPT模板下载:/moban/,课题解决方案与设计,流行相似度:若两条微博的流行度值均很大,说明相似度越高;在二者之和相等的情况下,乘积越大,则相似度越高。计算公式如下。,(公式4),其中pop(idi)和pop(idj)分别表示编号为idi和idj的微博的流行度,即值越小。,PPT模板下载:/moban/,课题解决方案与设计,综合相似度:将耦合、时序和流行度三者进行线性加权,得出两条微博的综合相似度。,(公式5),通过分析每个权重因子的含义及实验,设定a、b和c的值分别为0.65、0.3和0.05,且a+b+c=1。,PPT模板下载:/moban/,课题解决方案与设计,步骤1:从分词i词性考虑,具体的词性权重;,步骤2:聚类关键词受词性和出现次数的影响,故将二者进行乘积运算,再进行二次筛选,计算公式如下:,步骤3:设定提取聚类关键字的阈值,聚类主题词,(公式6),(公式7),PPT模板下载:/moban/,课题解决方案与设计,传统的TF-IDF公式,(公式8),直接应用个人微博数据存在的问题:1.没有结合微博文本特征以及分词的自身特点。2.相同的关键字在不同的短文本中会出现特征值离散现象。3.会出现IDF值高,TF值低的分词被当作主题词提取。,PPT模板下载:/moban/,课题解决方案与设计,改进的TF-IDF公式,平均相对词长和词性词的平均流行度平均词频因子改进的IDF公式,PPT模板下载:/moban/,课题解决方案与设计,平均相对词长公式,(公式9),leni(wi)表示分词wi的相对词长,lenID(wi,idi)表示分词所在文本的长度,len(wi)表示分词长度,m表示的是含有分词wi的微博条数。,PPT模板下载:/moban/,课题解决方案与设计,词平均流行度公式,f2表示分词在整个分词序列中出现的次数之和。,(公式10),(公式11),PPT模板下载:/moban/,课题解决方案与设计,平均词频公式,f1(wi,idi)表示分词在所属微博中的出现次数,fw(idi)表示分词所属微博的所有分词出现次数之和,f2表示分词在整个分词序列中出现的次数之和,fmax表示整个分词序列表中所有分词的出现次数之和。,(公式12),PPT模板下载:/moban/,课题解决方案与设计,改进的IDF公式,IDF=log(N/n);其中N是语料库中的文本总数,n是包含分词t的文本数。,当N值固定,IDF值会随着n的增加而增大。,(公式13),改进的TF-IDF,(公式14),PPT模板下载:/moban/,课题解决方案与设计,模版匹配,将提取的主题词与人工收集的模板数据进行事件的匹配,提取出包含主题词的模板事件正向模板匹配;正向匹配会导致包含主题词但并不是用户所关注的事件,所以需要对正向模板匹配的实验结果进行再次匹配反向模板匹配,即将事件模板中除主题词外的关键词与原微博信息匹配;经过正反模板两个步骤才能得到最终的公共事件提取结果。,PPT模板下载:/moban/,目录Contents,PPT模板下载:/moban/,实验测试,系统配置:Win 7;Pentiun(R) Dual CPU,内存8G,硬盘1T。开发语言及工具:C#、Visual Studio 2010数据库:MySQL、数据库辅助工具: Navicat for MySQL,实验测试环境,实验测试环境,实验测试环境,PPT模板下载:/moban/,实验测试,PPT模板下载:/moban/,实验测试,主题词提取结果: 截取的是梁宏达8月份的微博数据的主题词提取结果 :,PPT模板下载:/moban/,实验测试,正反模版匹配的事件提取结果:,PPT模板下载:/moban/,实验测试,实验结果对比,查准率p=自动提取正确主题词的数目/自动提取关键字的数目查全率r=自动提取正确主题词的数目/人工标注主题词的数目,PPT模板下载:/moban/,目录Contents,PPT模板下载:/moban/,工作总结,考虑个人微博的非主流文本特征,提出一种个人微博主题词提取算法 (Personal weibo subject word extraction algorithm ,PWSWE)。提出了由转发数、赞数和评论数组成的文本流行度概念、平均词长,平均词频、平均流行度等概念。在文本处理中获取了超链接指向的网页标题。解决了传统TF-IDF函数存在的特征值离散现象以及相似度稀疏问题。提出正反模板匹配,解决了以往模版
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 小学旋转题目及答案数学
- 2025年化工元素制图题库及答案
- 古筝乐理题库及答案
- 2025年空分制氧考试试题及答案
- 湖南省周南教育集团2023-2024学年七年级上学期语文12月月考试卷(含答案)
- 文库发布:Scratch与Arduino教学课件
- 食品安全配料知识培训总结
- 5年级下册数学期末试卷及答案
- ps星空课件教学课件
- 煤矿采煤考试题库及答案
- 摩托车协议买卖合同模板
- 2024年全国体育单独统一招生考试语文试卷附答案
- 核燃料生产成本分析-全面剖析
- 动火作业安全专项方案
- 旅游业税务风险及防范措施分析-基于企业所得税的视角
- 南大版一年级心理健康第15课《走进大自然》课件
- QC主管转正述职报告
- 2024年大连银行授信审批部招聘笔试真题
- 支气管哮喘的护理个案分析
- 液压系统基础知识培训课件
- 《人脑的结构》课件
评论
0/150
提交评论