




已阅读5页,还剩24页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于个人微博特征的Timeline生成研究,目录,二、课题的设计与实现,三、试验测试与结果分析,一、课题背景介绍,四、中期工作总结与计划,一、课题背景介绍,1.1课题简介,1.研究意义 在这个信息发展飞速的年代,我们渴望了解我们感兴趣的人和事。企业之间想相互了解自己的竞争对手,公司员工想了解老板的信息,追星族想了解自己喜欢的明星,个人想了解自己的亲戚朋友的近况。微博却承载着我们个人的想法而诞生。2.现状 随着微博的快速发展,微博的历史信息量也越来越大,加上微博独特的特点,这使得我们在想了解我们感兴趣的人和事情的时候,困难加剧。3.课题研究的特点 本文根据微博的特点,进行事件提取研究,实验也充分的证明了本文算法的有效性。,一、课题背景介绍,1.2 课题的主要内容,目录,二、课题的设计与实现,三、试验测试与结果分析,一、课题背景介绍,四、中期工作总结与计划,二、课题的设计与实现,2.1课题总流程图,二、课题的设计与实现,2.2预处理部分,(1)去除个人微博中相同的微博(2)提取出微博中的标签(微博中一般在博文的开头,两个#号之间或者【】之间的词语或者句子)(3)提取出微博中含有url链接所对应的标题(因为微博的特征是最多140字这里以新浪微博为主,所以url链接所对应的标题很大程度上能突出微博的主题)(4)找出每一条微博的评论、转发、赞的个数(评论、转发、赞越多,我们认为这条微博关注的人数比较多,我们认为这条微博很重要,应给微博中的关键词给予更大的权重)(5)去除微博中的停用词、表情、特殊符号(停用词、表情、特殊符号,我们认为这样的词对于整条微博的价值是很低的,去除这些词和符号,同时也降低了噪声)(6)分词采用中科院汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)分词,校园招聘:毕业后想进入创业公司工作吗,创新工场联合我们投资的公司进入校园,联合招聘。有兴趣的当界毕业生,请点击:,应届生招聘 - 创新工场(Innovation Works),标签,URL对应标题,普通文本,分词,分词,分词,校园,招聘,毕业,进入,创业,公司,工作,创新工场,联合,投资,公司,进入,校园,招聘,兴趣,毕业生,应届生,招聘,创新工场,Innovation,Works,2.2预处理部分,二、课题的设计与实现,2.3改进的TF-IDF,传统TF-IDF的缺点: 1.传统的TF-IDF是针对长文本而不是针对微博的,所以没有考虑到微博独特的特点。 2.如果一个词只出现在一条微博当中那么这个词的IDF会很高,传统的TF-IDF会把这个词当做权重高的主题词,但是在微博当中一个词只出现在一条微博当中,那么我们很可能不会把他当成关键词而是把一些分布在各个微博当中分布平均的词当成主题词来提取,所以我们引入信息熵的概念。 3.词的长度越长,那么词还有的信息量就越大,就越有可能成为主题词,那么这个词的TF-IDF权重应越高。,二、课题的设计与实现,2.3改进的TF-IDF,1.改进的TF计算公式:(引入了标签和URL) (1) 式(1)中w_hashtagi,j 表示分词后词wi在微博标签中出现的次数,w_urli,j 表示分词后词wi在微博dj中的url所对应的标题中出现的次数,w_posi,j表示分词后的词wi在微博除标签和url对应标题外的文本中出现的次数,分别为词在标签中和词在url链接中出现词汇wi的加权值,试验中,分别设为2。2.IDF计算公式 (2) 式(2)中N表示个人微博中所有的微博数,n表示个人微博中包含词wi的微博数,1是为了避免lg值出现0值时而设定的一个常量。,二、课题的设计与实现,2.3改进的TF-IDF,3.词的长度对TF-IDF的影响 (3) 其中len(wi)表示词的长度,f(len(wi)表示词长的权重,加1主要是为避免出现负数或0添加的平滑因子4.信息熵的概念 (4) 若一个个人用户发了n条微博(d1,d2,d3, ,dn)每条微博当中包含词wi的概率分布为p(m1/M,m2/M,.mn/M)其中M表示词wi在所有微博中出现的次数,mi表示词wi在每条微博中出现的次数。我们把H(p)作为词wi在整个微博中的分布熵。 H(p)越大则表示词wi在每个微博当中分布越均匀,那么这个词成为关键词的概率就越大,H(p)越小那么词wi在不同微博中分布中出现的次数不均匀,那么成为关键词的概率就越小。,二、课题的设计与实现,2.3改进的TF-IDF,5.TF-IDF计算公式 : (5),二、课题的设计与实现,2.4提取关键词,定义1 : 普通文本关键词:表示为每条微博中普通文本的TF-IDF权重大于这条微博中所有词的平均TF-IDF值定义2: 标签关键词:表示每条微博中标签经过分词去停用词后所剩余的所有词(因为标签一般都很短,所以把标签对应的所有词作为关键词)定义 3 : Url关键词:表示每条微博的url所对应标题经过预处理后剩余的所有词(因为标签一般都很短,所以把标签对应的所有词作为关键词),二、课题的设计与实现,2.5相似度计算,1.标签相似度 对文本中提取的标签进行相似度的计算,把提取出来的标签进行分词后得到词的序列,因为标签一般都比较短 其中 hashtag(di)hashtag(dj) 表示微博di中的标签和微博dj中的标签有相同词的个数, hashtag(di)hashtag(dj) 表示微博di中的标签和微博dj中标签中词的总数和,如果两条微博当中都没有hashtag那么我们把标签相似度设为0。,二、课题的设计与实现,2.5相似度计算,2.Url对应的标题相似度 其中 url(di)url(dj) 表示微博di中url所对应的标题和微博dj中url所对应的标题所含共同词的个数,url(di)url(dj) 表示微博di中url所对应的标题和微博dj中url所对应的标题所含词的总数和,如果两条微博都不含url那么我们把url对应的标题相似度设为0。,二、课题的设计与实现,2.5相似度计算,3.文本相似度 文本相似度用微博di和dj中tf-idf的较高的值提取出关键字,用di和dj中的关键字进行余弦相似度的计算,计算公式如下:4.综合相似度 实验当中的=0.4;=0.3; =0.3,二、课题的设计与实现,2.6聚类算法,聚类算法流程图:,二、课题的设计与实现,2.6聚类算法,在聚类中k-means算法对于微博聚类有一下两点缺点:1.聚类算法的中心点选择对聚类的结果会产生很大的影响2.常规的聚类算法没有考虑到微博时间的特征,因为两条微博时间跨度越大,那么这两条微博成为一个事件的概率就越小,二、课题的设计与实现,2.6聚类算法,中心点选择原则1.统计微博在每个时间组内所有关键词的词频2.在每个实践组内,包含更多的关键词词频高的微博做为首要的中心点选择,二、课题的设计与实现,2.6聚类算法,1.我们把所有的一个人的微博按照发表时间的顺序进行分组分为(T1,T2,T3,.Tn)2.对每个组中各自选择中心点运用综合相似度公式进行K-means聚类3.每个组聚类完成后进行逐渐合并,同时在合并的同时加入时间的因素判断,当两条微博的发表时间差大于一个阈值时,我们不把这两条微博合并成一个类簇,当两条微博的发表时间在一个阈值范围内,执行K-means聚类算法。4.直到合并所有分组完成得出聚类结果,目录,二、课题的设计与实现,三、试验测试与结果分析,一、课题背景介绍,四、中期工作总结与计划,三、试验测试与结果分析,3.1实验数据,本文数据集通过新浪微博第三方软件爬虫的数据:其中包括李开复、杨毅、冯小刚、潘石屹等人的微博实验环境:CPUInter(R)Core(TM)2 (2.93GHz),操作系统为64位的Win7,实验工具为Visual Studio 2010,数据库为MYSQL Server 5.1。,三、试验测试与结果分析,3.2TF-IDF改进前后的实验比对,从自己微博中随机挑选出几条微博进行关键词统计,统计结果与人工统计结果比对:,三、试验测试与结果分析,3.2TF-IDF改进前后的实验比对,三、试验测试与结果分析,3.2TF-IDF改进前后的实验比对,查全率=改进前或后TF-IDF提取关键词与人工标注关键词相同的个数/人工标注的总个数查准率=改进前或后TF-IDF提取关键词与人工标注关键词相同的个数/改进前或后TF-IDF提取关键词的个数,目录,二、课题的设计与实现,三、试验测试与结果分析,一、课题背景介绍,四、中期工作总结与计划,四、中期工作总结与计划,4.1已完成的工作,数据提取数据预
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 某著名企业上海浦东空港物流园区战略定位及业务模式分析咨询项目Presentation02
- 工业废水处理与河道水质改善关系研究
- 工业安全与智能制造的融合探讨
- 工业机器人与自动化流水线技术
- 工业污染防治中的大数据分析方法
- 工业废水处理的新技术与趋势
- 工业物联网技术解析
- 工业污染防治的先进技术
- 工业生产中的环保优化策略探讨
- 工业节能减排技术与措施
- 2024年湖北省中考地理生物试卷(含答案)
- 2024年甘肃省天水市中考生物·地理试题卷(含答案)
- 化工工艺学理论知识考核题库与答案
- 《民法典》合同编实务培训课件
- 强风雷电暴雨应急预案
- 静脉输液课件PPT
- 统一的企业文化建设实施策划方案
- 伦敦铜期权及实际操作-精选课件
- 贵州省黔东南州2021-2022 学年七年级下学期期末文化水平测试 数学试卷 (含答案)
- 2025年退役士兵转业军人文化考试试题题库答案
- 超星尔雅学习通 数学大观(北京航空航天大学) 章节测试含答案
评论
0/150
提交评论