已阅读5页,还剩1页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1/6一种分层机制的网络新闻话题融合方法一种分层机制的网络新闻话题融合方法1引言随着网络技术的不断发展,互联网已经成为一种新的新闻媒体传播媒介。相比其它新闻类别,网络新闻具有更新速度快,信息量大,交互性强等优点。因此以新闻网页为对象的数据挖掘技术成为近年来工业界和学术界共同的研究热点。网络上的新闻大多分布比较杂乱,寻找准确的新闻内容显得十分困难。因此,一种高效、准确的新闻话题自动聚类融合方法是很必要的。然而,传统的方法只是将话题表示为一个统一的单层模型,利用特征融合等方法进行聚类。传统方法比较简单便捷,只是对新闻整体进行了简单地聚类融合,没有考虑话题的层级结构,容易忽略子话题的细节特征,影响话题融合的准确性,造成话题融合结果的偏斜。因此,需要一种新的新闻话题聚类融合方法,对新闻正文实现基于分层机制的融合,提高新闻聚类的准确度。目前对新闻话题的分层机制研究主要采用两种策略基于关键词的方法和基于时间信息的方法。张阔等1采用基于关键词的策略,提出以词元单位为基础的话题内事件检测方法,以事件的形式体现子话题。仲兆满等2则考虑2/6了文本中的时间信息特征,通过获取新闻报道的发布时间对新闻进行排序,进而对相同时间段内的新闻进行话题聚类,实现话题分层。文献3对搜索引擎返回的话题相关文档进行子话题本文由论文联盟HTTP/收集整理划分,结合了两种子话题聚类方法。基于关键词的划分方法中,首先计算关键词的权重,然后根据关键词进行分类,但是并没有分析子话题的内容特征。在基于时间信息的划分方法中,简单地将同一时间点的子话题片段进行合并,并没有考虑同一时间点可能出现多个子话题的情况。基于话题层级的话题聚类对于话题演化研究具有重要意义,其中,MAKKONEN4提出在话题演化挖掘过程中通过分析名词实体来测量话题之间的相似度,文献56则讨论了对于不同话题层级结构的新闻文档进行话题演化追踪的相关工作。而洪宇等7将新闻报道划分为不同的层级结构,根据相关子话题的比例和分布建立新话题的检测模型,实现对新事件的识别。与已有工作相比,本文的主要贡献在于提出了面向不同新闻结构类型的网络新闻话题层级关系构建方法,有效识别话题的层级关系,对普通网络新闻具有较强的普适性。提出了基于分层机制的网络新闻话题聚类算法,根据话题层级关系结合时间信息,实现子话题的同级聚类,有效提高话题融合算法的准确性。3/6新闻话题层级关系构建总的来说,网络新闻根据报道格式可以分为两类含有子标题的显式层级新闻和不含有子标题的隐式层级新闻。针对显式层级新闻,新闻正文中的标题与子标题体现了新闻话题的层级关系,如图1所示,方框中的加粗文字作为新闻的子标题表达了整篇新闻局部篇章的内容,因此,我们可以直接利用这些子标题作为话题层级结构的子话题进行子话题的融合。对于隐式层级新闻,我们通过提取段落的关键词构建TEXTTILING模型8来建立层次结构。TEXTTILING方法主要应用于新闻报道中文章段落划分。HEARST8的研究表明,在一篇新闻报道中,通常是相邻的若干句子表达同一个子主题,这些表达同一子主题的句子中相邻两句的相似度都比较高,而子话题有转折的两个相邻句子的相似度相对会有大幅度下降,TEXTTILING方法将表达同一个子话题的句子划分为同一段落。这种方法具有普遍的适用性,其关键在于爬取新闻网页的时候新闻的段落层次能够区分出来进行数据处理。此外,针对每一篇新闻文档,我们还将其标题抽取出来作为一个单独的话题层次,因为新闻的标题是整篇新闻的核心总结,通常我们可以通过新闻标题了解到新闻将要讲述些什么。因此,新闻的标题作为一个单独的话题层次是4/6可行的,对于后期的实验结果评测也是一个可参考的参照指标。基于层级关系的话题融合根据新闻文档的话题层级关系,进行同级子话题的话题聚类,保留了子话题中表达内容的差异性,能有效提高新闻话题融合的准确性。因此,我们将通过建立话题融合模型,采用自下而上的聚类模式实现网络新闻话题的融合。话题融合模型传统的话题融合方法只是将话题表示为一个统一的单层模型,利用特征融合等方法进行聚类。这种方法使得许多细节性的问题被大而化之,或者丢失了子话题的差异性,对于话题关系复杂的网络新闻不具适用性。而话题的层级表示模型是把整篇网络新闻看成一个整体,通过构建话题层级关系建立一个自下而上的多层结构。基于层级模型的话题融合能够很好地体现网络新闻的层级特征,通过进行子话题的相似度计算比较,可以判断新闻文档的相似度。这样的网络新闻话题融合方式可以极大程度地避免新闻子话题内容差异大却被聚类融合的情况。基于层级关系的话题融合模型如图3所示。3话题融合方法新闻文档进行融合过程中需要首先构建特征模型,5/6本文我们采用向量空间模型来表示新闻文档。向量空间模型把对文本内容的处理简化为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度,直观易懂。当文档被表示为文档空间的向量,就可以通过计算向量之间的相似性来度量文档间的相似性。网络新闻话题的层级融合指的是对网络新闻构建层次结构的子话题,通过子话题之间的融合结果判断整个新闻是否可以进行融合。层次结构的子话题融合对每一层的子话题都要做相似度的计算,然后对每一层子话题的相似度数据值进行处理,根据处理后的结果来判断新闻是否可以进行话题的融合。基于话题层级关系的话题融合方法主要分为四个阶段第一阶段根据新闻话题的结构特征,抽取各个层级话题的话题时间5,计算两篇新闻文档各个层级话题的时间相似度TR,当TR大于设定的时间相似判定阈值,则TR为TRUE,否则为FALSE;第二阶段基于话题内容计算新闻文档子话题相似度SR,设定话题相似判定阈值,当有过半的子话题相似度大于阈值则令SR为TRUE,否则为FALSE;第三阶段计算子话题融合参数TRSR,如果为TRUE,则判定两个子话题相关,可以归并为一个话6/6题;第四阶段对总的新闻文本相似度设定一个阈值,利用每层子话题的相似度数据值进行计算,利用简单的算术平均求得在整个文档级的话题相似度,判断该数值与阈值的大小,最终判定两篇新闻文档是否可以归并为一个话题。在具体的算法中,获取每层子话题相似度数值是通过遍历子话题进行相似度比较的方式。正是由于层次结构的子话题融合方法在数据处理方式上具有多样性和丰富性的优势,所以层级模式的话题融合相对于传统的话题融合方式更能体现话题层级关系以及不同层级话题中的差异性。实验结果与分析为了评测本文
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2023年扬州市直机关遴选公务员考试真题汇编含答案解析(夺冠)
- 2023年益阳市直遴选考试真题汇编带答案解析
- 医药销售代表客户开发与合规管理
- 2025年合肥市五十中学西校教育集团招聘教师1名考试模拟卷及答案解析(夺冠)
- 大数据分析师机器学习实践指南
- 2025东营市科达小学招聘劳务派遣数学教师笔试备考题库及答案解析(夺冠)
- 2023年抚州市直遴选笔试真题汇编附答案解析(夺冠)
- 2025云南卫通航空服务有限公司招聘1人备考题库及答案解析(夺冠)
- 2023年张家口市直遴选考试真题汇编含答案解析(夺冠)
- 2023年益阳市税务系统遴选笔试真题汇编及答案解析(夺冠)
- JJF 1221-2025汽车排气污染物检测用底盘测功机校准规范
- 冬季检修安全教育培训课件
- 企业资金流管理报表模板
- 化学工程师职业概述
- 海事执法协查管理办法
- 老龄家居改造设计与适老化标准分析报告
- 2026年中考语文一轮复习作文指导:《横线式结构》课件
- 2025年陆上石油天然气开采安全管理人员安全生产操作证考试题库含答案
- 检验检测机构授权签字人考核试题及答案
- 青少年体质报告模板
- 《急性呼吸窘迫综合征精准分型诊治专家共识》解读课件
评论
0/150
提交评论