改进的支持向量机在微博热点话题预测中的应用_第1页
改进的支持向量机在微博热点话题预测中的应用_第2页
改进的支持向量机在微博热点话题预测中的应用_第3页
改进的支持向量机在微博热点话题预测中的应用_第4页
改进的支持向量机在微博热点话题预测中的应用_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

-精选财经经济类资料- -最新财经经济资料-感谢阅读- 1 改进的支持向量机在微博热点话题 预测中的应用 摘要为了提高微博舆情的预 测精度,针对不同单一核函数的局限, 用线性拟合确定两种核函数的权重提出 改进的支持向量机模型。首先利用马尔 科夫模型矩阵的稀疏程度提取影响因子 指标,得到微博传播的增减趋势;然后 用改进的支持向量机对实时数据按照 41 的比例划分测试集和训练集,进行 实时预测与警示。实验结果表明:应用 马尔科夫模型进行微博舆情的主成分提 取效果较佳,改进的支持向量机构造了 新的组合核函数,比传统的预判效果更 佳。 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 2 中国论文网 /4/view-12890252.htm 关键词马尔科夫模型;组合 支持向量机;微博;舆情;热点话题; 预测 DOI:10.3969/j.issn.1008- 0821.2017.03.009 中图分类号G206文献标识 码A文章编号1008-0821(2017) 03-0046-06 AbstractIn order to improve the prediction accuracy of Microblog public opinion and make up for performance deficiency of single kernel function,the weight coefficients of two kernel functions have been calculated by linear fitting.The Markov matrix was used to determine the weights of the impact factors and the trend of Microblog public opinion.Improved support vector machine was used to divide real time data into training set and test set according to the -精选财经经济类资料- -最新财经经济资料-感谢阅读- 3 proportion of 41.Experiment showed that the features which affected micro blogging publica opinion,had been mined better by using Markov model;Optimized SVM model constructed a new combined kernel function,and the forecasting results were better. Key wordsMarkov model;combination support vector machine;microblog ;public opinion;hot topic;prediction 目前我国针对舆情分析指标的研 究有很多,按照功能的完善程度分为告 警和预警。告警模型如李纲等在突发公 共事件大背景下,对突发公共事件、公 共卫生事件、社会安全事件等指标进行 分析,结合信息空间模型分析微博舆情 传播的过程,构建微博舆情监测指标1。 易臣何分析微博舆情的传播特点,在此 基础上研究演化规律2。预警模型如朱 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 4 卫红等采用离散的时间序列和地图定位 做生态画像,根据标签特征进行提取、 分析并提前一定的时间周期告警实现预 警目标3。叶金印等建立了多条预判拟 合函数进行分类和预测,用 MAE 等误 差指标寻优4。 针对微博舆情预测算法的研究, 不同算法有不同的业务场景的优点,例 如局部最优、全局最优等的差别。例如 杜智涛等用灰色预测方法,用微分方程 解法做时间序列回归模型5。张华基于 BP-神经网络算法对其经典模型进行优 化,对输入层与隐含层的矩阵、隐含层 与输出层的矩阵权值的稀疏性处理较好 6。魏德志提出用混沌理论解决非线性 的函数,一改用线性函数进行拟合的前 提假设,并且改进了径向基核函数,使 得神经网络发挥了在具体舆情预测中的 优点以提高数据准确性7。 微博话题的影响因子与权值矩阵 的处理是预测准确度提升的保证。虽然 微博话题的影响因子有很多,但是许多 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 5 学者的研究主要在于确定影响因子之间 内在逻辑,往往难以分离各个指标确定 各自的权重而进行定量分析。也有一些 学者涉及定量的研究,但是用户能获取 到的微博指标权限有限,实际操作无法 进行。因此,本文基于容易获取到的一 些指标,进行两个算法过程的预测与验 证,分别从不同角度预测趋势,得到较 好的预测效果,供舆情部门参考。 1 马尔科夫模型的增减趋势预判 马尔科夫区别于回归模型,在于 将问题看作是离散随机过程,并非连续 函数,且强调下一个时间节点的状态与 上一个无关(即相邻两个时间节点的数 据无法互相影响)8。而这恰恰更适合 预测随机波动大的动态过程,可弥补灰 色预测的局限9。 马科夫模型要求数据具有马 尔科夫链和平稳过程等均值的特点,而 现实生活的预测问题大都是随时间变化 或呈某种变化趋势的非平稳过程。若用 灰色 GM(1,1)模型对满足时间序列 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 6 的数据进行拟合,可用变化趋势弥补马 尔科夫链预测的局限;而在灰色预测的 基础上进行马尔科夫预测,又可弥补灰 色预测对随机波动大的数据预测准确度 低的缺陷。从而得出两种模型结合,能 较准确地预测微博热点话题。 图 1 是从 MySQL 主表界面得到 的随着时间分段不同获取的单位时间内 中文分词的关键词出现的时间段的情况 (其中“Null” 代表空) 。 从 MySQL 里获取的分词数据, 将 3 月上旬的时间划分为 30 个等距时 间间隔,及 8 个小时为 1 个获取时间周 期。以每个时间点检测获取到的关键词 不同作为划分标准,没有出现的地方显 示为“Null”,以选取的 16 条记录为例, 计算每项出现关键词的时间段个数,作 为马尔科夫模型中每种关键词的词频。 2 改进的支持向量机的热点话题 预测 21 算法实现伪代码 Step 1:数据的提取和预处理 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 7 1)将半年微博数据用 Java 提取四列数 据,即:时间节点、点赞数、评论数、 转发数。 2)将原始数据进行归一化 (mapminmax 为 matlab 自带的映射函 数,对点赞数、评论数、转发数进行归 一化处理,公式为:y=(ymax-ymin) *(x-xmin)/(xmax-xmin)+ymin;并 对点赞数、评论数、转发数进行转置, 以符合 libsvm 工具箱数据格式要求。 Step 2:确定核函数的各项参数: 1)写调用函数 kernel(ker,x,y) 。 2)对比各个经典核函数模型的 误差率,确定各自的优缺点。 3)确定怎样分配比例使得组合 模型能实现最佳预测。 Step 3:利用回归预测分析最佳 的参数进行 SVM 网络训练 22 多项式核、高斯核、线性与非 线性核函数的对比使用支持向量机算法 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 8 要从常用的 3 种函数模型中选择最优的 作改进,经过对比分析确定一种核函数 为指标的最佳核函数10-11,目的是将 高维空间的内积运算转化为低维空间的 函数运算。 对核函数的选择,目前没有成熟 完善的指导原则,必须根据各种测试数 据的观察结果来确定12-13。某些问题 用某些核函数效果很好,用另一些很差。 多项式核是典型的全局核函数,相距很 远的点对核函数的值均有影响,不论函 数中的阶数从 15 增加,其周边的数 据点都对多项式核函数的值产生影响; 而高斯核函数是典型的局部核函数,只 有当落在某个宽度之间时才会对核函数 值有影响,只有在一定的范围内取值对 高斯核函数有效。 23 组合核函数的确定 24 结果与分析 241 改进的马尔科夫模型 列举 16 个中文分词得到的关键 词,以及统计的出现时间段次数, -精选财经经济类资料- -最新财经经济资料-感谢阅读- 9 T1T15 表示 15 个等距时间段,表中 数字代表增长速率,使得快速上升 (03)在程序中用“2” 表示;缓慢上升 (0,003) ,用“1”表示;相对不变用“0” 表示;缓慢下降(-003,0)用“-1”表示; 快速下降(-003)用“-2”表示,从而得 到各个关键词在不同时段的相对值 Ai(i=1,2,30) 。 以第一个关键词“ 以后 ”为例, T1T15 这 15 个等距时间段中,取前 14 个等距时间段的增长率参加计算,第 15 个增长率与模型的预测率进行比对, 从而验证模型的准确性。 先算出增长率,使用概率转移矩 阵完成马尔科夫预测。由于微博爆发趋 势受到多重因素的影响,若笼统地采用 拟合计算分析,会使误差率增加;而用 概率矩阵转移,则是根据下一次的爆发 趋势所出现的状态的最大可能概率进行 预测,可靠性高。 Key1: “以后” -精选财经经济类资料- -最新财经经济资料-感谢阅读- 10 1020001020001010200010400011021221 0216710087210236710247211024181021 9810098010243510196911024321022381 0103010248110181811024531022401010 4610248810177311024571022431010501 0249110175911024581022431010521024 92101755 用 1 个关键词为例,可知:列 数表示 5 个状态下对应的概率,行数表 示预测的时段个数,输出数据的每一行 的最大的概率值表示相应时间段最可能 出现的增长状态。下面为关键词 1:“以 后”的算法数值,其中 D1D5 分别表 示“先迅速增长 ”、 ”先缓慢增长”、 “先相对 不变”、 “先缓慢下降”、 “先快速下降”。如 表 3: 如果目前微博热点预测的话题处 于状态 Bi(i=1,2,3,4,5) ,这时 Eij 描述目前状态 Bi 在将来转移状态 Bj( j=1,2,3,4,5)的可能性。按照 最大概率原则,即选 Ei1,Ei2 ,Ei3,Ei4,Ei5中最大者对 应的状态即为预测结果。 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 11 由于通过计算得到的关键词“以 后”的增长率状态为 E3,即相对稳定。 由上面的转移矩阵可知:由一次转移到 5 种状态的概率分别为: E31=0833,E32=02083,E33=06250 ,E 34=00833,E35=0 ,Max=Ei1 ,Ei2,Ei 3,Ei4,Ei5=E33=06250,且 E31、E32、E34、E35 比 E33 对比,均 差距很大。 因此,预测的结果显示:在 T11T30 时间段内的微博热点话题的 热度将继续保持稳定,且增长幅度为 1,将预测结果与实际结果表对比可知: 实际微博继续保持缓慢上升,因预测结 果是准确的。 改进的支持向量机模型综合了两 个经典核函数的优点,对实际数据出现 的稀疏矩阵问题采用核函数映射,归一 化处理后将其映射到0,1区间,解决 误差大造成的预测影响。最后反归一化 回去,得到实际预测数值。 由此可以得出,改进的支持向量 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 12 机模型可以解决局部样本最优问题,得 到的势误差较小,可以代替全局最优 函数用逼近法逼近,逐步减小误差。 242 组合核函数模型 新构造的组合核函数,即加入各 种核函数的权重,构建组合核函数来适 应数据的特点。其近期样本重要性远大 于前期样本,体现最近时间样本点最重 要的原则,增强预测准确度。 由于采集的是点赞数、评论数、 转发数,分别记为 y1、y2、y3,对其一 一进行训练与测试,得到拟合与预测曲 线。表 4 以预测部分的 10 分钟为例: 其中 4058759664-4058760602 是 2016/3/15 15002016/3/15 1510 的 10 分钟数据,Matlab 中调用函数将标 准时间(时间格式)转为时间戳(字符 格式) ,预测数据(蓝色)与真实数据 (黑色)的对比,每分钟获取一次数据, 经过测试寻优,确定训练集与测试集的 比例为 41 时最佳的数据。后面 1/5 的 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 13 数据即为表 4 所示。图 3 中是 50 分钟 的数据,分为 40 分钟实际数据与 10 分 钟预测数据。蓝色实际值的离散点与拟 合、预测红色曲线很接近,走向趋势也 保持一致,表明拟合与预测效果较佳。 其中程序展示最优化正则参数与最优核 参数的检验结果,省略展示 R2、MSE、MAE、MAPE 等误差类的 统计验证,且采用快速留一的交叉验证 方法,不断迭代降低误差。得到组合模 型预测效果较佳。 3 结束语 本研究结合马尔科夫与改进的支 持向量机来构建微博话题预

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论