




已阅读5页,还剩15页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2012 年合肥工业大学数学建模竞赛论文年合肥工业大学数学建模竞赛论文 赛题编号 赛题编号 B 微博主影响力分析微博主影响力分析 参赛队号 参赛队号 第第 18 队队 参赛队员 参赛队员 单国厚 管理学院 电子商务单国厚 管理学院 电子商务 10 1 20105564 董磊 计算机学院 电子信息工程董磊 计算机学院 电子信息工程 10 1 20105558 方刚 管理学院 电子商务方刚 管理学院 电子商务 10 1 20105567 20122012 年年 0606 月月 2020 日日 1 论文题目 论文题目 微博主影响力分析微博主影响力分析 摘要 摘要 微博作为近几年新兴的一种网络应用形式 在诞生不久就以强大的影响力和迅速 攀升的用户数量引发了一场 微革命 目前 微博已经成为国内外社交网络中的主 流社交工具 对它的研究已成为一种新的趋势 许多专家学者从心理学 传播学 数 学和计算机等角度研究它 并深度把握微博的定义 功能 特性的基础上 建立了关 于微博客使用动机与行为的假设模型 而对微博主影响力的分析 目前还未有成熟的 模型和理论 因而对微博主影响力建立科学合理的模型并进行分析十分必要 结合对网上 100 位微博用户的有效统计数据 从两个方向对微博主影响力与各因 素之间的关系建立数学模型 模型一 利用逐步回归分析法确定微博主影响力的主要影响因素 进而用最小二乘 法拟合出微博主影响力与主要影响因素关系 同时分别对影响因素进行移入移出对模 型加以改进 综合以上结论建立出模型一 分析找出主要影响因素后 加入主要影响 因素的高次方来进一步模拟 并对模型进行进一步该改进 优化 使主要影响的相互 关系更能反应对微博主影响力的影响 并进行稳定性分析和灵敏度分析 模型二 首先利用多元线性回归模型确定微博主影响力与各因素之间的线性关系 然后加入考虑各因素之间的相互影响因素并进行残差分析 对模型进行改进 优化 再利用得到的模型去除数据中不合理的一些数据 再对模型进行进一步改进 优化 直至模型比较合理科学的分析出微博主影响力与各因素之间的关系 并进行稳定性分 析和灵敏度分析 关键词关键词 微博主影响力 逐步回归 多元线性回归 残差分析 2 目录目录 1 问题重述 3 2 模型假设 3 3 符号说明 3 4 问题分析 4 5 模型建立 4 模型一 4 模型二 8 6 模型的评价 10 6 1 模型优点 10 6 2 模型的缺陷 10 6 3 模型的改进 11 7 稳定性分析和灵敏度分析 12 对模型一分析 12 对模型二分析 12 8 参考文献 13 9 附录 14 10 相关程序 16 图 1 程序 16 图 2 程序 16 图 3 程序 16 表一程序 17 表二程序 17 相关系数表的程序 17 表三程序 18 3 1 问题重述问题重述 微博客作为近几年新兴的一种网络应用形式 在诞生不久就以强大的影响力和迅 速攀升的用户数量引发了一场 微革命 目前 微博已经成为国内外社交网络中的主 流社交工具 对它的研究已成为一种新的趋势 许多专家学者从心理学 传播学 数 学和计算机等角度研究它 并深度把握微博的定义 功能 特性的基础上 建立了关 于微博客使用动机与行为的假设模型 而对微博主影响力的分析 目前还未有成熟的 模型和理论 试完成以下问题 1 请根据表格中 见附录 的数据和对应的影响力构建一个数学模型 分析各因素 与影响力之间的关系 并进行稳定性分析和灵敏度分析 2 表格中 见附录 的影响力数据有个别不符合常理 请分析并把它们找出来 并 重新构建一个较为合适的模型进行影响力分析 同样进行稳定性分析和灵敏度分析 2 模型假设模型假设 1 这里面的转发和评论量是在固定的分析微博和统一时段 这里为两周 下统计的 假设数据统计科学合理 2 建立模型时着重讨论各主要因素忽略次要因素 3 变量 i 1 2 3 7 之间由于各种原因也存在着某种关系 这里不能忽略它们之间 i x 的相关分析 4 假设认证中 0 代表未认证 1 代表已认证 3 符号说明符号说明 1 分别代表认证 关注 粉丝 所发微博数量 分析微博 一定时1234567x x x x x x x 间微博 两周内 的转发数 评论数 2 微博主影响力 y 3 Stepwise 表示 Matlab 统计工具箱中逐步回归命令 R RMSE 表示剩余标准差 2 F 表示统计量 分别是 的平均值 Y 3 X 6 XY 3 X 6 X 4 4 问题分析问题分析 目前所拥有的数据是 100 位微博用户的对微博主影响力产生影响的基本微博信息和 在两周时间内一定微博数量的转发 评论次数 以这些数据来分析各因素与微博主的 微博影响力之间的关系 由于样本容量较少 而影响变量过多 考虑到直接进行多元回归分析建立模型 而 直接建立模型可能存在伪回归的风险 所以采取解决的方法是通过逐步回归法确定最 终的有效影响因素 并进行必要的自相关性诊断预处理分析做出改进 最后得到相应 的数学模型 逐步回归的基本思路是先确定一个包含若干个自变量的初始集合 然后每次从几何 外的变量中引入一个对因变量影响最大的 再对集合中的变量进行检验 从变得不显 著的变量中移出一个影响最小的 依次进行 直到不能引入和移出为止 引入和移出 都以给定的显著性水平为标准 因变量的变化往往受几个重要因素的影响 此时就需要用两个或两个以上的影响 因素作为自变量来解释因变量的变化 这就是多元回归亦称多重回归 当多个自变量 与因变量之间是线性关系时 所进行的回归分析就是多元 线性回归 此题中我们使 用了多元线性回归模型来建立微博主影响力与各因素的关系 模型 并使用残差分析 法等来对模型进行改进 优化 用得到的模型对实际的参数进行检验去除那些不合 理的数据 并对模型进行进一步优化 使之更加的科学合理反应客观实际 5 模型建立模型建立 模型一 模型一 1 模型的初步建立 1 将各影响因素认证 关注 粉丝 所发微博数量 分析微博 一定时间微博 两 周内 的转发数 评论数排成 7 列 同时微博主影响力 yx 1 x 2 x 3 x 4 x 5 x 6 x 7 x 也排成一列 见下表 认证关注粉丝微博 分析微 博转发评论影响力 001053721123100141060125307580 1413404938299510036974394936186 5 187543719821002646275948864 069537846452161003935841326280 09568656427440311008656139828099 076116965826061005188538733384 0142137833810801002547730621875 018973399418741003262928333579 0273527951281003105427909769 03270892106962592227819167 01129936042424324226057373 02728891592932984324927668 01996116837211003017922601681 045202927993111002599221971687 114257822518009113506221933082 142932470417381006277021860277 04833232134216101001963621540390 01288365811971002456620726766 116319079016841004872620390774 033878168541002564619840773 04225416826931001878719539772 0542595095151801002503419469488 025621975731002713319467974 1199363827220561004326219048673 014977968813081001408918903776 01324979381001956018540174 03912937194789100813418177080 011953156686152351004194818111089 073844008871001307017892672 083931342029331001765917864074 0281594452081001741317410865 0257303412401002581516839575 07991791134351002104816499679 019283925942187731002834816429090 1911719758510011655216309261 0163942693929561003938716094276 01661256844141901001786115974484 07221544625641001225115952267 001958364841001143515920566 15915372372100547915664352 0131932624185681001241515533482 0951500337871001161115442467 153851892731291003158615385979 012746334423881001421615314966 01831781521128351001415258281 1627621501749341002561715189191 6 087598708223661001499315057478 13905147142602100976515008178 0447315792101001976314955278 096174972168931001240914881683 123437583419591001171114753776 015445115734536100874614743177 03323702816362100175614481476 02441481845031001394914474166 05244502917448741001805614455892 09234349998291571001725914347590 081115328721571001535814030478 055148412277921001641813923283 09375046970870711001653613863092 0482039024118631002446013860985 085063555291002277213828772 071635138117221002241613755273 0199131222659271007798013728783 033966946931001967013604771 124782214432391001568713558080 02473795334331001877413518377 0745040152414100910313410074 1971888793252310025522413266087 0424355157146151001135813197277 002966892141001051812979667 03991506884191002074412917581 02252626691109181001446112842785 0405575276251004435312832573 09386348710100825312756763 05449808443361001753112716675 0132124837863721001526312477981 01025607903348100802712476576 0697250497100976512431963 11092083841122151002178112354087 01251810571215041002093612322285 0066775460100752412278360 0403464612087100874811971072 017466241571596100979711776774 0297100067157291001964611726979 0124158858629611001979311376579 00107326234100517411276361 013111784894450100982011063679 06743495960278131001861810982689 192114523991003024910935655 0369113908119100920010740860 7 13938389722053100581110647679 1566104212815671002184610628178 05143438218100867910567862 14542511197100769710527763 190890085318810010142110473470 03833768490421361001346410456890 0392394339365051001405110396987 044977932108951001446010363180 01329715856871100825110321479 01256897574156100928010246776 用 Matlab 工具箱中的 stepwise 命令 将变量按顺序一一移入移出 观察得到 当 对进行处理时 R 最大 同时 F 值也表现明显 如图 1 36 x x 2 图 1 这些现象表明 仅含的模型是合适的 的回归系数分别是 6 82323 36 x x 36 x x 3 b 1 47209 值得注意的是 stepwise 命令并未给出回归模型的常数项 计算如下 6 b 0b0b 得 7460200 9703649 0b Y 3 b 3 X 6 b 6 X 8 利用逐步回归最终得到的模型为 Y 6 82323 1 47209 7460200 9703649 3 X 6 X 在最终模型里回归变量有 此时是一个简单易用的模型 3 X 6 X 模型二 模型二 微博影响力 Y 与认证 关注 粉丝 微博 分析微博 转发 1X2X 3X 4X 5X6X 评论之间的多元线性回归模型为 7X 36 012457 1 2 3 4 5 6 7 a aaaaaaacYXXXXXXX 其中 i 0 1 2 3 4 5 6 7 是待估计的回归系数 c 是随机误差 ia 利用 matlab 的统计工具箱可以得到回归系数及置信区间 经验统计量的结果如下 参数参数估计值置信区间 0 a69 946513973218529 50 858082594724152 89 034945351712906 1 a 2 328698213977997 5 444126643780052 0 786730215824057 2 a0 000490813319250 0 001951734432390 0 002933361070889 3a0 000004155872336 0 000002972814993 0 000005338929680 4 a0 000080010967097 0 000056462058449 0 000216483992643 5 a0 005834496848658 0 186023632654524 0 197692626351840 6a0 000042061936556 0 000010934730662 0 000073189142450 7 a 0 000001152087105 0 000009948929738 0 000007644755527 R2 0 634005616413659 F 22 767139655650112 P 0 表 1 模型 2 1 计算的回归系数 可以看出这一模型的拟合效果并不是很好 参量的置信区间也又包含零点 说明 关于对应变量的拟合不合理 应删去 同时由 Y 与各变量的相关系数 见下图 可知 应引入交互项 x3 x4 x6 x7 相关系数如下 1 0000 0 0636 0 1006 0 1478 0 0281 0 3806 0 1009 0 1015 0 0636 1 0000 0 2358 0 2797 0 0877 0 0007 0 0293 0 2077 0 1006 0 2358 1 0000 0 7387 0 0712 0 0421 0 0058 0 7685 0 1478 0 2797 0 7387 1 0000 0 0750 0 0533 0 0773 0 6115 0 0281 0 0877 0 0712 0 0750 1 0000 0 0579 0 0575 0 0466 0 3806 0 0007 0 0421 0 0533 0 0579 1 0000 0 5702 0 1964 9 0 1009 0 0293 0 0058 0 0773 0 0575 0 5702 1 0000 0 0846 0 1015 0 2077 0 7685 0 6115 0 0466 0 1964 0 0846 1 0000 通过对上表相关系数的分析 在删除了一些影响因素之后 对结果不会有很大影 响 则改进后的模型的模拟结果如下表 参数参数估计值置信区间 0 a68 130453839972063 66 696159065447674 69 564748614496452 1 a 0 000006029639126 0 000004929304215 0 000007129974036 2 a0 000554395435068 0 000373573549267 0 000735217320868 3a 0 000000000130953 0 000000000170412 0 000000000091494 4 a 0 000000000042242 0 000000000018214 0 000000000066269 R2 0 738809293456372 F 67 179728374668755 P 0 表 2 模型 2 2 计算的回归系数 可见模型 2 2 较模型 2 1 有了很大的改进 但 R2 不是很接近 1 这也影响 了模型 2 2 的拟合效果 进一步由残差图可看出有些数据明显低于或高于模型的估 计值 也明显与与其他相似数据不符 这可能是有未知原因造成的 为了使个别数据 不至于影响整个模型 应将这些数据去掉 对模型 2 重新估计回归系数得到结果如表 3 残差分析图见下图 10 图 3 图 4 参数参数估计值置信区间 0 a70 280574398298072 69 404230203061417 71 156918593534726 1 a0 000005568966276 0 000004887295209 0 000006250637344 2 a0 000467172365308 0 000371410261398 0 000562934469219 3a 0 000000000111373 0 000000000131907 0 000000000090840 4 a0 000000000032192 0 000000000021638 0 000000000042747 R2 0 9205341692199 F 179 5523872692291 P 0 表 3 模型 2 去掉异常数据后的回归系数 由上表可见 去掉异常数据后 结果得到很大改善 模型中关系为 Y 70 280574398298072 0 000005568966276 0 000467172365308 3X4X 0 000000000111373 0 0000000000321923X 4X4X 6X 6 模型的评价模型的评价 6 1 模型优点 模型优点 本文基本假设合理 理论可靠 数学推理严谨 模型结构简单 清晰 主要 运用数学推理和数学建模中相关方法 1 对于模型 运用了建模方法中的逐步回归分析 优点是恰当地对各个影响I 11 因素进行逐步分析 去掉对结果影响小的 最终保留下主要的影响因素 然后对它们 进行回归分析 反复调试 直至找出微博主影响力与影响因素的关系方程 2 对于模型 运用了建模方法中的多元线性回归分析 优点是可以分析微博 II 主和各个影响因素之间的关系 再利用残差分析法和分析真实值和实验值之间的差距 利用合理的影响因素来去除一些不合理的数据 从而使模型得到优化 最终找出微博 主影响力和各影响因素之间的关系 6 2 模型的缺陷 模型的缺陷 1 对于模型一 缺点是考虑到样本数据的准确性 以及数据容量有限 对建立 的数学模型会产生负面影响 考虑到一元多项式函数的图像规律 随时间发展 最终 会出现结果向特定方向的延伸 与现实社会发展状况不一致 所以应该考虑到在建立 的数学模型中引入周期函数最终使微博影响力的规模在一定的上下限波动 形成 衰 减波 当然由于样本数据小 也可能会产生误差 2 对于模型二 由于样本数据小 可能会产生误差 6 3 模型的改进模型的改进 1 对于模型一 继续分析 因为目前已经得到 为主要影响因素 所以再引入平方项 3 X 6 X 3 X 平方项 即 时 如图 2 6 Xx 1 x 2 x 3 x 3 x 4 x 5 x 6 x 6 x 7 x 12 图 2 比较图 1 发现组合和比组合 和的 RMUSE 剩余标准差 数值较高 3 X 6 X3X 2 3 X 6 X 较低 效果较好 故采用 和 则改进得模型如下 2 R3X 2 3 X 6 X 的回归系数分别是 14 5582 8 46931 1 70407 值得注意3X 2 3 X 6 X 3 b4b7b 的是 stepwise 命令并未给出回归模型的常数项 b0 b0 计算如下 得 b0 10001701018098 3554673Y 3 b 3 X 4b 2 3 X7b 6 X 利用逐步回归最终得到的模型为 Y 14 5582 8 46931 1 70407 10001701018098 3554673 3 X 2 3 X 6 X 7 稳定性分析和灵敏度分析稳定性分析和灵敏度分析 对模型一分析 对模型一分析 最终模型数学关系为 Y 14 5582 8 46931 1 70407 10001701018098 3554673 3 X 2 3 X 6 X 令模型中即粉丝的二次方的系数为 a 8 46931 则 2 3 X Y 14 5582 a 1 70407 10001701018098 3554673 3 X 2 3 X 6 X 令 Y 对的导数为为零 即14 5582 2a 0 即 3 X 3 dy dx 3 X 3 X 14 5582 2a 关于 a 的图像如下 3 X 如上图可以看出关于 a 的灵敏度 3 X 13 稳健性 我们的模型建立在线性结构的基础之上 这显然只是一种近似 但在实 际应用中 我们按如下过程分析稳健性 首先对微博主影响力作出有根据的预测 然 后根据过去类似情况下 如相同时间相同分析微博同一个人 的经验 判断微博主影 响力 对于非线性模型在一个相当小的区域内亦可进行线性预测 这类近似通常都有 稳健性 对模型二分析 对模型二分析 模型二最终模型为 Y 70 280574398298072 0 000005568966276 0 000467172365308 3X4X 0 000000000111373 0 0000000000321923X 4X4X 6X 因为 0 000005568966276 0 000467172365308 则即微博对微博主的影响 3 dY dx4 dY dx 4X 力比粉丝对微博主影响更灵敏 稳健性分析 我们的模型建立在线性结构的基础之上 这显然只是一种近似 但 在实际应用中 我们按如下过程分析稳健性 首先对微博主影响力作出有根据的预测 然后根据过去类似情况下 如相同时间相同分析微博同一个人 的经验 判断微博主 影响力 对于非线性模型在一个相当小的区域内亦可进行线性预测 这类近似通常都 有稳健性 8 参考文献参考文献 1 王弘张 玩转微博 个人 企业 政府微博实用指南 机械工业出版社 2012 2 微博影响力因素分析 哪些因素起决定作用 相关网址 2012 6 26 3 李开复 微博 改变一切 上海财经出版社 2011 4 姜启源 谢金星 叶俊 数学模型 第三版 M 北京 高等教育出版社 2003 294 322 5 张德丰 丁伟雄 雷晓平 程序设计与综合应用 清华大学出版社 2012 324 346 6 张贻民 梁明 数学建模的几种基本预测方法的探讨 J 茂名学院学报 2010 12 5 32 36 7 matlab 论坛里面的相关算法 网址 14 2012 6 26 8 matlab 电子期刊第三期 2010 1 32 9 Stephen J Chapman 著 MATLAB 编程 科学出版社 2003 9 附录附录 15 16 10 相关程序相关程序 图图 1 程序 程序 clc clear x1 importdata x1 txt x2 importdata x2 txt x3 importdata x3 txt x4 importdata x4 txt x5 importdata x5 txt x6 importdata x6 txt x7 importdata x7 txt y importdata y txt x x1 x2 x3 x4 x5 x6 x7 stepwise x y 图图 2 程序 程序 x1 importdata x1 txt 17 x2 importdata x2 txt x3 importdata x3 txt x4 importdata x4 txt x5 importdata x5 txt x6 importdata x6 txt x7 importdata x7 txt y importdata y txt x x1 x2 x3 x3 2 x4 x5 x6 x6 2 x7 stepwise x y 图图 3 程序 程序 x ones 100 1 x3 x4 x3 x4 x6 x7 format long b bint
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 金融机构财务风险评估与风险管理顾问协议
- 生态旅游区场地合作开发合同
- 境外旅游团队领队服务合同模板
- 长途运输车辆事故赔偿及保险理赔协议
- 物流终止合作协议书范本
- 医疗授权协议书范本
- 外资企业代理记账与外汇管理合同
- 地铁隧道工程安装施工安全责任协议
- 农业生产基地场地租赁保证金及农产品质量安全合同
- 企业办公楼场地租赁及物业服务委托协议
- 尺桡骨骨折临床路径表单
- 2024年烟台蓝天投资发展集团有限公司招聘笔试冲刺题(带答案解析)
- 手术室标本丢失的应急预案
- SYT 6587-2021 电子式井斜仪校准方法-PDF解密
- 2024年浙江绍兴市高速公路运营管理有限公司招聘笔试参考题库含答案解析
- 急性脑血管病的护理查房
- 外墙吊篮安全专项施工方案
- 思维可视化工具在英语教学中的应用探究 论文
- GMP清洁验证课件
- 养老护理员四级理论试题及答案
- 脊柱内镜技术
评论
0/150
提交评论