下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 浅谈数据挖掘 陈俟伶谢鹏摘 要 本文是基于数据挖掘的微信公众号关注趋势分析。数据挖掘技术能够在海量的数据信息中搜寻出更加有价值的信息,實现数据信息的价值。微信公众平台是微信旗下推出进行信息推送与接收的平台,是自媒体时代的产物,依靠着微信这个大平台展示出了良好的传播效果,其传播路径和方式与以前的媒体形式有所不同。利用数据分析工具对这些数据进行可视化展示,对产生的结果进行分析。关键词 大数据时代 数据挖掘 微信公众号:tp311:a0绪论(1)数据挖掘的意义。在这个大数据的时代,每个人都可以被称为是生产者或是传播者,因此很多互联网信息中都带有这
2、关于潜在消费者的信息,通过对这些数据进行挖掘利用,就能够更加清楚的得知这些潜在客户的真实需求。数据挖掘技术具有比较复杂的特征,无论是应用对象还是应用过程,都涉及到大量因素。因为数据挖掘技术的特殊性,所以最终得到的结果也是存在特殊性质的信息。(2)数据挖掘的包含方面。数据挖掘一般包含数据预处理、数据挖掘、后处理这三个方面。预处理的存在是为了提前将一些无用的数据剔除出去,这些“废物”的存在很可能导致数据模型计算的失败,所以说数据预处理是数据挖掘过程中不可缺失的一部分,虽然这部分会占据数据挖掘的大部分时间,但还是值得我们认真去完成。当我们完成数据的预处理后,接下来的数据挖掘和后处理就变得简单很多,只
3、需要将特定的数据放到特定的模型中去计算,将最合适的移交给后处理。1算法介绍1.1数据挖掘的算法1.1.1经典算法在如今的国际上认同的算法有:c2.5算法;apriori算法;pagerank算法;adaboost算法;knn算法;cart算法;svm算法;em算法;k-means算法;naivebayes算法。1.1.2算法举例(1)聚类:k均值(kmeans)、最近邻算法(knn)、期望最大值算法(em)、隐含狄利克雷分布(lda)。(2)分类:支持向量机(svm)、逻辑回归(lr)、梯度下降树(gbdt)、随机森林(rf)、朴素贝叶斯(nb)、深层神经网络(dnn)、卷积神经网络(cnn)
4、、lstm(long short-term memory)。(3)回归:普通最小二乘回归(ols)、梯度下降树(gbdt)。(4)降维:主成分分析(pca)、因子分析(fa)、lda。(5)时间序列:自回归模型(ar)、滑动平均模型(ma)、自回归移动平均模型(arma)。adaboost。adaboost是将不同的几个弱的分类器相互结合在一起成强分类器算法然后来加快算法的速度。pagerank。pagerank的核心最主要的思想是在从一些优质的网页基础上链接过来的网页,所以还是优质网页的回归关系,来判定所有网页的重要性。1.2微信公众号数据的获取1.2.1爬虫抓取数据微信在数据方面来说是一个
5、比较封闭的一个平台,首先从微信的客户端入手,然后通过抓包来进行数据的分析请求,再者使用 fiddler、charles 代理工具来进行抓包分析请求的构造原理,然后 requests 等网络请求的板块来模拟微信向服务器发出请求从而获得响应式数据,接着把抓出来的数据过滤和清洁,最后就可以用 pandas 来进行数据分析然后就可视化展示出来了。1.2.2数据挖掘的流程(1)数据集选择。一般来说数据集就是可获得或者已存在的 (在网上过滤抓取需要的数据或者访问网上的一些资料库和使用软件进行主动收集的数据等)。数据集的选择对数据挖掘起着非常至关重要的作用。(2)数据预处理。在数据集选取了后,接着就可以对数
6、据进行预处理,这样可以让数据可以被我们使用。数据预处理大大的提高了数据的质量。数据清理。首先不看元祖,然后主动填写缺失的值,使用属性的中心度量的填充,给定同一类所有样本的属性均值或中位数填充,最可能的值填充。数据集成。实体识别,冗余和相关分析(卡方检验,相关系数,协方差等,用spss比较方便)。数据归约。维规约(小波变换和主成分分析,最常用),数量规约(较小的数据替代原始数据),数据压缩(有损无损两种,尤其对于图像视频等多媒体常用)。(3)数据分析算法。最经典的莫过于频繁模式挖掘了,对象为事物出现的次数。如著名的啤酒尿布。其中最典型的算法为apriori算法,包括连接和剪枝。其中有置信度,支持
7、度,频繁项集最小置信度阈值等重要概念,到相关分析中还有提升度,全置信度,kulczy和余弦等判断标准和零不变度量考虑。2结论通过对微信公众号推送内容进行数据分析,企业可以编辑与自己企业文化相关的内容发布到微信公众号上,同时也要满足用户的需求,推送用户喜欢的内容,正确认识用户的需求,以恰当的方式展开工作,结合读者的需求为其推送更有价值的文章。同时从根本上提高微信公众号的专业性,以此发挥微信公众号的作用。参考文献1 jiaweihan, michelinkamber, jianpei,et al.数据挖掘:概念与技术(第三版)m.机械工业出版社, 2012.2 胡可云,田凤,董伟峰.数据挖掘理论与应用m.北京:清华大学出版社, 2008.3 王学鸣,黄秋波.微信公众号的现状、类型及发展趋势研究j.无线互联科技,2018(05):60-61.4 李平荣.大数据时代的数据挖掘技术与应用j.重庆三峡学院学报,2014(03): 45-47.5 黄楚
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年浙江国际海运职业技术学院马克思主义基本原理概论期末考试笔试题库
- 2025年兴义民族师范学院马克思主义基本原理概论期末考试真题汇编
- 2025年上海工会管理职业学院马克思主义基本原理概论期末考试笔试题库
- 康吉森ESD培训课件
- 会员体系建设合作协议
- 工业机器人售后维保服务合同
- 2026年增强现实广告推广合同
- 智能家居迭代2026年框架协议
- 固定资产盘点协议2026年
- 养老院个性化服务制度
- 北京市2025-2026学年高二(上)期末物理适应卷C(含答案)
- 2026年黑龙江高职单招考试高考语文试卷试题(含答案)
- 全球隐球菌病指南(2024版):诊断与管理课件
- 市场营销策划实践实习报告范例
- 2026年中央广播电视总台招聘124人备考笔试题库及答案解析
- 担保取消协议书
- 2025国家统计局滨海新区调查队辅助调查员招聘3人备考笔试试题及答案解析
- 星罗棋布的港口课件
- 2025天津市机电工艺技师学院招聘派遣制社会化21人(第二批)考试题库附答案
- 统一顶新食品成品仓库管理的手册
- 2025年洛阳市公安机关招聘辅警501名考试题库附答案
评论
0/150
提交评论