版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
[13]词频TermFrequency(tfij):文档i中词汇j出现的频率。本试验中,某个文档中某词频的计算采用如下公式:tfij=词汇j在文档i中出现的次数/文档的总词数。必须要阐明的是,文档的总词数统计含反复呈现的词汇,例如,本实验中“inSchoolsinAmerica”总词数计为4。文档频率DocumentFrequency(dfj):多少个文档包含词汇j。tfidf权值(wij):wij=tfij*log(d/dfj)其中d是文档的数目。本实验中文档完成的数目为20,即d=20。本实验的算法实现并没有考虑词频的归一化处理。程序流程如图4-6所示:图3-6系统流程图
4系统实现4.1登录和注册界面4.1.1用户注册界面当用户进入系统后,可以看到本系统的初始界面,如果用户没有用于本系统登入的账号,可以注册本系统的账号,本系统注册界面如图4-1所示。图4-1系统注册界面图4.1.2用户登入界面当用户注册账号或者拥有本系统登入账号时,按照要求依次输入用户名和密码,点击确定,就会跳转到系统的主界面。当输入的用户名和密码错误时,系统会出现弹窗显示“输入错误,请重新输入!”。系统的登入界面如下图4-2所示。图4-2系统登入界面图
4.2分类界面用户可以查看新闻的种类以及各个分类中每一个新闻的关注数,点击想要查看的新闻系统将会跳转的这篇新闻的详细报告。热点新闻版块分类界面如图4-3所示。图4-3热点新闻版块分类界面4.3热点词分析界面4.3.1关键词词云在热点词分析界面,用户可以看到各个新闻版块的关键词词云分布图。娱乐版块关键词词云分布图如图4-4所示。图4-4娱乐版块关键词词云分布图4.3.2关键词可视化分布图用户可以查看到关键词词频前十的关键词,也可以通过饼图直观的了解词频前十的关键词所占的比例大小,同时还可以看到词频前十的直方图分析。游戏版块词频前十词群可视化分布图如图4-5所示。图4-5游戏版块词频前十词群可视化分布图4.4新闻热度分析界面4.4.1新闻关注热度在新闻关注热度界面可以看到各个版块按照新闻的关注数进行了分类,用户可以直观的了解每一个版块的新闻在指定关注数下的数量。娱乐版块新闻关注度分布直方图如图4-6所示。图4-6娱乐版块新闻关注度分布直方图4.4.2不同版块新闻热度分析用户可查看不同版块的新闻热度所占的比例。热度分析界面图如图4-7所示。图4-7热度分析界面图
5系统测试5.1测试定义系统测试的定义是指:通过某些方法或者手段找到系统的错误,并将其完美的解决,使系统变得更加完善,让用户有更好的体验。测试主要是为了让系统按照给定的要求去运行所实施的一种手段。系统在开发阶段的每一个环节都有可能会出现问题,当这些问题慢慢积累,到系统运行阶段错误就会像下雪一样扑面而来,这个时候来修改系统会浪费大量的人力和财力。所以测试在系统的每个阶段都存在,可以说测试贯穿了系统的整个生命周期。测试也是系统开发的开始。5.2测试目的测试的目的主要检测网路舆情关系挖掘系统能否稳定、有效的运行。用户在使用系统时能有一个比较好的操作体验,这是一个好的测试标准。测试可以准确的找到系统问题的所在,在系统的每一阶段进行测试,确保系统的完美,这样在系统的运行阶段就能保证系统能够稳定正常的运行。5.3测试用例(1)用户注册、登入测试。首先输入已经注册过的账号和密码,点击确定,如果系统提示“用户登入成功”那么用户注册、登入测试模块测试符合要求。(2)热点新闻版块分类测试。先查看新闻的各个版块分类是否正确,在点击新闻标题看能否跳转到新闻的详细内容,如果都能实现,那么热点新闻版块分类模块测试符合要求。(3)新闻版块热点词分析测试。首先查看词云、饼图、直方图是否正常显示,其次词频前十的词群是否正确,如果全部显示正常,那么新闻版块热点词分析模块测试符合要求。(4)新闻热度分析测试。这个模块主要查看直方图中的新闻的数量是否跟每一模块中新闻的数量相同。如果相同,则新闻热度分析模块测试符合要求。4.5测试分析测试时不仅要求系统的每一个数据显示正确,而且要求系统中的图、表都能按照数据的要求显示。本课题网络舆情关系挖掘与可视化实现系统可以完成一系列的步骤,虽然说在系统功能方面不够全面,格局排列也不够美观,但是基本上满足课题所需要的条件。系统简单明了,操作十分容易,极易上手。总的来说,本系统测试通过。
结论本文主要阐述了如何利用Python语言开发一个性能优化、可扩展性强和安全可靠的网络舆情数据分析系统。系统主要实现了信息搜索、信息处理等功能。然后根据这些功能进行分析设计,对所用到的网络爬虫、数据挖掘等技术进行简要的介绍。接着完成需求分析的内容以及还有概要设计和详细设计的具体内容。描述这个系统的部分功能的实现方案及过程。在系统的实现阶段也碰到多各种各样的问题,在进行代码运行时就出现过这样的问题:'gbk'codeccan'tdecodebyte0x9cinposition28:illegalmultibytesequence。在网上查看发现是文本编码的问题,本应该是“utf-8”的编码方式读取txt文本中的数据,但由于解码时使用了“gbk”的编码方式,导致程序发生错误。将原始open函数添加上encoding参数,表示解码的方案。例如,此时我使用"uft-8"的方式解码原始以"utf-8"方式编码的文件,即encoding="utf-8"。还有当我使用pip命令安装第三方库时发现下载安装文件非常慢。原因是pycharm安装第三方库时,访问的是国外网站,所以导致速度极慢。当我们将pycharm中访问的网站改为国内网站就能保障下载速度。还好经过三个星期的时间,系统的功能要求已经完成。本设计所完成的是一个网络舆情关系挖掘的数据分析系统,依照系统分析、系统设计、系统实现以及系统测试来实现本文的结构。由于自己所学知识有限在此次系统设计中,还有很多需要完善的地方。在这次毕业设计中,不仅对相关的知识有了一个更加全面的了解,而且自己独立学习的能力也有了提高,我会在以后的学习生活中进一步加强自己的知识水平。
致谢四年的学习生活在这个季节将结束,但是在我的生命这仅仅只是一个逗号,我将面对的旅程的另一个的开始。这四年的求学生涯,感谢老师的教诲以及朋友和亲戚的支持,当然在这些成长过程中,这只是开始,但也得到一个完整的结果,下一段旅程即将开始,各种思绪久久不能平静。首先在论文写作中要感谢吴奕老师,是他给了我很大的帮助,他对我论文的严格要求,使我获得了很大的收获。吴奕老师治学严谨,理论功底深厚这时刻影响和激励着我,让我对论文的完成充满了信心。对此,我谨表示诚挚的感谢和真挚的感情,其次,我要感谢所有专业课教师,他们在学习过程中无私的在我的课程,教了我很多的专业知识和技能,使我能够顺利解决在写论文的过程中的问题和疑问。同时我们还要进行感谢他们所有给予我关心和帮助的同学和朋友们,他们在生活和学习中给了我一个大量的帮助,对他们的关怀和帮助的老师致以崇高的敬意。在生命的未来之路,我会谨遵恩师的教诲,发挥自己的潜能。最后,对阅读和评审本论文的各位老师表示衷心的感谢!参考文献张永礼,丁超,安海岗,马伟.数据挖掘在电子商务领域中的应用[M].北京:冶金工业出版社.2015.葛卫民,王保旗主编.计算机基础导论[M].天津:天津大学出版社.2003.杨秀璋,颜娜.Python网络数据爬取及分析从入门到精通爬取篇[M].北京:北京航空航天大学出版社.2018.孔敏,刘金举.医院数据仓库的设计心得[J].中国医疗前沿,2007.沙勇忠著.信息分析[M].北京:科学出版社.2009.王娅纷.数据挖掘浅谈[J].电脑知识与技术.2009.刘宇,郑成焕.基于Scrapy的深层网络爬虫研究[J].软件,2017.杨秀璋,颜娜.Python网络数据爬取及分析从入门到精通分析篇[M].北京:北京航空航天大学出版社.2018.王旭启,门健,徐大纹.数据挖掘与OLAP在毕业生就业领域的应用[J].现代电子技术.2012.周幸妮.数据结构与算法分析新视角[M].电子工业出版社,2016.何克右.从实例中学C/C++程序设计[M].北京:清华大学出版社.2014.朱精南,赵明生.网页版面信息分析[J].计算机工程,2004.方延风.科技项目查重中特征词TF-IDF值计算方法的改进[J].情报探索,2012.苏雷,杜彦璞,刘斌.网络爬虫技术研究与分析[J].城市地理,2016.王超群.网络爬虫技术研究[J].移动信息,2016.朱丽萍.基于PYTHON的爬虫系统开发和实现[J].电子科技大学,2011.吕勇.基于PYTHON的简易搜索引擎的设计与实现[J].武汉理工大学,2012.MyersD,McguffeeJW.ChoosingGevent[J].JournalofComputingSciencesinColleges,2015.LangeCN,FigueiredoAMG,EnzweilerJ,etal.Traceelementsstatusintheterrainofanimpoundedvehiclegeventard[J].JournalofRadioanalytical&NuclearChemistry,2016.
附录一(1)安装Anaconda的python运行环境下载地址:/distribution/安装教程:/ITLearnHall/article/details/
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 中北大学《国际服务贸易》2025-2026学年期末试卷
- 中国矿业大学徐海学院《旅游政策法律法规》2025-2026学年期末试卷
- 运城幼儿师范高等专科学校《传播学教程》2025-2026学年期末试卷
- 中国矿业大学《中国文化概况英语》2025-2026学年期末试卷
- 中国医科大学《预算实务》2025-2026学年期末试卷
- 中北大学《社会学教程》2025-2026学年期末试卷
- 2026二年级道德与法治上册 家乡建设靠大家
- 初中校长在初二年级青春礼成后写给家长的一封信
- 2024届高考政治一轮复习统编版必修三《政治与法治》知识点默写
- 2023-2024年度内蒙古自治区银行业金融机构高级管理人员任职资格题库附答案基础题
- 奇瑞控股集团法务专员岗位笔试题目含笔试技巧之二
- 食品包装学-第八章各类食品包装
- 【高中语文】《秦腔》说课课件++统编版高中语文选择性必修下册
- EPC项目投标人承包人工程经济的合理性分析、评价
- 景区营销和酒店营销策划
- 《我的心灵疗愈》
- 建设用地报批服务投标方案(技术方案)
- 税收基础(中职财经商贸类专业)全套教学课件
- 方管、矩形管规格及理论重量参考表
- 智能浇花系统
- 教程赢通t6商业用户手册
评论
0/150
提交评论