基于大数据技术下的高校舆情监测与分

上传人：风*** IP属地：湖北上传时间：2024-03-27 格式：DOCX 页数：33 大小：612.49KB 积分：17 举报 版权申诉

已阅读5页，还剩28页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要随着科技的日新月异，通讯手段与交流方式不断更新，网络作为信息通讯的重要媒介，成为了高校学生沟通交流、发表观点的重要平台。高校学生通过利用网络公民自发形成的舆论圈，交流更为便捷，传播更为多元，使得高校舆情具有了随意性、直接性、偏差性、突发性四大特征，对社会中的舆情传播产生的影响不可小觑，所以高校需要及时掌握学生舆情的发展动态，可以及时做出有效的监管和正确的引导。通过对高校网络舆情监测的实际需求分析和概要分析，本文在现有国内外舆情监测的基础上，构建了以python爬虫技术为基础的高校舆情监测与分析系统，并且根据高校管理人员的实际需求对系统做了详细的分析与设计，通过网络讨论平台获取大量舆情数据进行整合分析，从而实现多态势舆情的实时监控和舆情数据分析的可视化，其中包含媒体分析、热度分析、受众分析等。舆情监测与分析系统包括了四个模块：舆情关键字管理模块、舆情分析模块、舆情结果可视化模块、舆情报告模块。从舆情关键词建立到舆情报告的展示，高校舆情监测与分析系统将为高校管理人员提供准确高效的舆情发展态势，辅助高校了解学生内心动态，及时发展舆情的产生，调整高校的管理政策，促进学生的健康成长和高校的稳健发展。关键词：高校舆情；网络爬虫；舆情监测；舆情分析

AbstractAstechnologychangeswitheachpassingday,communicationmeansandwaysofcommunicationareconstantlyupdated.Asanimportantmediumofinformationcommunication,networkhasbecomeanimportantplatformforcollegestudentstocommunicateandexpresstheirviews.BymakinguseofthecircleofpublicopinionformedspontaneouslybyInternetcitizens,collegestudentscancommunicatemoreconvenientlyandspreadmorediversified,whichmakescollegepublicopinionhavefourmajorcharacteristics:arbitrariness,directness,deviationandsuddenness,therefore,collegesanduniversitiesneedtograspthedevelopmentofopinionintime,andcanmakeeffectivesupervisionandcorrectguidanceintime.BasedontheanalysisoftheactualdemandandsummaryofpublicopinionmonitoringontheInternetincollegesanduniversities,thispaperconstructsapublicopinionmonitoringandanalysissystemincollegesanduniversities,whichisbasedonPythoncrawlertechnology,andaccordingtotheactualneedsofuniversityadministrators,thesystemhasbeenanalyzedanddesignedindetail,andalargenumberofpublicopiniondatahavebeenobtainedthroughthenetworkdiscussionplatformforintegrationanalysis,thusreal-timemonitoringofmulti-situationpublicopinionandvisualizationofpublicopiniondataanalysis,includingmediaanalysis,heatanalysis,audienceanalysisandsoon.PublicOpinionMonitoringandanalysissystemincludesfourmodules:PublicOpinionKeywordManagementModule,PublicOpinionAnalysisModule,publicopinionresultvisualizationmodule,publicopinionreportmodule.Fromtheestablishmentofkeywordsofpublicopiniontothedisplayofpublicopinionreports,themonitoringandanalysissystemofpublicopinionincollegesanduniversitieswillprovidetheadministratorsofcollegesanduniversitieswithaccurateandefficientpublicopiniondevelopmenttrends,andassistcollegesanduniversitiesinunderstandingtheinnerdynamicofstudentsanddevelopingtheproductionofpublicopinionintime,adjustthemanagementpolicyofcollegesanduniversitiestopromotethehealthygrowthofstudentsandthesteadydevelopmentofcollegesanduniversities.Keywords:Collegesentiment；Webspider；Publicopinionmonitoring；PublicOpinionAnalysis

第1章绪论当互联网技术逐渐渗透进入社会的各种领域，已然成为社会中不可或缺的一部分。人们获取信息的途径以及日常交流也逐渐由线下转为线上，使得信息的传播速度呈指数式增长，同时随着生活条件的提升和互联网工具的普及，网民数量急剧增长，年龄趋于年轻化。其中作为生活得到初步自由的高校学生，他们是在网络上发表意见和关注社会热点的重要群体，因而高校学生对于网络舆情的爆发和推动起到关键性作用。由于高校学生涉世未深，长期处于校园生活，对社会热点的看法容易受到蛊惑和欺骗，从而在网络上肆意表达自己的情绪，对社会和学校造成严重的后果。随着大数据时代的到来，应用大数据技术分析网络舆情发展走向，遏制舆情的产生，是高校管理部门对舆情监测与分析的研究方向。研究背景与意义随着信息时代的崛起，网络对人们的作用越来越大。几年之间，信息的传播还依靠传统的报纸、广播等方式传播，现如今网络时代的快速发展使得互联网成为信息最主流的传播途径。截止2019年6月，我国的网民规模高达8.54亿。人们可以通过网络平台及时获取信息，并且快速对信息做出反馈舆情在网络中产生的方式，就是人们通过网络平台针对社会热点问题发表自己的看法和宣泄情绪的过程。网络舆情的要素包括：互联网、网民、热点事件、互动传播、情感。互联网舆情信息以公共媒体、自媒体为载体，围绕某个社会热点事件，通过网络传播的迅速性大量聚集情感信息，对相关管理部门产生一定的影响。网络媒体具有极强的自由性，目前网络监管机制尚不完善，网民利用网络自由和可匿名的特点，肆意的在网络平台发表观点、宣泄情绪，使得网民的表达增加真实、顺畅。对于传统的信件报纸而言，网络可以直观的、迅速的看到社会问题，表达人们的心声，分享他人的意见。同时，网络又具有极强的交互性，网民通过参与社会热点问题的讨论或者向有关部门的反映，网民在交流互动的过程中，难免有时无法控制住自己的情绪，导致网络暴力事件频发，成为网络安全的一大隐患。由于消息是由网民自发性传播扩散，其中掺杂着浓厚的感情色彩，在传播的过程中背离信息原有的真实性，甚至有些为了达到目的故意歪曲事实，随着传播过程的积累，往往会形成强大的舆论，对社会甚至国家产生重大的影响，从而如何利用好网络弘扬社会正气，完善舆情监测分析系统，对舆情的产生提早发现，管理人员及时制定相应的解决方案，是新时代下国家的重点任务。对于高校来说，第一时间监测到舆情发展动向，是高校掌握学生动态的重要因素，也是对学生的心理需求进行相应的疏导的首要前提。国内外研究现状通过对大量文献的阅读理解，舆情的研究已经到了基于大数据网络舆情的研究阶段，在此之前的两个阶段分别为：舆情的传统研究阶段，主要用于社会热点事件、政策的反响、法律法规领域。网络研究阶段分为早中期的统计方法舆情研究理论和如今的大数据舆情研究。一系列的网络交流平台的出现，推动了基于大数据的网络舆情的研究，例如Ceron法国选举的研究方法。在舆情的研究内容中可分为三个方面：一是网络数据的抓取，对数据信息进行摘要、聚类、分类，通过算法的实现，对抓取的数据进行清洗排重。二是主题跟踪，在海量的舆情信息中，选定有价值的主题进行深度分析。三是舆情的情感分析，通过制定有关的情感词对感情倾向性进行研究，例如Dave研究的ReviewSeer理论。在国内，目前的主流方法是利用正则表达式，建立爬虫系统进行网络舆情数据的采集，郑魁等人在中国科学院发明了网络舆情热点数据发现分词法，主要使用聚类、情感检测、话题跟踪技术。面对大数据下舆情分析的困满，我国多位科学家向此发出了挑战，李希光、李彪等人在舆情检测、预警上获得了理论上的成果，李金海等人提出了一套完整的文本挖掘模型，喻国明等人则是利用分词技术对热点问题分析中取得了进步。在美国，最知名的于情监测与分析系统是TDT，该系统面向精准的用户，提供专业的舆情分析业务，他通过分析客户使用商品时反馈的意见，并通过品牌的认知程度和交易数据，计算出客户对此商品的认知度。通过对结果的分析，把相应的决策数据推荐给用户，对于公司来说，不仅增长了客户的黏性，还使得公司在竞争中始终处于领先状态。另外，尼尔森公司的核心业务为意见挖掘分析服务，他是一个世界性的是以服务企业，在报纸、展览、出版界的业务中均有涉及。尼尔森公司对服务对象公司以往数据的调查，对公司的意见评论、线上传播行为展开深度分析，使得公司在竞争中占据有利位置。尼尔森公司的服务对象包括微软、索尼等大型知名公司。就目前而言，大部分公司、企业都有一套针对自己的舆情监测与分析系统。通过收集客户对于产品的建议和反馈，监测分析出产品的运营情况，从而及时的制定相关决策，提高产品质量，保持企业在业内所占据的优势。而一些大型的官方媒体，也建有自己的舆情检测与分析系统，并且配备强硬的技术团队，全天不间断的对网站进行监控，协助社会监控舆情的走向，在此方面做得较好的网站为人民网。公司如此，高校亦然。高校作为青少年的聚集地，对新鲜事物始终保持高涨的态度，一点风吹草动就会引起舆情的发生，所以对于高校来说，建立一套完善的舆情监测与分析系统显得尤为重要，高校可以及时掌握学生的思想行为动态，对高校目前所处的政治思想教育工作疲劳状态起到转折的作用。目前，哈尔滨工业大学构建的“基于论坛的舆情监测系统”和解放军外国语学院的“基于微博的舆情监测与分析系统”为高校舆情系统的典型代表。研究内容高校学生作为信息爆炸时代舆情产生和传播的主力军，对舆情的走向起到关键性作用，所以建立高校舆情监测与分析系统成为当下首要的任务，尤其是在当下信息多元化的时代。因此本文针对以上问题，设计一个高校的舆情监测与分析系统的模型和框架，并对模块和组件之间的关系完善了其主要功能。本文完成的工作包含以下内容：1.通过对多所高校的管理人员的询问调查，在图书馆翻阅相关书籍，对高校舆情监测与分析系统的需求做出了分析，建立了一套高校舆情监测的系统框架，并且使用信息系统中常见的模块化思想对系统做出设计。2.根据需求分析，对高校舆情监测与分析系统作了详细设计，对数据采集模块和数据分析模块做了详细的设计。3.通过对高校学生的了解，贴吧是学生讨论、发表观点最集中的平台，对高校贴吧论坛进行帖子的规模爬取，得到数据分析所需要的数据。4.对所得的数据进行敏感词分析，得到关键词在贴吧中的出现频率，进而反应某些舆情的出现。本文的整体结构安排由五章构成，各章节安排如下。第一章：绪论，阐述高校舆情监测与分析研究的背景，网络舆情中高校学生所占据的重要性，并阐述了舆情监测与分析国内外的研究现状。第二章：高校舆情监测与分析的相关介绍，并对相关技术以及算法进行了介绍。如爬虫架构scrapy等。第三章：系统需求分析与系统架构，通过对需求的分析和架构的设计，明确了系统的模块构成。然后对各个模块进行了介绍。第四章：根据高校舆情监测与分析系统，对高校舆情检测结果的分析，展示了高校舆情监测与分析系统的部分界面。第五章：结语。表述了系统在设计的过程中遇到的一些困难，以及在今后的工作和学习中对该系统的改进。第2章舆情监测与分析的关键技术当今社会的舆情监测分析正从网络分析阶段向大数据舆情分析阶段过渡。两者的不同之处在于数据的处理模式上，目前一个完善的大数据舆情分析系统囊括了许多处理模式。本文将通过已有资料的基础上，综合舆情分析的关键技术，在高校舆情规模不大的情况下，分析本系统用到的一些关键技术。2.1系统对robot协议的应用通过利用robot协议可以分析爬取的目标网站中哪些数据是对外开放，可以进行爬取的，他可以有效的排除掉不允许爬取的数据。将网站视作交通信号的话，robots.txt则是某些路口的红绿灯“红灯禁行”或“绿灯可行”的信号，爬虫就是通过路口的汽车，根据信号灯的指示通行。在国际上，robot协议没有明确的规定，他是一种道德类型的行业内协议，在爬虫的过程中，他用来抵制进行恶意爬取而用作非法行为。他是爬虫技术人员在道德层面进行遵守的一杆旗帜，目前几乎所有的行业内部人员不会恶意触碰这个道德标杆。在此设计中，百度贴吧的网站内有些是robot协议禁止爬取的，但是本设计只是用作高校的舆情监测，保护高校学生的身体安全和心理健康，所以此设计需要在某些地方跨过robot协议，对正常的数据进行爬取。2.2爬虫技术2.2.1爬虫原理爬虫是通过向目标网站发出爬取请求，并得到目标网站回应的过程。爬虫通过对先前预设好的爬取规则不断向目标网站获取数据存储到本机，在爬虫的过程中需要对网站进行解析，其可以主要运行依托于以下几种技术。URL（UniversalResourceIdentifier）：通用资源标识符，网络中每个资源都是由一个唯一的URL确定，根据URL也可以定位到网络中的唯一一个资源。HTTP协议：超文本传输协议，此协议是网络中应用最为常见的一种协议，HTTP协议提供了发布与接收HTML页面的方法，由HTML语言编写的网页代码可由浏览器渲染成结构清晰的页面。2.2.2爬虫流程爬虫通过URL对目标网站进行数据请求，当目标网站接收爬虫的请求之后就开始对网页进行分析，爬虫将按照之前设定好的爬虫顺序对网页依次进行URL的请求，目标网站不断处理爬虫请求，并将爬虫程序设定的需要进行爬取的数据依次存储到接口内的数据库中，最终目标网站将所有的请求处理完毕之后爬虫结束。2.2.3爬取方式爬虫的爬取方式包括：横向、纵向，也可以称为深度优先算法与广度优先算法。横向爬虫抓取是图算法中最常见的也是最重要的，更是许多其他图处理的重要途径。横向爬取在爬取的设计中最为常见，设计也比较容易，横向爬取是从系统设定的最初URL开始向目标网页发送请求，然后再此URL的基础上将周围最近的URL设为下一个请求的对象。在本系统中，以百度贴吧为例，横向爬虫抓取是从列表第一页开始，根据输入的爬取页数不断地的向后翻页，把下一页的URL加入到等待爬取的队列当中。纵向爬虫抓取的策略与横向爬虫抓取相反，其从起始页开始，层层深入，一直寻找到没有更深的节点，再通过层层递归返回起始页，搜索完毕所有的节点。在本系统中，纵向爬虫抓取即指从列表的第一页开始，获取所设定的页数详情页的URL，加入到待爬取队列中等待抓取。由于百度贴吧的网页特性，从一个详情页无法直接到达另外一个详情页，故此纵向深度为2。此设计使用横向爬取方法，在规模不大的情况下，可以将系统的性能大范围提升，将设定好目标贴吧和页数以后逐页进行数据爬取并存储。2.3scrapy架构2.3.1scrapy框架性能优势scrapy框架作为Python语言中开源的第三方库，他在爬虫的过程中，对目标网站的数据爬取速度快、编写语言简洁、适用性强等优势，在特定网站中爬取制定的数据结构类型，同时scrapy框架可以根据开发者不同的开发需求，对此框架进行相应的改进。本系统采用scrapy框架的原因如下：1.scrapy是基于Twisted的一种框架。Twisted框架是一个异步IO框架。由于Twisted具有特性，scrapy框架内置实现了单机多线程，十分有效的提升了性能。应用此框架，程序的执行流将被外部事件所影响。由于他的此种特性，scrapy不支持分布式爬虫，如要实现分布式，需要使用其他的库。2.scrapy的扩展功能非常多。在他的框架中包含了众多的模块，几乎包含爬虫技术需要处理的问题，多数扩展的功能都可以在下载第三方库中实现，开发效率极高。3.scrapy包含了两种定位方式css和XPath，可以使爬取到的页面进行元素的定位,可以对网页的解析效率提升很多。4.scrapy框架开发容易。使用Scrapy框架完成一个爬虫系统的工作量可以小很多，他其中包含了众多的第三方库，每个库的相互协作使得该框架的性能十分突出。2.3.2scrapy的结构组成Scrapy框架结构严谨，功能完善，他的结构组成如图2.1所示。图2.1scrapy的结构组成Scrapy框架作为Python爬虫最关键的技术，他是一个较高层级的网页爬取工具，在目标网页中将数据以特定的结构抓取下来，使用范围非常广泛，是舆情监测、舆情分析必不可少的工具。他的中控系统为Engine（中心引擎），他将管道、下载器、爬虫、调度器连接到一起，通过中心引擎进行数据之间的传递与交流。调度器将中心引擎的请求命令进行归类操作，按照预定进行排序，然后将有序的请求命令返回中心引擎，相当于中心引擎的“加工车间”。下载器将中心引擎的请求交付于网页，并且接受网页的回应交付给中心引擎。爬虫将从网页的回应中提取其中有用的数据，然后将下一步需要请求的URL交付给中心引擎，调度器往返之前的操作，实现爬虫的自动化。管道将爬虫得到的Item（项目）进行一系列的操作。2.3.3爬虫模式介绍爬虫技术下的Scrapy框架，每个scrapy爬虫框架提供的爬虫类都需要被相应的Spider所继承，下面介绍Scrapy框架下的两种继承类。第一个类是Spider爬虫类。他是Scrapy框架中最重要的类，也是最核心的类，他可以定义目标网站内的数据被用怎样的爬取操作来获得，将目标网站中的数据以特定的结构存储在数据库中。Spider类的操作流程与结构的定义：1.通过Scrapy框架中最初请求的URLs进行网页的爬取，然后在下载响应的时候选择回调函数的调用，start_requests()方法生成特定的请求和回调函数。同时使用BeautifulSoup4库和lxml库对目标网站进行解析，将其转变为特定项。最后通过管道将数据存入到数据库中。2.name属性用来是标识爬虫程序的，必须要保证name属性不能有重复的出现。allowed_domains是记录spider可以进行爬虫的属性。start_urls定义了爬虫程序开始爬虫的爬取的地方。Logger用来发送消息。start_requests（）用来定义网页的响应，在程序执行时只能被调用一次。第二个类是CrawlSpider爬虫类。CrawlSpider对所有的爬虫类进行了继承，他对网页中的link可以定义相应的规则机制。Spider类的结构定义：allow用来选择接受一个表达式还是一整个列表，当此属性的参数为空时，则系统默认爬取整个网页链接。deny的属性与allow属性正好相反，用来排除url和正则表达式链接。因为该系统需要爬取的数据规模不大，只需要选择其中爬取的页数就可以实现该系统的需求。所以该系统选择使用了Spider爬虫类，通过start_urls使爬虫从网页的第一列表页开始向后爬取选择的页数，同时使用Spider爬虫类，编写系统代码的工作量会轻松很多，方便后期对程序的完善。第3章需求分析和系统总体架构3.1可行性分析技术可行性。本系统使用PyCharm作为开发工具，以Python作为开发语言，Scrapy爬虫框架进行数据的收集，Mysql作为数据存储库，Jieba进行分词，Pandas、Matplotlib、Numpy进行数据可视化处理，所以系统在技术上是可行的。经济可行性。本系统所使用的PyCharm是官方免费版软件，涉及到的开发技术、包都为开源免费的。所使用数据库也为免费的，系统的维护成本微乎其微，所以本系统在经济上是可行的。法律可行性。本系统所使用的软件、数据库、技术都为开源免费的，在使用过程中不涉及版权问题，对于数据爬取网站来说，本系统在严格遵循网站的robot协议的前提，爬取过程不会涉及违法行为，得到的数据均为网页公开数据，所以本系统在法律上是可行的。3.2系统需求分析3.2.1业务需求分析本文以高校贴吧作为信息源进行分析研究，以爬取到贴吧内容作为系统的初步目标，由于贴吧内容繁杂，反爬虫机制健全，无法通过短时间内获取到一定规模的有效信息，故本系统可以根据需求任意选择爬取的贴吧名字和爬取的页数，根据舆情发展时间和热度的高低设定贴吧爬取范围。主要工作放在信息分析方面，通过数据展示出高校学生最为关心的问题，从而提前预知高校舆情的走向。由于本系统的主要实现功能是围绕高校舆情监测与分析展开，所以本系统应该完成的关键功能包括以下方面的内容：高校贴吧的帖子信息该系统本身不会生成数据信息，系统所需的数据信息来源于高校贴吧中学生的发帖与评论。但是由于贴吧的数据库并不向用户开放，所以要想得到所需要的数据需要利用爬虫技术对高校贴吧中的原始数据进行爬取，为系统进行数据分析创造条件。根据舆情监测者的需求选择爬取的贴吧名字与爬取帖子的页数。数据进行分析并且将数据可视化3.2.2功能性需求分析系统通过对于贴吧数据的水平广度爬取。其中水平爬取是将贴吧网页进行广度优先爬取操作，可以实现在网页的第一层就可获得所需要的数据，很大程度上提升了数据爬取的效率。由于百度贴吧对反爬虫机制做得相对完善，反爬虫机制对于一个主机IP频繁访问和流量访问进行监控，从而达到对爬虫的限制，一旦对本机IP进行封锁后，此IP将不能继续进行数据的爬取，所以此系统必须要克服反爬虫机制的限制，具备在反爬虫机制下爬取数据的能力。图3.1数据爬取功能系统分析数据功能是指将爬取数据得到的帖子以及评论信息进行处理，实现数据的可视化功能。数据处理首先除去数据中无效的数据，将有效的数据按照类别特征转化为相应的特征数值，筛选掉冗余的数据。其次处理干净的数据通过图表的形式，将贴吧中有效的信息进行挖掘，从而达到用户可读的可视化效果，给予用户提供参考依据。图3.2数据分析功能3.3系统总体架构系统的整体架构如下：1.安装PyCharm编程软件，MySQL数据库，scarpy、jieba等第三方库，为系统的运行搭建前期环境。2.根据百度贴吧的网页结构，制定相应的爬虫方式，从而实现对贴吧贴子以及评论的爬取，再通过数据的封装、清洗，在数据中提取到有价值的信息，并将信息存入到数据库中。3.有效利用反爬虫技术，避开贴吧对爬虫的限制。4.通过对提取出的信息进行分析处理，实现数据的可视化操作。3.3.1爬取对象分析该系统以爬取高校贴吧帖子和评论为目标，其贴吧帖子和评论格式较为固定，因此数据库的设定相对简单。本次将爬取贴吧中的标题、帖子内容、评论等内容。表3.1为爬取的目标网站以及网站的分析。表3.1目标网站分析目标网站反爬能力爬取方式百度贴吧强Scarpy列表页爬取“百度贴吧”作为高校学生发表评论、分享观点最密集的地方，其中含有大量的学生生活动态和内心活动。由于高校学生在百度贴吧中相对活跃，人员相对集中，在一定程度上反映出了高校学生内心的真实动态，将百度贴吧作为舆情监测的目标网站，可以有效的分析出舆情的产生于发展方向，符合本论文的研究方向。3.3.2模块设计该校舆情监测与分析系统主要由爬虫模块、数据库模块、数据分析模块构成。图3.3系统模块构成爬虫模块是该系统设计的关键，通过第三方库scarpy实现对百度贴吧网页的解析，将网页每一项div中的数据进行归类，实现对数据的爬取，并且将爬取到的数据存储到后台的MySQL数据库中，爬虫模块中的子模块名以及介绍如表3.2所示。表3.2子模块功能描述模块名介绍爬虫准备模块在系统爬取数据之前，完成对爬虫所需要的第三方库的下载和相关环境的配置，对百度贴吧网页的结构进行分析，保证数据归类存储到数据库内数据爬取模块数据爬取的关键之处就是对百度贴吧网页结构的解析，通过分析需要获取的标题、内容、作者等有关数据，利用scarpy将数据进行爬取。数据库存储模块数据库是一个系统后台最为关键的部分，连接MySQL数据库接口，将数据一一的存入到baidu库的相应表中反爬虫模块由于百度贴吧的对恶意爬取的限制十分严格，为了保证将数据爬取下来，本系统利用了scarpy库中的反爬虫技术

第四章高校舆情监测与分析系统实现爬虫模块4.1.1爬虫框架的搭建本系统使用到的开发程序为Pycharm，他是JetBrains设计开发的一款由python语言进行编程的软件。Pycharm开发软件中可以自定义第三方的库，下载scrapy框架库和该库需要并行的第三方库，配置所有库所需要的运行环境，将存储接口连接到数据库，就可以通过解析网页实现对数据爬取并且存储。本系统使用到的第三方库如图4.1所示。图4.1PyCharm第三方库在此系统的爬取功能设置完毕后，所使用的scrapy框架结构如图4.2中Baidutieba文件夹中所示。图4.2scrapy文件框架框架中的重要文件及功能介绍如表4.1。表4.1scrapy主要文件介绍文件名功能settings.py此模块设定了对爬取方式，遵循的协议和使用的功能。init.py此模块定义了链接到的Mysql数据库4.1.2系统爬取用户通过系统输入任何一个合法贴吧名字，然后根据舆情预测规模大小和结合高校自身情况选择需要爬取贴吧网站的页数（每页的爬取时间在4秒钟左右）。图4.3数据爬取页面获取页面信息，并用xpath解析内容，通过页面分析可知道每一个帖子都是一个li。循环遍历取出内容，并拼接帖子url，进入帖子详情页面通过html分析获得一楼文本。系统会自动翻页爬取贴吧的标题、作者、发布时间、链接、回复数量、帖子内容。将爬取到的数据存储到Mysql数据库的baidu库下。系统通过解析数据库，从数据库读取bordered表中数据以表格的形式展示到系统的html页面上tableclass="tabletable-bordered">。如下图所示。图4.4数据可视化页面用户可以根据数据的可视化完整的看到目标网站的所有帖子内容，根据标题、内容、回复数量直观的了解每一个话题的内容和关注程度。细致的掌握每一个话题的动向。数据分析模块系统根据爬虫系统对贴吧网页的数据进行一定规模的爬取后，对目标数据进行重新审核检查和校验，将重复的数据信息进行删减，改正格式不正确，最终保证数据的独立性和统一性，完成系统可以将数据进行批处理的归一化。通过对初始脏数据的预处理，得到干净的、连续的、标准的可进行Python库可视化操作的数据。为系统进一步的模型建立提供准确性。通过使用duplicated()函数和pandas函数，集中进行检测是否存在数据重复，将重复的数据利用drop_duplicates()函数进行删除。利用第三方Jieba库，导入自定义词典，获取停用词list，然后删除jieba空格、删除停止词后的分词，使用reverse降序排序字典，最后得到关键词以及关键词出现的次数，完成分词操作，对后面数据分析创造条件。数据可视化模块词云展示Python语言中pyecharts库是一个开源的完成词云绘制的关键库。首先引入pandas库和numpy库对数据进行分析，通过pandas库中的read-csv进行文件的读取，再通过文件的具体类型进行sep参数的设置，利用字符串join方法，使列表转化为字符串。第二，引入collection库中的counter方法，返回词汇出现频率的统计。第三，使用sorted方法和lambda函数得到分词关键词，choices_number=50取出关键词出现频率排名在前50的关键词。最后，通过pyecharts库，设置wordcloud.add参数字体、颜色、大小、倾斜度，得到词云如下图所示。图4.5词云展示为了使高校舆情信息的及时发现处理。词云是高校舆情管理人员发现学生动态异常、掌握学生近期关注话题最直接的方式。词云通过词汇的形式展示学生近期最佳关注的话题，词汇区分颜色大小位置，将出现次数最多的词汇放到图形的中心并且增加字号，系统管理人员可以第一时间发现高校内的热点话题，如果话题内容为负面词汇，高校可以第一时间掌控信息，扭转舆情的爆发。热点话题词频通过引入jieba库中的anasyle方法，收集数据中每个关键词汇以及每个关键词出现的频率。对词频前20名的词汇出现频率以柱状图的形式展示出来，可以使得高校舆情管理人员掌握学生对热点话题的关注人数，了解舆情的规模大小。关键词频率可视化如下图。图4.6高频词统计通过后台对高频词的分析，表4.2对有效、重要的高频词进行了统计，可以明显的看出关键词考研出现的频率最高，说明考研是山东管理学院最受关注的话题，足以说明学习氛围的浓郁。其次，开学、成绩、专升本、资料等关键词出现频率也都排名在前列并且差距不大，这些关键词都为正面话题。当某一种关键词的出现频率远高于其他关键词或者有负面关键词出现时，则会有舆情爆发的风险，管理人员应随时关注，及时作出相应的决策。表4.2重要高频词次数统计高频排名重要高频词数量统计（次）1考研202学校193开学134成绩125专升本96资料67时间68毕业69学长610考试511专业5通过词云与热点主题词汇出现的频率，使得高校舆情管理人员掌握学生对热点话题的关注人数，了解舆情的规模大小。针对不同程度，不同情感的舆情，高校可以及时作出相应的决策。贴吧评论数量区间通过统计贴吧不同楼层范围内的回复数量，将20层设为分界点。统计数据中20层以上的楼层如果占比越大，说明此时间段内可能会出现热点话题讨论高潮，意味着将会有舆情的发生，所以用户根据实时监控楼层回复数量的占比，可以有效的预测舆情的发生，词云和排名前20的关键词分析出舆情的主题，从而高校舆情管理人员及时的做出决策，避免负面舆情的发展。贴吧评论数量区间扇形图和柱状图如下所示。图4.7楼层回复数量统计

结语本文通过使用python语言按照前期开题报告要求实现了一个高校舆情监测与分析系统，功能基本完善，对高校贴吧的监测具有一定的效果。随着大数据时代的前进，高校学生作为新时代下的接班人，对网络的依赖性与迷茫性很高，此系统将高校学生在网络中的言行举止记录下来，关注他们在生活中的另一种状态，使得高校在一定程度上帮助学生调整心态，避免舆情的大面积爆发，具有一定的实现意义。在本系统的设计开发中，我学习使用了scrapy框架对网页进行数据的爬取，将爬取的工作量降到最低。Python中的第三方库是完成此系统的关键，通过开源的第三方库，Jieba库实现了对数据的分词，pandas库和numpy库对数据进行分析，pyecharts库是一个开源的完成词云绘制的关键库。对第三方库的综合利用，发现数据分析技术已经逐渐渗透到我们的工作生活当中，使得我们摆脱传统的手工统计工作，以最高的效率得到我们想要的统计结果。但是本系统还有很大的优化空间，现在数据分析操作较为简单，距离市面上的高级舆情监测与分析系统仍具有很大差距，通过今后工作和学习中对相关技术的深入了解，不断高校舆情监测与分析系统。

电脑不启动故障诊治了解电脑启动的过程在诸多电脑故障中，无法正常启动是最令用户头痛的事了。笔者长期从事维护电脑的工作，在这个方面积累了一些经验，现在就将这些经验整理归纳出来与朋友们分享。本文将以家用电脑和windows98操作系统为基础，介绍电脑无法正常启动故障的诊治。要想准确地诊断电脑不启动故障，首先要了解的起动过程，当我们按下电源开关时，电源就开始向主板和其它设备供电，此时电压还没有完全稳定，主板控制芯片组会根据CMOS中的CPU主频设置向CPU发出一个Reset(重置)信号，让CPU初始化，电压完全稳定后，芯片组会撤去Reset信号，CPU马上从地址FFFF0H处执行一条跳转指令，跳到系统BIOS中真正的启动代码处。系统BIOS首先要做的事情就是进行POST(PowerOnSelfTest，加电自检)。POST的主要任务是检测系统中的一些关键设备(电源、CPU芯片、BIOS芯片、定时器芯片、数据收发逻辑电路、DMA控制器、中断控制器以及基本的64K内存和内存刷新电路等)是否存在和能否正常工作，如内存和显卡等。自检通过后，系统BIOS将查找显示卡的BIOS，由显卡BIOS来完成显示卡的初始化，显示器开始有显示，自此，系统就具备了最基本的运行条件，可以对主板上的其它部分进行诊断和测试，再发现故障时，屏幕上会有提示，但一般不死机，接着系统BIOS将检测CPU的类型和工作频率，然后开始测试主机所有的内存容量，内存测试通过之后，系统BIOS将开始检测系统中安装的一些标准硬件设备，这些设备包括：硬盘、CD－ROM、软驱、串行接口和并行接口等连接的设备，大多数新版本的系统BIOS在这一过程中还要自动检测和设置内存的相关参数、硬盘参数和访问模式等。标准设备检测完毕后，系统BIOS内部的支持即插即用的代码将开始检测和配置系统中已安装的即插即用设备。每找到一个设备之后，系统BIOS都会在屏幕上显示出设备的名称和型号等信息，同时为该设备分配中断、DMA通道和I/O端口等资源。最后系统BIOS将更新ESCD(ExtendedSystemConfigurationData，扩展系统配置数据)。ESCD数据更新完毕后，系统BIOS的启动代码将进行它的最后一项工作，即根据用户指定的启动顺序从软盘、硬盘或光驱启动。以从C盘启动为例，系统BIOS将读取并执行硬盘上的主引导记录，主引导记录接着从分区表中找到第一个活动分区，然后读取并执行这个活动分区的分区引导记录，而分区引导记录将负责读取并执行IO.SYS，这是Windows最基本的系统文件。IO.SYS首先要初始化一些重要的系统数据，然后就显示出我们熟悉的蓝天白云，在这幅画面之下，Windows将继续进行DOS部分和GUI(图形用户界面)部分的引导和初始化工作，一切顺利结束，电脑正常启动。根据故障现象诊治了解电脑启动的过程，故障就好判断了，下面我们就根据故障现象开始诊治了：现象一：系统完全不能启动，见不到电源指示灯亮，也听不到冷却风扇的声音。这时，基本可以认定是电源部分故障，检查：电源线和插座是否有电、主板电源插头是否连好，UPS是否正常供电，再确认电源是否有故障，最简单的就是替换法，但一般用户家中不可能备有电源等备件，这时可以尝试使用下面的方法（注意：要慎重）：先把硬盘，CPU风扇，或者CDROM连好，然后把ATX主板电源插头用一根导线连接两个插脚（把插头的一侧突起对着自己，上层插脚从左数第4个和下层插脚从右数第3个，方向一定要正确），然后把ATX电源的开关打开，如果电源风扇转动，说明电源正常，否则电源损坏。如果电源没问题直接短接主板上电源开关的跳线，如果正常，说明机箱面板的电源开关损坏。现象二：电源批示灯亮，风扇转，但没有明显的系统动作。这种情况如果出现在新组装电脑上应该首先检查CPU是否插牢或更换CPU，而正在使用的电脑的CPU损坏的情况比较少见（人为损坏除外），损坏时一般多带有焦糊味，如果刚刚升级了BIOS或者遭遇了CIH病毒攻击，这要考虑BIOS损坏问题（BIOS莫名其妙的损坏也是有的），修复BIOS的方法很多杂志都介绍过就不重复了；确认CPU和BIOS没问题后，就要考虑CMOS设置问题，如果CPU主频设置不正确也会出现这种故障，解决方法就是将CMOS信息清除，既要将CMOS放电，一般主板上都有一个CMOS放电的跳线，如果找不到这个跳线可以将CMOS电池取下来，放电时间不要低于5分钟，然后将跳线恢复原状或重新安装好电池即可；如果CPU、BIOS和CMOS都没问题还要考虑电源问题：PC机电源有一个特殊的输出信号，称为POWERGOOD（PG）信号，如果PG信号的低电平持续时间不够或没有低电平时间，PC机将无法启动。如果PG信号一直为低电平，则PC机系统始终处于复位状态。这时PC机也出现黑屏、无声响等死机现象。但这需要专业的维修工具外加一些维修经验，因此，建议采用替换法；电源没有问题就要检查是否有短路，确保主板表面不和金属（特别是机箱的安装固定点）接触。把主板和电源拿出机箱，放在绝缘体表面，如果能启动，说明主板有短路现象；如果还是不能启动则要考虑主板问题，主板故障较为复杂，可以使用替换法确认，然后更换主板。现象三：电源指示灯亮，系统能启动，但系统在初始化时停住了，而且可以听到嗽叭的鸣叫声（没有视频）：根据峰鸣代码可以判断出故障的部位。ccid_page/AwardBIOS1短声：说明系统正常启动。表明机器没有问题。2短声：说明CMOS设置错误，重新设置不正确选项。1长1短：说明内存或主板出错，换一个内存条试试。1长2短：说明显示器或显示卡存在错误。检查显卡和显示器插头等部位是否接触良好或用替换法确定显卡和显示器是否损坏。1长3短：说明键盘控制器错误，应检查主板。1长9短：说明主板FlashRAM、EPROM错误或BIOS损坏，更换FlashRAM。重复短响：说明主板电源有问题。不间断的长声：说明系统检测到内存条有问题，重新安装内存条或更换新内存条重试。AMIBIOS1短：说明内存刷新失败。更换内存条。2短：说明内存ECC较验错误。在CMOS中将内存ECC校验的选项设为Disabled或更换内存。3短：说明系统基本内存检查失败。换内存。4短：说明系统时钟出错。更换芯片或CMOS电池。5短：说明CPU出现错误。检查CPU是否插好。6短：说明键盘控制器错误。应检查主板。7短：说明系统实模式错误，不能切换到保护模式。8短：说明显示内存错误。显示内存有问题，更换显卡试试。9短：说明BIOS芯片检验和错误。1长3短：说明内存错误。内存损坏，更换。1长8短：说明显示测试错误。显示器数据线没插好或显示卡没插牢。现象四：系统能启动，有视频，出现故障提示，这时可以根据提示来判断故障部位。下面就是一些常见的故障提示的判断：一、提示“CMOSBatteryStateLow”原因：CMOS参数丢失，有时可以启动，使用一段时间后死机，这种现象大多是CMOS供电不足引起的。对于不同的CMOS供电方式，采取不同的措施：1.焊接式电池：用电烙铁重新焊上一颗新电池即可；2.钮扣式电池：直接更换；3.芯片式：更换此芯片，最好采用相同型号芯片替换。如果更换电池后时间不长又出现同样现象的话，很可能是主板漏电，可检查主板上的二极管或电容是否损坏，也可以跳线使用外接电池，不过这些都需要有一定的硬件维修基础才能完成。二、提示“CMOSChecksumFailure”CMOS中的BIOS检验和读出错；提示“CMOSSystemOptionNotSet”，CMOS系统未设置；提示“CMOSDisplayTypeMismatch”，CMOS中显示类型的设置与实测不一致；提示“CMOSMemorySizeMismatch”，主板上的主存储器与CMOS中设置的不一样；提示“CMOSTime&DateNotSet”，CMOS中的时间和日期没有设置。这些都需要对CMOS重新设置。三、提示“KeyboardInterfaceError”后死机原因：主板上键盘接口不能使用，拔下键盘，重新插入后又能正常启动系统，使用一段时间后键盘无反应，这种现象主要是多次拔插键盘引起主板键盘接口松动，拆下主板用电烙铁重新焊接好即可；也可能是带电拔插键盘，引起主板上一个保险电阻断了（在主板上标记为Fn的东西），换上一个1欧姆／0.5瓦的电阻即可。四、自检过程中断在xxxKCache处这表示主板上Cache损坏，可以在CMOS设置中将“ExternalCache”项设为“Disable”故障即可排除。同理，在自检主板部件时出现中断，则可以认为该部件损坏，解决方法一般可以在CMOS中将其屏蔽，如果不能屏蔽该部件最好更换主板。五、提示“FDDControllerFailure”BIOS不能与软盘驱动器交换信息；提示“HDDControllerFailure”，BIOS不能与硬盘驱动器交换信息。应检查FDD（HDD）控制卡及电缆。六、提示“8042GateA20Error”8042芯片坏；提示“DMAError”，DMA控制器坏。这种故障需要更换。七、提示“DisplaySwitchNotProper”主板上的显示模式跳线设置错误，重新跳线。八、提示“KeyboardisLock...Unlockit”键盘被锁住，打开锁后重新引导系统。九、IDE接口设备检测信息为：“DetectingPrimary（或Secondary）Master（或Slave）...None”表示该IDE接口都没有找到硬盘，如果该IDE口确实接有硬盘的话，则说明硬盘没接上或硬盘有故障，可以从以下几方面检查：1、硬盘电源线和数据线是否接触不良，或换一根线试试；2、CMOS设置有无错误，进入CMOS将“PrimaryMaster”、“PrimarySlave”、“SecondaryMaster”三项的的“TYPE”都设置成“Auto”；3、替换法确认硬盘本身有故障。十、IDE接口设备检测信息下面显示“Floppydisk(s)fail(40)”出错信息表示CMOS所指定的软盘驱动器有问题。判断和解决的方法与硬盘相似。现象五：系统不能引导。这种故障一般都不是严重问题，只是系统在找到的用于引导的驱动器中找不到引导文件，比如：BIOS的引导驱动器设置中将软驱排在了硬盘驱动的前面，而软驱中又放有没有引导系统的软盘或者BIOS的引导驱动器设置中将光驱排在了硬盘驱动的前面，而光驱中又放有没有引导系统的光盘，这个都很简单，将光盘或软盘取出就可以了，实际应用中遇到“DiskBootFailure，InsertSystemDiskAndPressEnter”的提示，多数都是这个原因。如果是硬盘不能引导的话一般有两种情况：一种是硬盘数据线没有插好，另一种就是硬盘数据损坏。前者一般多会出现硬盘容量检测不正确和引导时出现死机的现象；后者则是干脆找不到引导文件或提示文件损坏。前者只需重新连接好数据线即可；后者则需要用win98的启动软盘或启动光盘启动，根据实际情况来定：一、提示“Invalidpartitiontable”或“NotFoundany[activepartition]inHDDDiskBootFailure，InsertSystemDiskAndPressEnter”，这说明找不到硬盘活动分区，需要对硬盘重新分区。二、提示“Missoperationsyste”，说明硬盘活动分区需要重新格式化（formatc:/s）。三、提示“InvalidsystemdiskReplacethedisk，andthenpressanykey”或显示“StartingWindows98…”时出现死机，说明硬盘上的系统文件丢失了或损坏，使用“sysc:”，命令传递系统文件给c盘，再将C拷贝给c盘。现象六：硬盘可以引导，但Windows不能正常启动，也不能进入安全模式。这种情况表明Windows98出现了严重的错误，首先，用杀毒软件查杀病毒，看是不是病毒造成的，如果没有发现病毒可以用以下方法试一试。一、直接将接口卡与各个外设都拨去，再插回去，并调整接口卡上的设置（如果可以的话）来检查是否是硬件冲突造成，开机看看是否可正常进入Windows。二、检查CMOS中的设置是否有不正确的地方，若不清楚，可选择LoadBiosDefault项目，然后重开机，开机看是否可正常进入Windows。三、在启动时按下F8键，一般会出现6个选项（如果安装了DOS6.22则出现7个选项）选择第4项“step－by－stepconfirmation”进入单步运行方式，按照出现死机的命令选择处理方法：1、执行“Processthesystemregistry

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

基于大数据技术下的高校舆情监测与分

文档简介

温馨提示

最新文档

评论

相关文档