《互联网爬虫技术研究开题报告》_第1页
《互联网爬虫技术研究开题报告》_第2页
《互联网爬虫技术研究开题报告》_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

PAGE开题报告系届班学生姓名学号课题名称互联网爬虫技术的应用一、研究背景随着互联网信息技术的高速发展,创建与分享互联网内容的方式变得越来越简单,天天都有大量的新闻、图片、音乐与视频等信息资源发布到网上。海量的娱乐资源将为人们提供更加丰富的内容,但与此同时人们查找需要的资源与信息也变得愈来愈困难。网络的快速发展从另一层面上也促进了IPTV的快速发展,随着数字电视和网络存储的不断提高,电影相关的产业也迎来发展的新机遇,网上出现了海量的电影资源,通过对电影和用户数据的相关分析,可以分析出用户喜欢的电影然而,若想对电影的相关数据进行分析是十分困难的,不仅数据的种类多,数据量大,而且其中存在的噪音较多,最后还需要用情感分析对得到的数据进行分析,但是展示的形式不够具体和形象化。电影网站数据挖掘可视化系统是解决上面问题的,通过爬取电影网站的数据,并对数据进行预处理,达到处理噪音的目的,通过影评用户相关的数据可以获取该电影的具体信息,然后对海量的用户的评论信息进行分析,从而得出具体的数据分析,并进行展示,通过对用户的数据分析和电影的评论分析,从而为新用户提供更加详细电影观看建议。二、研究意义随着Web2.0的发展,越来越多的游客开始在电影社区上分享他们的观影体验,并针对电影的剧情、演员、电影特效等发表自己的观点。目前,国内电影相关的网站或APP,如豆瓣电影、Mtime时光网、猫眼电影、淘票票、微博等,都开设了平台让用户分享观影感受,这些电影评论日益增多,却缺乏加以挖掘和利用。这些信息大多都带着强烈的感情色彩,由于每个人的观影感受不同,所以大多是积极和消极的意见混合在一起。虽然这些信息能帮助用户更好的判断电影的好坏从而做出观影决策,但是互联网上的信息量以几何倍数增长,每时每刻互联网上都会出现海量的文本信息,由此而产生的“信息爆炸”成为人们必须要面对的一个问题,即互联网上虽然有海量的信息供我们参考,但人们获取所需知识的难度却越来越大,在这些海量信息中找到对自己有用的信息也变得越来越困难。因此,怎样有效地处理、分析这些海量信息,从中快速、准确地发现所需信息,己经成为当前信息科技领域一项非常有意义的课题。三、国内外研究现状(一)电影数据采集研究现状目前无论是国外的还是国内的IMDB还是国内的豆瓣平台的数据获取都主要有两种方法:一种是通过平台提供公开的应用程序编程接口(API)获取数据;另外一种是通过网络爬虫获取数据基于开放的API虽然可以直接获取数据,但是其开放权限有较大限制。比如,目前豆瓣只开放一部分接口,并且很多对外的数据接口不是免费的,或者直接不对外开放;即使是API对外开放,但是对于访问数据的频率以及数目上都有严格的控制。所以,这种方式采集的数据量一般不会太大。通过解析网络爬虫获取的网页,也能采集豆瓣数据。这种方法难点主要是如何应对反爬虫机制,将要花大量时间在防止403被ban上面。网络爬虫的优点是:该方法不受官方的API限制,不仅可以获取更加全面的数据,同时能够迅速的采集大量豆瓣平台的数据。该方法主要缺点是爬虫的编程开发难度会更大,并且爬虫系统后期维护成本比较高除上述两种方法,还有一些开源免费的爬虫工具可以使用,以Python爬虫工具为例,有QuickRecon,PyRailgun,Scrapy等。其优点是开发难度比较小,缺点是对于个性化开发有些局限性。(二)情感分析研究现状基于电影的数据挖掘主要包括情感分析、影评舆情监控、话题分析、用户行为分析、信息检索与推荐等。本文主要聚焦在电影影评文本的情感分析研究。情感分析,又被称作意见挖掘、倾向性分析、抽取意见以及情感挖掘,它主要是对带有感情色彩的文档进行计算、分析、总结和推理的过程。情感分析最常用的方法主要有两大类:一类是基于构建好的情感词典,一类是基于机器学习的情感分类算法。其中基于情感词典的算法法主要通过构建专有领域的情感词典以及相对应的计算规则,对文档的段落进行拆解,分析句法,计算情感值,最后将计算的情感值作为分析文本数据情感倾向的重要依据。(三)聚类算法研究现状聚类分析是近些年来较为热门的研究领域,其涉及模式的识别、数据挖掘与机器学习等众多学科,自Everitt提出聚类的定义以来,不少研究学者投身于聚类分析的学习与研究,提出了不少改进后的聚类算法。聚类算法的主要思想就是根据对象之间的相似性,将一个完整的数据对象集划分成几个不相似的数据集,并且在每个数据集内部的对象之间保证尽可能的相似。K-Means作为比较典型的聚类算法在各个学科与领域被广泛使用与研究,并且演化出不同的改进算法。在国外,Kim等提出了。BCURE-MR算法,其可以实现并行的聚类过程,并且对不同的密度类不敏感。Lloyd基于划分的思想首次提出了K-Means聚类算法Kaufman等提出了根据数据样本的局部密度来选择聚类算法K-Means的初始类中心的方法。为了提高聚类算法的准确度,Li等将位置敏感哈希(LSH)算法与K-Means聚类算法两者相结合从而选取质量高的初始类中心点。当然国内对聚类分析算法也有一定的研究,比如孔锐等人通过在聚类算法K-Means中加入了核函数,从而提出一种核K-Means聚类算法。为了提高K-Means的聚类准确性,徐义峰、徐云青等针对K-Means中随机选取初始类中心的缺陷,提出了一种基于样本数据的分布状况来选取初始类中心。(四)可视化研究现状可视化相关技术,其主要包括数据的开发、数据的分析以及可视化图表展示几个基本概念。数据可视化主要是运用图像处理的技术将一堆看似毫无规律的数据经过计算机相关算法处理后,转化成图形或者图表展示在用户界面上,目前己成为决策处理、数据分析、WEB可视化等问题的重要手段。在国外,可视化技术研究己经很成熟了,比如Wanner}4o]等设计了可视化系统ForAVis。目前较常用的可视化产品有展示了大量的动态交互式效果的SASRVisualBI,还有一款可视化产品Gephi,它一般针对社交图谱的数据,可视化其他相关软件也有很多,在展示效果也非常友好。在国内,也有不少可视化产品,比如由360推出的丁heNetworkliarmapofChina;还有大数据魔镜为用户提供了国内最大的可视化效果库;百度旗下推出一款开源免费的可视化图表工具一一Echarts,它是商业级数据图表,一般动态的在互联网上展示分析的数据,并且代码开源,非常适合开发人员研究使用。可自行加页二、完成任务的研究思路和方案本文的主要工作包括设计基于Soapy的网络爬虫爬取豆瓣影评数据;改进特征选择和特征提取算法提高情感倾向性分析的效率;提出了基于情感分析的电影影评评分算法,构建基于情感分析的电影评分模型,并利用爬取的豆瓣影评信息进行仿真实验,验证本文算法和模型的有效性。全文内容安排如下:第一章主要介绍了情感分析相关技术的研究背景与意义、国内外相关研究成果,并简要介绍了本文的主要工作和研究内容。第二章介绍了情感分析的相关理论技术,其具体流程,并详细介绍了几种常用的机器学习算法,情感分析的性能评估方法以及爬虫相关

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论