《毕设中期报告》PPT课件.ppt_第1页
《毕设中期报告》PPT课件.ppt_第2页
《毕设中期报告》PPT课件.ppt_第3页
《毕设中期报告》PPT课件.ppt_第4页
《毕设中期报告》PPT课件.ppt_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

网络热点信息的监测与发现研究 专业 数字媒体班级 0305100103姓名 丁云翔导师 吴锋 1 毕设进展状况 自2014年2月完成开题报告以来 按照开题报告中的计划展开研究 在导师的指导下 毕设的研究工作进展比较顺利 先将这一段时间的情况做一个介绍 自开题报告以来我学习了一些算法及有关知识 具体内容如下 在前期完成了以下工作 1 查阅了许多相关文献资料 已经完成需求分析 2 完成数据的采集分析 功能概述的详细设计 3 完成大部分数据搜集 分析 4 对HTML CSS与PHP数据库开发进行了一定的学习通过对这些知识的重新温故和学习 对后面所要完成的任务更加清晰 5 对层次分析法的理解和学习 本系统的具体模块 先介绍一下两个大模块 网络微博获取模块和数据处理分析模块在网络微博获取中 主要要实现的对网络微博信息的获取 类似网络爬虫在数据分析模块中 主要实现对获取的数据进行各个关键词分类 分析 同时通过对其热度计算进行排序 文本数据挖掘处理 网络信息挖掘是从大量训练样本的基础上得到数据对象间的内在特征 并以此为依据进行有目的的信息提取 网络信息挖掘技术沿用了Robot 全文检索等网络信息检索中的优秀成果 同时以知识库技术为基础 综合运用人工智能 模式识别 神经网络领域的各种技术 应用网络信息挖掘技术的智能搜索引擎系统能够获取用户个性化的信息需求 根据目标特征信息在网络上或者信息库中进行有目的的信息搜寻 对于微博的文本数据挖掘 包括数据获取 预处理 数据转换 文本数据挖掘处理结构 微博数据挖掘处理 当前进展 通过对采集的数据 2013 01 01 2014 04 01 进行分析得到对于是否为微博热点信息的主要特征指标 包括认证信息 粉丝 评论 转发 四个指标属性 对各个指标的确立分类 分析 V的分类 微博信息采集 转发 评论 拟定一个微博热度公式模型 对此微博的态度 对此微博的情绪 对V认证信息的分类 对对此微博态度的分类 对此微博情绪的分类 上述各项内容在数据采集以及分析上已基本完成 同时对于数据采集后的数据处理正在进行 2 1存在问题 1 目前数据的采集依靠的是人工采集和网络爬虫 来自网络 并非自己的程序系统 目前参照网络爬虫正在设计设和自己的网络爬虫以便更快速方便的获得数据 2 数据挖掘后续工作的遇到阻碍 进展较慢 3 需要更多的数据来拟定公式 目前对于拟定公式数据量不够容易出现错误 2 2解决措施 1 进一步理解望楼爬虫工作原理结合自己所需内容设计爬虫 2 多参阅一些有关书籍 文献 多运用有关方面的知识 进一步完善数据的分析处理得到公式模型 3 后期工作安排 通过对前面阶段的努力 在后期的工作安排主要有一下几点 完成网络爬虫设计 完成对爬虫获取微博热度的分析 排序的设计 完成界面的美观设计 具体安排 4月内 网络爬虫设计 并初步定下公式模型 5月初至5月中旬 完成对获取微博的热度分析 排

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论