大数据在选题策划中应用策划书_第1页
大数据在选题策划中应用策划书_第2页
大数据在选题策划中应用策划书_第3页
大数据在选题策划中应用策划书_第4页
大数据在选题策划中应用策划书_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据在选题策划中应用策划书大数据在选题策划中应用策划书 据全球权威的 IT 研究与咨询公司 Gartner 于 20 xx 年 9 月 发布的大数据分析报告显示 全球范围内的媒体和通信行业以 及银行金融业站在了大数据投资的最前沿 相比之下 出版业 作为文化产业 承载着文化传播与文化传承的社会功能 然而 在利用大数据洞悉读者需求上表现欠佳 所以 如何借助不断 增长的大数据进行信息和知识的搜集 组织和传播 成为出版 企业亟待解决的问题 出版企业可利用的大数据的具体形式 对于 大数据 Big Data 研究机构 Gartner 给出了这 样的定义 大数据 是需要新处理模式才能具有更强的决策 力 洞察发现力和流程优化能力的海量 高增长率和多样化的 信息资产 举个例子 1 分钟的时间内 新浪发送 2 万条微博 苹果下载 4 7 万次应用 淘宝卖出 6 万件商品 人人网发生 30 万次访问 百度产生 90 万次搜索查询 由此可见 数据规模的 急剧膨胀 各行业累积的数据量越来越巨大 数据类型也越来 越多 越来越复杂 已经超越了传统数据管理系统 处理模式 的能力范围 于是 大数据 这样一个 无穷大 的概念才会 应运而生 大数据的特点可以被归纳为 数量巨大 类型多样 实时快速 价值高但密度低 正式基于这样的特点 出版企业 可以结合产业的优势对大数据进行充分的挖掘和利用 1 Web 文本挖掘 大数据的核心是挖掘庞大数据库的 独有价值 面对因为网络的飞速发展而带来的信息膨胀 尤其 是以半结构化或非结构化为主的文本信息 人们迫切需要研究 出方便有效的工具去从中提取符合需要的 简洁的 精炼的 可理解的 知识 Web 文本挖掘技术由此产生 而利用 Web 文本挖掘发现大数据的价值也成为可能 文本挖掘是近几年来数据挖掘领域的一个新兴分支 文 本挖掘也称为文本数据库中的知识发现 是从大量文本的集合 或语料库中抽取事先未知的 可理解的 有潜在实用价值的模 式和知识 而随着网络技术的飞速发展 特别是 Web 应用的不 断普及 网络信息急剧增加 信息类型也越来越复杂 如何从 这些大量自由 非结构化或半结构化的信息中获得所需求的知 识 传统的数据挖掘技术已不适用 解决问题的一个途径就是 将传统的文本挖掘技术和 Web 综合起来 进行 Web 文本挖掘 Web 文本挖掘就是以万维网上的数据为分析对象 以抽取有用 知识为目标 把传统文本挖掘技术和万维网相结合的研究技术 2 出版企业可利用的 Web 文本数据 网络上图书评 论的数量极为庞大 有些畅销书可能包含成千上万的评论 借 助 Web 文本挖掘技术能自动地对图书评论进行分析和处理 挖 掘出有用的信息 通过对图书在线评论的挖掘管理 出版企业 可以用较低的成本收集 整理读者对于各类图书的关注兴趣和 欣赏特点 同时也可以获得畅销图书迎合市场需求的关键因素 在此过程中 企业获得了知识资源 同时培育了持续的竞争优 势 因此 可以将各大图书销售网站的读者评论作为出版企业 可利用的大数据分析的首要来源 在企业的销售网站或其借助的其他互联网销售平台上 通过建立在线评论客户知识管理系统 收集 整理和分析客户 评论 将客户评论转化为企业的知识 从而为企业价值链的各 个环节提供客户的信息和知识的共享 并将客户知识延伸到企 业的决策制定中 为企业有效开展客户知识管理提供有效的解 决方案 同时 基于评论挖掘构建的客户知识管理系统 具有 与用户需求同步的快速响应能力 即具有将用户需求迅速转向 图书的策划和印制的能力 这就使得出版企业以响应市场需求 为中心 实时挖掘客户知识 提高优化客户关系的决策能力 准确及时地向客户提供所需的图书产品 大数据在选题策划中的应用 信息收集和预处理 相对于传统数据库中的完全结构化的数据而言 Web 数 据的最大特点就是半结构化 从评论挖掘的角度来看 Web 上 的网页包含的信息并不都是有用的 体现网页的主题信息的是 主题 内容 与主题内容无关的导航条 广告信息等内容则 是 噪音 内容 网页净化过程就是去掉包含噪音内容的内容 块 只保留网页中包含主题内容的内容块 因此在评论挖掘的 数据预处理阶段 首要任务就是完成 Web 网页净化过程 去除 网页内容中的音频 视频 图片等其他非文本信息 还有各种 网页本身的标记语言 最后仅剩下网页中的文字评论内容 从 Web 页面中提取出文本评论信息 评论页面的下载可以采用聚焦爬虫技术 所谓聚焦爬虫 是能实现自动下载网页功能的程序 它根据指定的抓取目标 有选择地获取万维网上的网页及其相关的链接 抓取所需要的 信息 通过对 Web 页面的语义结构进行描述 产生适合计算机 自动处理的描述文件和指令文件 实现持续地 大批量地提取 Web 信息 图书特征提取和情感分析 评论内容是中文语句 要从中提取词语 进而获得读者 关注的图书特征 首先需借助中文分词技术 中文分词技术属 于自然语言处理技术领域 它通过词性标注将一个汉字序列切 分成相互独立的词 文本挖掘的基础是中文分词 一段中文要 使得计算机自动识别语句语义 必须通过准确的中文分词处理 在中文分词和词性标注的基础上 使用汉语分词软件的关键词 提取功能提取评论内容中的关键词 按照权重排序找出高频名 词或名词性短语作为候选词汇 通过人工定义和筛选 得到读 者评论中的图书属性特征词集合 挖掘出的图书的读者关注特征 是读者图书评论中最集 中和最热点的特征 但每项特征具体的评价倾向性还需进一步 分析和处理 即通过提取读者对每项关注特征所持有的褒贬态 度 分析其评价情感倾向性 情感词可以细分为情感特征词汇 和情

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论