




下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、大数据在选题策划中应用策划书全球权威IT研究咨询公司高德纳(Gartner)发布的大数据分析报告显示,20xx年9月,全球媒体通信行业和银行金融行业处于大数据投资的前沿。相比之下,出版业作为文化产业,承担着文化传播和传承的社会功能,但在利用大数据了解读者需求方面的表现却很差。因此,如何借助日益增长的大数据收集、组织和传播信息和知识,成为出版企业迫切需要解决的问题。出版公司可用的特定形式的大数据至于“大数据”,研究机构Gartner给出了这样的定义:“大数据”是一种海量、高增长、多样化的信息资产,需要一种新的处理模式,才能具有更强的决策、洞察和发现以及流程优化能力。例如,在一分钟内,新浪发了2万
2、条微博,苹果下载了4.7万个应用,淘宝卖了6万个产品,R访问了30万次,百度产生了90万个搜索查询。可以看出,随着数据规模的迅速扩大,各行业积累的数据量越来越大,数据类型越来越复杂,已经超出了传统数据管理系统和处理模式的能力。于是“大数据”等“无限”的概念就产生了。大数据的特点可以概括为:数量巨大、类型多样、实时速度快、价值高但密度低。正式基于这样的特点,出版公司可以结合行业优势,充分挖掘和利用大数据。(1)Web文本挖掘。大数据的核心是发掘巨大数据库的独特价值。面对网络快速发展带来的信息膨胀,尤其是半结构化或非结构化的文本信息,人们迫切需要开发方便有效的工具来提取满足需求的
3、“简洁”、“精炼”、“易懂”的知识,Web文本挖掘技术应运而生。利用Web文本挖掘也有可能发现大数据的价值。文本挖掘是近年来数据挖掘的一个新分支。文本挖掘又称文本数据库中的知识发现,是从大量的文本集合或语料库中提取出以前未知的“可理解”模式和具有潜在实用价值的知识。随着网络技术的快速发展,特别是网络应用的不断普及,网络信息迅速增加,信息类型越来越复杂。如何从这些大量的自由、非结构化或半结构化的信息中获取所需的知识,传统的数据挖掘技术已经不再适用,解决问题的一种方法是将传统的文本挖掘技术与Web相结合,进行Web文本挖掘。Web文本挖掘是将传统的文本挖掘技术与万维网相结合,以万维网上的数据为分析
4、对象,旨在提取有用知识的研究技术。(2)可供出版企业使用的Web文本数据。互联网上的书评数量极其庞大,一些畅销书可能包含数千篇书评。借助Web文本挖掘技术,可以自动分析和处理书评,挖掘有用的信息。出版企业通过对图书在线评论的挖掘和管理,可以以较低的成本收集和整理读者对各种图书的兴趣和欣赏特点,同时获得畅销书满足市场需求的关键因素。在这个过程中,企业获取知识资源,培育持续的竞争优势。因此,主要图书销售网站的读者评论可以作为出版企业可用的大数据分析的主要来源。在企业的销售网站或其他互联网销售平台上,通过建立在线评论客户知识管理系统,对客户评论进行收集、整理和分析,并转化为企业知识,从而为企业价值链
5、的各个环节提供客户信息和知识共享,将客户知识延伸到企业决策中,为企业有效进行客户知识管理提供有效的解决方案。同时,基于评论挖掘的客户知识管理系统具有与用户需求同步快速响应的能力,即具有快速将用户需求转化为图书策划和印刷的能力。这使得出版企业专注于响应市场需求,实时挖掘客户知识,提高优化客户关系的决策能力,准确及时地向客户提供所需的图书产品。大数据在选题策划中的应用信息收集和预处理与传统数据库中完全结构化的数据相比,Web数据最大的特点是半结构化。从评论挖掘的角度来看,网页中包含的信息并不都是有用的,但“主题”内容反映了网页的主题信息;与主题内容无关的导航栏、广告信息等内容是“嘈杂”的内容。网页
6、净化过程是去除包含噪声内容的内容块,只保留网页中包含主题内容的内容块。因此,在评论挖掘的数据预处理阶段,首要任务是完成网页的净化过程,去除网页的音频、视频、图片、各种标记语言等其他非文本信息,最后只剩下网页中的文本评论内容,从网页中提取文本评论信息。评论页可以通过聚焦爬虫技术下载。所谓聚焦爬虫,就是一个可以自动下载网页的程序。它可以根据指定的抓取目标,有选择地获取万维网上的网页和相关链接,并对所需信息进行抓取。通过描述网页的语义结构,生成适合计算机自动处理的描述文件和指令文件,可以连续、大量地提取Web信息。书籍的特征提取和情感分析评论是中文句子。要从其中提取单词,获得读者关注的书籍特征,首先
7、要使用中文分词技术。中文分词技术属于自然语言处理技术领域。它通过词性标注将一个汉字序列分成相互独立的单词。文本挖掘的基础是中文分词。一段中文要想让计算机自动识别句子的语义,必须通过准确的中文分词进行处理。在中文分词和词性标注的基础上,利用中文分词软件的关键词提取功能,提取评论内容中的关键词,根据权重排序找出高频名词或名词短语作为候选词,通过人工定义和筛选,获得读者评论中的图书属性特征词集。挖掘出的图书的读者关注特征是读者书评中最集中、最热门的特征,但每个特征的具体评价倾向有待进一步研究分析和处理,即通过提取读者对每项关注特征所持有的褒贬态度,分析其评价情感倾向性。情感词可以细分为情感特征词汇和情感强度词汇。客户评
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 安徽省宣城市郎溪县2023-2024学年高一上学期期末考试历史题目及答案
- 幽默三国读后感550字(9篇)
- 售后服务流程标准化服务脚本
- 城市绿化养护项目管理合同
- 营销方案撰写指南
- 可爱的小仓鼠爱的作文(15篇)
- 时间变化的声音课件
- 通稿2003读后感9篇范文
- 诗歌修辞手法与意境构建:八年级古诗鉴赏教案
- 记一件令我感动的事感动作文(10篇)
- 《颅脑与腹部损伤》课件
- 2025年企业劳动者雇佣合同样本
- 安徽省高一英语必修一单词表
- 企业级实验设备的投资回报分析方法
- DB37T 5133-2019 预制双面叠合混凝土剪力墙结构技术规程
- 老年上消化道出血急诊诊疗专家共识(2024版)解读
- 顺产产后护理查房
- 《糖尿病饮食教育》课件
- 承包村里集体建设用地协议范文
- 胸腰椎骨折的康复治疗
- 第五讲铸牢中华民族共同体意识-2024年形势与政策
评论
0/150
提交评论