




已阅读5页,还剩2页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
此文档收集于网络,如有侵权,请联系网站删除大数据价值挖掘的难点和重点:非结构化数据处理大数据分析和应用得到了各个行业的关注,人们试图从大量数据中发现蕴含的模式和规律,进而产生更多的价值,“数据”作为分析对象在这个过程中所起到的作用是决定性的。本文对结构化数据、非结构化数据、数据结构、关系型数据库、实体关系图、数据模型等我们熟悉的概念进行剖析,说明它们之间的联系和区别。指出非结构化数据处理是大数据分析技术的难点和重点,是提升大数据价值挖掘深度的宝剑,在大数据的教学、研究、学习和应用开发中,围绕非结构化数据处理应当成为核心和重点。数据这个概念对于每个人来说,是再熟悉不过的,我们生活在数据的世界里,在将来智能发达的时代里更是一刻也离不开数据。然而在千变万化的各种数据中,是否存在一些稳定不变的本质?在变化中寻找不变是科学探索的一条重要思维原则。各种形式的数据可以归结为结构化数据、半结构化数据和非结构化数据三大种类。它们的区别在于数据的表示是否存在预先定义好的数据模型,因此什么是数据模型是深入理解大数据的关键。数据模型是一种抽象模型,用于表达数据含义的构成单元及其它们之间相互关系、数据与现实世界之间的对应关系。数据模型包括三种相对独立的层次上的模型。一是物理数据模型,表示了数据在计算机中存储的物理结构,通常是数据库中的分区、表空间、段、文件等。二是逻辑数据模型,表示了数据在计算机中进行计算处理的逻辑结构,通常是数据表、列、对象、符号、树等。通常所说的数据结构是在计算机中高效存取和运算数据的一种表示方法,是逻辑数据模型的组织形式,选择好一个数据结构能加快计算过程。三是概念数据模型,表示了数据所表达的事实,即它们与现实世界的关系,通常是实体、属性、实体关系等。有时候也称为语义数据模型,是数据在现实世界的真实表示。例如对于计算机来说,“图书”只是一个字符串,如何让计算机知道它所代表的现实含义,这就需要数据模型要能够表达数据与现实世界的映射关系,由此,可能要告诉计算机出版社印刷的那种东西,进一步要告诉计算机什么是“出版社”。在逻辑数据模型方面,对于数据库管理系统(SQL、NoSQL)来说,其实现的逻辑数据模型包括单表模型、层次模型、网络模型、关系模型等,后两者分别对应于我们非常熟悉的图数据库、关系型数据库。但是,不管是层次、网络、关系或其他类型的逻辑数据模型,都无法完全满足数据的概念定义要求。这是因为它所能表达的范围是有限的,并且偏向于DBMS所使用的实现策略。在概念数据模型方面,实体关系模型是广泛被接受的模型之一,用于软件工程中表示结构化数据。通常使用图形方式来表达,如图所示是一个实体关系模型例子。“图书”作为一种逻辑数据模型,由“书名”、“作者”、“出版社”、“出版日期”等单元构成,“作者”、“出版社”也具有各自的实体描述。这种结构化数据形式可以转化为关系型数据库中的表,如book(name,author,publisher,publish_date),存储到该表中的图书具有统一的预先设定好的模型。不管是曾剑平编著的书,还是吴军编著的书,最后都必须结构化为如下四元组的形式。结构化数据:(互联网大数据处理技术与应用,曾剑平,清华大学出版社,2017)(数学之美,吴军、人民邮电出版社,2014)而对于非结构化数据的表述方式,则不存在这样的结构。由于缺乏统一的结构限制,同样的含义就有不同的叙述方式,以下的文本表述就表达了同样的含义。非结构化数据:“互联网大数据处理技术与应用一书是由曾剑平编著,并由清华大学出版社于2017年出版。”“曾剑平编著了互联网大数据处理技术与应用一书,并于2017年由清华大学出版社出版。”“清华大学出版社于2017年出版了曾剑平编著的互联网大数据处理技术与应用一书。”等等。半结构化数据具有自描述的数据模型。半结构化数据:(书名:互联网大数据处理技术与应用;作者:曾剑平;出版社:清华大学出版社;出版日期:2017)这里的书名、作者、出版社、出版日期就是自描述标签。可见,结构化数据、半结构化数据、非结构化数据的最主要区别在于是否存在预先定义好的数据模型,更确切的说是概念数据模型。结构化数据能够用统一的某种结构加以表示,离开了这种结构,数据就没有意义;非结构化数据没有概念数据模型形式的限制,可以自由表达;而半结构化数据具有某种结构,但是数据本身带有结构的含义。非结构化数据包含了文本、图象、声音、影视、超媒体等典型信息,在互联网上的信息内容形式中占据了很大比例。随着“互联网+”战略的实施,将会有越来越多的非结构化数据产生,据预测,非结构化数据将占据所有各种数据的70-80%以上。结构化数据分析挖掘技术经过多年的发展,已经形成了相对比较成熟的技术体系。也正是由于非结构化数据中没有限定结构形式,表示灵活,蕴含了丰富的信息。因此,综合看来,在大数据分析挖掘中,掌握非结构化数据处理技术是至关重要的。其挑战性问题在于语言表达的灵活性和多样性,具体的非结构化数据处理技术包括:(1)Web页面信息内容提取;(2)结构化处理(含文文本的词汇切分、词性分析、歧义处理等);(3)语义处理(含实体提取、词汇相关度、句子相关度、篇章相关度、句法分析等)(4)
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 车辆风险押金合同协议
- 还贷免责协议书模板
- 建筑设计与施工合同及协议
- 历史文化保护与传承的试题研究
- 《当代生产管理策略》课件
- 猪肉购销合同
- 民政合作协议书
- 语培课程合同协议书模板
- 返建房房屋合同补充协议
- 车场使用协议书范本
- 《卫星遥感技术》课件
- 店长工资提成协议书范本
- 基于模糊强化学习和模型预测控制的追逃博弈
- 《餐厅营销策略解析》课件
- GB/T 45167-2024熔模铸钢件、镍合金铸件和钴合金铸件表面质量目视检测方法
- 《社区居家养老探究的国内外文献综述》2500字
- 解放战争完整版本
- 《山东省蒙阴县蜜桃产业的现状、问题及对策研究》
- 施工现场防火安全管理制度
- 住院精神疾病患者自杀风险护理2023版团标
- 国家安全教育知到智慧树章节测试课后答案2024年秋临沂职业学院
评论
0/150
提交评论