大数据专业英语教程 课件 Unit 2 A Structured Data,Unstructured Data and Semi-structured Data_第1页
大数据专业英语教程 课件 Unit 2 A Structured Data,Unstructured Data and Semi-structured Data_第2页
大数据专业英语教程 课件 Unit 2 A Structured Data,Unstructured Data and Semi-structured Data_第3页
大数据专业英语教程 课件 Unit 2 A Structured Data,Unstructured Data and Semi-structured Data_第4页
大数据专业英语教程 课件 Unit 2 A Structured Data,Unstructured Data and Semi-structured Data_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

StructuredData,UnstructuredDataandSemi-structuredData

Unit

2TextAContents

NewWords

Abbreviations

Phrases参考译文NewWordsNewWordsNewWordsNewWordsNewWordsPhrasesAbbreviationsListeningtoTextA结构化数据、非结构化数据和半结构化数据1.结构化数据结构化数据是符合数据模型、具有定义明确的结构、遵循一致顺序并且可以由人或计算机程序轻松访问和使用的数据。它通常存储在定义明确的架构(例如数据库)中。它通常是表格形式,具有明确定义其属性的列和行。SQL通常用于管理存储在数据库中的结构化数据。1.1结构化数据的特征•数据符合数据模型,并具有易于识别的结构。•数据以行和列的形式存储。•数据井井有条,因此具有明确的定义、格式和含义。•数据位于记录或文件的固定字段中。•将相似的实体组合在一起以形成关系或类。•同一组中的实体具有相同的属性。•数据易于访问和查询,因此其他程序可以轻松使用。参考译文1.2结构化数据的来源•SQL数据库•电子表格,例如Excel•OLTP系统•在线表格•传感器,例如GPS或RFID标签•网络和Web服务器日志•医疗设备1.3结构化数据的优势•结构化数据具有定义明确的结构,有助于轻松存储和访问数据。•可以基于文本字符串和属性为数据建立索引。这使搜索操作变得轻松自如。•数据挖掘很容易,即可以轻松地从数据中提取知识。•由于具有结构良好的数据形式,因此更新和删除等操作很容易。•可以轻松进行诸如数据仓库之类的商业智能操作。•如果数据有增加,则可以轻松扩展。•很容易确保数据的安全性。注意:结构化数据仅占数据的20%,但其高度的组织性和性能使其成为大数据的基础。参考译文参考译文2.非结构化数据非结构化数据是不符合数据模型并且没有易于识别的结构的数据,因此不易被计算机程序所使用。非结构化数据不是以预定义的方式组织的,也不具有预定义的数据模型,因此它不适用于主流的关系数据库。2.1非结构化数据的特征•数据既不符合数据模型也不具有任何结构。•数据不能以行和列的形式存储。•数据不遵循任何语义或规则。•数据缺少任何特定的格式或序列。•数据没有易于识别的结构。•由于缺乏可识别的结构,不易被计算机程序使用。2.2非结构化数据的来源•网页•图像(JPEG、GIF、PNG等)•视频•备忘•报告•Word文档和PowerPoint演示文件•调查2.3非结构化数据的优势•它支持缺少正确格式或序列的数据。•数据不受固定模式的约束。•由于没有模式,因此非常灵活。•数据是可移植的。•它具有很好的可扩展性。•它可以轻松处理数据源的异构性。•它可以应用于具有各种商业智能和分析。2.4非结构化数据的缺点•由于缺乏模式和结构,非结构化数据很难存储和管理。•索引数据很困难,并且由于结构不清晰且没有预定义的属性而导致错误,因此搜索结果不太准确。•确保数据的安全性是一项艰巨的任务。

参考译文2.5存储非结构化数据时面临的问题•需要大量存储空间来存储非结构化数据。•很难存储视频、图像、音频等。•由于结构不清楚,因此更新、删除和搜索等操作非常困难。•与结构化数据相比,存储成本很高。•索引非结构化数据很困难。2.6用于存储非结构化数据的可能解决方案•非结构化数据可以转换为易于管理的格式。•使用内容可寻址存储系统存储非结构化数据。•根据其元数据存储数据,并且为存储在其中的每个对象分配唯一的名称。根据内容而不是其位置检索对象。•非结构化数据可以XML格式存储。•非结构化数据可以存储在支持BLOB的RDBMS中。参考译文2.7从非结构化数据中提取信息非结构化数据没有任何结构。因此,传统算法不能轻易解释它。标记和索引非结构化数据也很困难。因此,从中提取信息是一项艰巨的工作。这里是一些可能的解决方案。•分类法或数据分类有助于按层次结构组织数据,这将使搜索过程变得容易。•数据可以存储在虚拟存储库中并被自动标记。•使用XOLAP之类的应用程序平台。XOLAP帮助从电子邮件和基于XML的文档中提取信息。•使用各种数据挖掘工具。参考译文参考译文3.半结构化数据半结构化数据是不符合数据模型但具有某种结构的数据。它缺乏固定或严格的模式。数据不是驻留在合理数据库中,但具有一些使其更易于分析的组织属性。通过一些方法,我们可以将它们存储在关系数据库中。3.1半结构化数据的特征•数据不符合数据模型,但具有某种结构。•不能以行和列的形式存储数据。•半结构化数据包含标签和元素(元数据),这些标签和元素可用来对数据进行分组并描述数据的存储方式。•将相似的实体组合在一起并按层次结构进行组织。•同一组中的实体可能有也可能没有相同的属性。•它没有足够的元数据,这使得数据的自动化和管理变得困难。•属性相同的一组数据其大小和类型可能不同。•由于缺乏明确定义的结构,无法容易地被计算机程序使用。3.2半结构化数据的来源•电子邮件•XML和其他标记语言•二进制可执行文件•TCP/IP数据包•压缩文件•来自不同来源的整合数据•网页3.3半结构化数据的优势•数据不受固定模式的约束。•灵活,即可以轻松更改架构。•数据是可移植的。•可以将结构化数据视为半结构化数据。•它为无法用SQL表达需求的用户提供支持。•它可以轻松处理数据源的异构性。

参考译文3.4半结构化数据的缺点•缺乏固定的和严格的架构,因此存储数据困难。•因为架构和数据没有分离,很难解释数据之间的关系。•与结构化数据相比,查询效率较低。3.5存储半结构化数据时面临的问题•数据通常具有不规则的部分结构。一些源具有隐式的数据结构,这使解释数据之间的关系很困难。•模式和数据通常紧密耦合,即它们不仅链接在一起,而且彼此依赖。同一查询可能会同时更新架构和数据,而架构会经常更新。•模式和数据之间的区别非常不确定或不清楚。这使数据结构的设计复杂化。•与结构化数据相比,存储成本很高。参考译文参考译文3.6存储半结构化数据的可能解决方案•数据可以存储在专门为存储半结构化数据而设计的DBMS中。•XML被广泛用于存储和交换半结构化数据。它允许用户定义标签和属性,以分层形式存储数据。模式和数据在XML中并没有紧密耦合。•对象交换模型(OEM)可用于存储和交换半结构化数据。OEM以图形形式构造数据。•通过将数据映射到关系模式,然后将其映射到表,可以使用RDBMS来存储数据。3.7从半结构化数据中提取信息由于数据源的异构性,半结构化数据具有不同的结构。有时它根本不包含任何结构。这使标记和索引数据很困难。因此,从中提取信息是一项艰巨的工作。这里是一些可能的解决方案。•基于图形模型(例如

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论