版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
物联网数据分析及支持服务结构化数据与非结构化数据、动态数据与静态数据——机器学习的作用——NoSQL数据库——Hadoop生态系统——ApacheKafka、ApacheSpark——边缘流分析与网络分析——面向物联网的Xively云平台、PythonWeb应用框架——Django——面向物联网的AWS——使用NETCONF-YANG106进行系统管理物联网数据分析入门物联网领域,传感器产生海量数据是常态,也是最大的挑战之一——不仅从运输角度来看如此,从数据管理角度来看也是如此。物联网能够产生海量数据的一个绝佳例子是商业航空业以及部署在飞机各处的传感器。商用喷气发动机例子现代喷气式发动机,类似于图中所示的发动机,可能配备约5000个传感器。因此,一架配备这些发动机的双引擎商用飞机,平均每天运行8小时,每天将产生超过500TB的数据,而这仅仅是发动机产生的数据!如今的飞机上还有成千上万个传感器连接到机身和其他系统。事实上,一架现代巨型喷气式客机的单侧机翼就配备了10,000个传感器。拍字节每架商用飞机每天的数据量(PB)。全球每天约有10万架次商业航班。仅商业航空业产生的物联网数据量就十分庞大。结构化数据与非结构化数据物联网网络中的智能对象会生成结构化数据和非结构化数据。结构化数据由于其组织结构明确,因此更容易管理和处理。另一方面,非结构化数据更难处理,通常需要非常不同的分析工具来处理数据。熟悉这两种数据分类非常重要,因为了解你正在处理的数据分类可以让你更容易地将其与相应的数据分析解决方案集成。动态数据与静态数据与大多数网络一样,物联网网络中的数据要么处于传输中(“动态数据”),要么处于保存或存储状态(“静态数据”)。动态数据的例子包括传统的客户端/服务器交换,如网页浏览和文件传输,以及电子邮件。保存到硬盘、存储阵列或USB驱动器中的数据是静态数据。从物联网的角度来看,智能对象产生的数据在通过网络到达最终目的地的过程中,被视为动态数据。这通常在边缘端使用雾计算进行处理。当数据在边缘进行处理时,可能会被过滤和删除,或者转发到雾节点或数据中心进行进一步处理和可能的存储。数据不会止步于边缘。当数据到达数据中心时,可以像在边缘一样实时处理它,即使它还在传输过程中。用于分析存储数据的工具相比,具有这种功能的工具(如Spark、Storm和Flink)还处于相对初级阶段。物联网数据分析概述将价值和复杂性因素应用于数据分析类型物联网数据分析挑战扩展性问题:由于大多数物联网网络中存在大量智能对象,它们会持续发送数据,因此关系型数据库会迅速变得异常庞大。这会导致性能问题,而解决这些问题的成本可能很高,通常需要对硬件和架构进行更多更改。数据波动性:对于关系型数据库而言,从一开始就正确设计模式至关重要。后期更改模式可能会导致数据库运行速度变慢甚至停止。由于关系型数据库缺乏灵活性,因此必须尽可能减少模式的修改次数。物联网然而,数据具有不稳定性,因为数据模型很可能会随着时间的推移而变化和演变。因此,通常需要动态模式,以便能够每天甚至每小时进行数据模型更改。机器学习物联网的核心课题之一是如何理解所产生的数据。由于这些数据大多难以用肉眼理解,因此需要专门的工具和算法来发现数据之间的关系,从而获得新的商业洞察。这就引出了机器学习(ML)这个话题。物联网而言确实至关重要。智能对象收集的数据需要进行分析,并且需要根据这些分析结果采取智能行动。手动执行这种操作几乎是不可能的(或者非常非常慢且效率低下)。我们需要机器来快速处理信息,并在达到阈值时立即做出反应。机器学习概述人工智能(AI)这一术语下通常归类的一系列技术的一部分。这个词曾经让科幻爱好者梦想着双足机器人和有意识的机器,或者梦想着一个类似《黑客帝国》的世界,在这个世界里机器会奴役人类。人工智能包括任何能够让计算机系统使用任何技术来模仿人类智能的技术,从非常高级的逻辑到基本的“如果-那么-否则”决策循环。一个简单的例子是可以帮助你找到停放车辆的应用程序。简单的静态规则集在更复杂的情况下,静态规则不能简单地插入到程序中,因为它们需要可以改变或尚未完全理解的参数。一个典型的例子是运行在计算机上的语音识别程序。该程序被配置为识别字典中每个单词的音频模式,但它不知道你的声音口音、音调、语速等等。你需要录制一组预先设定的句子,以帮助该工具将常用词汇与你发音时发出的声音进行匹配。这个过程被称为机器学习。机器学习关注的是计算机需要接收一组数据并进行处理,从而更高效地完成任务的任何过程。监督式学习无监督学习监督学习算法是使用标记数据进行训练的。无监督学习算法使用未标记的数据进行训练。监督学习模型会直接接收反馈,以检查其预测的输出是否正确。无监督学习模型不接受任何反馈。监督学习模型预测输出结果。无监督学习模型能够发现数据中隐藏的模式。在监督学习中,模型会同时获得输入数据和输出结果。在无监督学习中,模型只需要接收输入数据。监督学习的目标是训练模型,使其能够在获得新数据时预测输出。无监督学习的目标是从未知数据集中发现隐藏的模式和有用的见解。监督式学习需要监督者来训练模型。无监督学习不需要任何监督即可训练模型。监督式学习无监督学习监督学习可以分为分类问题和回归问题。无监督学习可以分为聚类问题和关联问题。监督学习适用于我们知道输入以及相应输出的情况。无监督学习适用于只有输入数据而没有相应输出数据的情况。监督学习模型能够产生准确的结果。与监督学习相比,无监督学习模型可能给出不太准确的结果。监督学习与真正的人工智能相去甚远,因为在监督学习中,我们首先需要针对每组数据训练模型,然后模型才能预测正确的输出。无监督学习更接近真正的人工智能,因为它学习的方式类似于孩子通过经验学习日常事物。它包含了各种算法,例如线性回归、逻辑回归、支持向量机、多类分类、决策树、贝叶斯逻辑等。Apriori算法等多种算法。神经网络模仿人脑工作方式的机器学习方法。当你观察一个人形时,大脑的多个区域会被激活,以识别颜色、动作、面部表情等等。你的大脑将这些因素结合起来,得出结论:你看到的形状是人形。神经网络也模仿同样的逻辑。NoSQL数据库简介数据库管理系统提供存储和检索数据的机制。数据库管理系统有以下几种类型:
1.
关系数据库管理系统(RDBMS)
2.联机分析处理(OLAP)
3.NoSQL(不仅限于SQL)什么是NoSQL数据库?
NoSQL数据库与MQSQL等关系型数据库有所不同。在关系数据库中,你需要先创建表、定义模式、设置字段的数据类型等等,然后才能实际插入数据。在NoSQL中,你不必担心这个问题,你可以随时插入、更新数据。
NoSQL数据库的优势之一是它们非常容易扩展,并且在我们对数据库执行的大多数类型的操作中速度都快得多。在某些情况下,您可能会更喜欢关系型数据库而不是NoSQL数据库;但是,当您处理海量数据时,NoSQL数据库是您的最佳选择。关系型数据库的局限性1.在关系数据库中,我们需要先定义数据的结构和模式,然后才能处理数据。ACID特性(原子性、一致性、隔离性和持久性)来保证数据的一致性和完整性。在某些情况下,例如银行系统,这种特性非常有用。然而,在大多数其他情况下,这些特性会带来显著的性能开销,并可能导致数据库响应速度非常慢。3.大多数应用程序都以JSON格式存储数据,而关系型数据库管理系统(RDBMS)并没有提供更好的方法来对这些数据执行创建、插入、更新、删除等操作。另一方面,NoSQL也以JSON格式存储数据,这种格式与当今大多数应用程序兼容。NoSQL有哪些优势?高可扩展性高可用性NoSQL数据库的类型以及属于该类别的数据库系统名称。MongoDB属于NoSQL文档型数据库。
键值存储:
Memcached、Redis、Coherence
表格:
HBase、BigTable、Accumulo
基于文档:
MongoDB、CouchDB、Cloudant
何时选择NoSQL
何时应该选择NoSQL而不是关系型数据库:当您需要存储和检索大量数据时。你存储的数据之间的关系并不那么重要。数据结构混乱且随时间变化数据库层面不需要对约束和连接提供支持。数据量持续增长,需要定期扩展数据库以处理数据。
Hadoop概述ApacheHadoop是一个开源框架,旨在简化与大数据交互的过程。Hadoop已在需要处理敏感且需要高效处理的大型数据集的行业和公司中占据了一席之地。Hadoop是一个框架,它能够处理以集群形式存在的大型数据集。Hadoop作为一个框架,由多个模块组成,并由庞大的技术生态系统提供支持。
Hadoop架构与生态系统
Hadoop架构Hadoop主要分为两层,即处理/计算层Hadoop分布式文件系统的存储层MapReduceHDFSHadoop生态系统Hadoop生态系统是一个平台或套件,提供各种服务来解决大数据问题。它包括Apache项目以及各种商业工具和解决方案。Hadoop由四个主要组成部分构成,分别是HDFS、MapReduce、YARN和HadoopCommons。大多数工具或解决方案都用于补充或支持这些主要要素。所有这些工具共同协作,提供数据吸收、分析、存储和维护等服务。以下是构成Hadoop生态系统的各个组件。HDFS:Hadoop分布式文件系统YARN:又一位资源谈判者MapReduce:基于编程的数据处理Spark:内存数据处理Pig、Hive:基于查询的数据服务处理HBase:NoSQL数据库Mahout,SparkMLLib:
机器学习算法库Solar、Lucene:搜索和索引Zookeeper:管理集群Oozie:作业调度Hadoop分布式文件系统
Hadoop生态系统的主要组成部分,负责在各种节点上存储大型结构化或非结构化数据集,并以日志文件的形式维护元数据。HDFS将文件分割成块,并以大型集群的形式在各个节点间传输。即使某个节点发生故障,系统也能继续运行,HDFS会协助节点间的数据传输。它具有很高的容错能力,并且设计用于部署在低成本硬件上。它提供对应用程序数据的高吞吐量访问,适用于拥有大型数据集的应用程序。HDFS由两个核心组件构成,即名称节点数据节点名称节点是主节点,它包含元数据(关于数据的数据),与存储实际数据的数据节点相比,所需的资源相对较少。这些数据节点在分布式环境中通常使用通用硬件。毫无疑问,这使得Hadoop具有成本效益。HDFS负责维护集群和硬件之间的所有协调,因此是系统的核心。HDFSHDFS可以存储海量数据,并提供更便捷的访问方式。为了存储如此庞大的数据,文件被存储在多台机器上。这些文件以冗余方式存储,以便在系统发生故障时避免数据丢失。HDFS还使应用程序能够进行并行处理。HDFS的特性它适用于分布式存储和处理。Hadoop提供了一个命令行界面来与HDFS进行交互。内置的名称节点和数据节点服务器可以帮助用户轻松检查集群状态。对文件系统数据的流式访问。HDFS提供文件权限和身份验证。HDFS的优势它价格便宜,本质上不变的,可靠地存储数据,容忍错误的能力可扩展的,块状结构,能够同时处理大量数据,以及更多其他功能。纱YetAnotherResourceNegotiator)顾名思义,是帮助管理集群间资源的工具。简而言之,它负责对Hadoop系统进行调度和资源分配。由三个主要部分组成,即资源管理器节点管理器应用程序管理器资源管理器拥有为系统中的应用程序分配资源的权限,而节点管理器负责分配每台机器的CPU、内存、带宽等资源,并在之后向资源管理器发出确认。应用程序管理器充当资源管理器和应用程序管理器之间的接口。节点管理器,并根据双方的要求进行协商。YARN架构纱ApacheYarn–“又一个资源协商器”是Hadoop的资源管理层。Hadoop2.x版本中引入的。Yarn允许不同的数据处理引擎(例如图处理、交互式处理、流处理以及批处理)运行并处理存储在HDFS中的数据。除了资源管理之外,Yarn还负责作业调度。MapReduce
MapReduce是Google开发的一种并行编程模型,用于编写分布式应用程序,以便在大型集群(数千个节点的通用硬件)上以可靠、容错的方式高效处理大量数据(多TB数据集)。MapReduce程序运行在Hadoop上,Hadoop是一个Apache开源框架。MapReduceMapReduce利用分布式和并行算法,能够传递处理逻辑,并帮助编写将大数据集转换为可管理数据集的应用程序。MapReduce使用两个函数,即Map()和Reduce(),其任务是:Map()方法对数据进行排序和过滤,从而将数据组织成组。Map生成基于键值对的结果,该结果随后由Reduce()方法进行处理。顾名思义,`Reduce()`函数通过聚合映射后的数据来进行汇总。简单来说,`Reduce()`函数以`Map()`函数生成的输出作为输入,并将这些元组合并成更小的元组集合。猪Pig基本上是由雅虎开发的,它使用PigLatin语言,这是一种类似于SQL的基于查询的语言。它是一个用于构建数据流、处理和分析海量数据集的平台。Pig负责执行命令,并在后台处理MapReduce的所有活动。处理完成后,Pig会将结果存储在HDFS中。JVM上一样。Pig有助于实现编程和优化的便捷性,因此是Hadoop生态系统的重要组成部分。蜂巢
借助SQL方法和接口,Hive可以对大型数据集进行读写操作。然而,它的查询语言被称为HQL(Hive查询语言)。Hive具有高度可扩展性,因为它既支持实时处理也支持批量处理。此外,Hive支持所有SQL数据类型,从而简化了查询处理。与查询处理框架类似,HIVE也包含两个组件:JDBC驱动程序和HIVE命令行。JDBC与ODBC驱动程序一起用于建立数据存储权限和连接,而HIVE命令行则有助于处理查询。驯象师Mahout使系统或应用程序具备机器学习能力。顾名思义,机器学习可以帮助系统根据某些模式、用户/环境交互或算法进行自我发展。它提供了各种库或功能,例如协同过滤、聚类和分类,这些都正是机器学习的概念。它允许我们借助自身的库,根据需要调用算法。ApacheSpark它是一个能够处理所有流程消耗性任务的平台,例如批量处理、交互式或迭代式实时处理、图形转换和可视化等。它消耗内存资源,因此在优化方面比以前更快。Spark最适合实时数据,而Hadoop最适合结构化数据或批量处理,因此大多数公司会交替使用这两种技术。ApacheHBase它是一款NoSQL数据库,支持各种类型的数据,因此能够处理Hadoop数据库的所有功能。它具备谷歌BigTable的功能,因此能够高效地处理大数据集。当我们需要在庞大的数据库中搜索或检索少量数据时,请求必须在短时间内得到处理。此时,HBase就派上了用场,因为它提供了一种容错性强的方式来存储有限的数据。其他部件除了上述组件之外,还有一些其他组件也承担着重要任务,使Hadoop能够处理大型数据集。这些组件如下:Solr、Lucene:这两个服务借助一些Java库执行搜索和索引任务,特别是Lucene基于Java,它还允许拼写检查机制。Zookeeper:Hadoop资源或组件之间的协调和同步管理曾是一个棘手的问题,经常导致数据不一致。Zookeeper通过执行同步、组件间通信、分组和维护等功能,克服了所有这些问题。Oozie:Oozie的作用类似于调度器,它可以调度作业并将它们绑定在一起作为一个整体。工作有两种类型。Oozie工作流和Oozie协调器作业。Oozie工作流是指需要按顺序执行的作业,而Oozie协调器作业是指当接收到某些数据或外部刺激时触发的作业。Hadoop于2011年首次发布以来,已经开发了许多项目来为Hadoop添加增量功能,这些项目共同构成了Hadoop生态系统。Hadoop目前,Hadoop旗下拥有100多个软件项目,几乎可以完成数据生命周期中的每一个环节,从收集、存储、处理到分析和可视化。这些独立项目都是整体数据管理解决方案中的独特组成部分。ApacheKafka处理实时事件(例如智能对象通常生成的事件)的一部分工作是将它们导入处理引擎。从传感器或日志文件中收集数据并准备对其进行处理和分析的过程通常由消息传递系统处理。消息系统旨在从数据生成的位置接收数据或消息,并将数据传递给SparkStreaming或Storm等流处理引擎。ApacheKafka是一个分布式发布-订阅消息系统,其设计目标是可扩展和快速。它由消息代理组成,生产者在消息代理中写入数据,消费者从这些代理中读取数据。数据从智能对象(生产者)流出,通过Kafka中的主题,到达实时处理引擎。由于Kafka具有分布式特性,它可以在集群配置中运行,能够同时处理多个生产者和消费者,并在节点之间交换信息,从而允许主题分布在多个节点上。Kafka的目标是提供一种简单的方法来连接数据源,并允许消费者以他们想要的方式连接到这些数据。ApacheSparkApacheSpark是一个内存分布式数据分析平台,旨在加速Hadoop生态系统中的处理过程。Spark的“内存计算”特性使其能够非常快速地运行作业。MapReduce操作的每个阶段,数据都会被读取并写回磁盘,这意味着每次磁盘操作都会引入延迟。然而,借助Spark,数据处理被转移到高速内存中进行,从而显著降低了延迟。这不仅加快了批处理作业的速度,还实现了近乎实时的事件处理。实时处理由ApacheSpark项目的一个名为SparkStreaming的组件完成。SparkStreaming是SparkCore的一个扩展,它负责从Kafka等消息系统获取实时流数据,并将其分割成更小的微批次。这些微批次被称为离散流,或DStream。Spark处理引擎能够处理这些较小的数据块,从而快速洞察数据并采取后续行动。由于具备这种“即时反馈”能力,Spark正在成为许多物联网部署中的重要组成部分。控制系统人员安全保障制造业中对时间要求较高的流程交通管理中的基础设施控制所有人都受益于这些实时流媒体功能。
XivelyCloudforIoTXively(以前称为Cosm和Pachube)是Google拥有的物联网(IoT)平台。Xively为产品公司提供了一种连接产品、管理联网设备及其产生的数据,并将这些数据集成到其他系统
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 公共场所人群密集疏散指导方案
- 项目投资责任书结合个人履职承诺书统一版本范文5篇
- 家庭绿色装修保障承诺书范文4篇
- 活动传播承诺保证承诺书6篇范文
- 颅内占位并发症预防与护理
- 健康生活饮食习惯宣传互动方案
- 生产车间设备维护记录标准化工具
- 客户信息管理数据库设计及维护手册
- 妊娠合并法洛氏四联征
- 产品质量瑕疵赔偿保证承诺书3篇
- 2026安徽辉隆集团农资连锁有限责任公司招聘1人笔试备考试题及答案解析
- 中小学教师绩效工资分配激励研究-基于 2024 年中小学教师绩效工资实施办法
- 推拿店岗位责任制度模板
- 2026年汕头市普通高考第一次模拟考试 英语+答案
- 2026年宝山区国有(集体)企业招聘笔试参考题库附带答案详解
- 成都合资公司管理手册模板
- 二类医疗器械零售经营备案质量管理制度
- 人教版2026春季新版八年级下册英语全册教案(单元整体教学设计)
- 党课讲稿:践“廉行”强“廉政”守“廉心”勇担新时代廉洁从政使命
- 旋挖干成孔灌注桩施工方案
- 供电窗口培训
评论
0/150
提交评论