版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据根底学问大数据应用流程数据源数据采集数据建模数据加工大数据数据采集:flume〔日志收集系统〕Kafka(分布式公布订阅消息系统)1.1.31.1.3Flume介绍:Flume是Cloudera供给的一个高可用的,高牢靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume供给对数据进展简洁处理,并写到各种数据承受方〔比方文本、HDFS、Hbase等〕的力气。1.1.3.1Flume核心概念:Client:ClientEvent〔Eventsavro〕Flow:EventAgent:一个独立的FlumeSourceChannelSink〔Agent使用JVM运行Flumagenagent中包含多个sources和sinkSource〔sourceClientChannel〕Channel:中转Event的一个临时存储,保存由Source组件传递过来的Event〔Channel连接sources和sinks,这个有点像一个队列〕SinkChannel中读取并移除EventEvent传递到FlowPipeline中的下一个Agent〔假设有的话Sink从Channel收集数据,运行在一个独立线程〕1.1.3.2Flume的牢靠性:Flume供给了三种级别的牢靠性保障,从强到弱依次分别为:end-to-end〔收到数据agent首先将t,Storeonfailure〔scribe承受的策略,当数据接收方crash时,将数据写到本地,待恢复后,连续发送〔数据发送到接收方后,不会进展确认。Kafka介绍:Kafka是最初由Linkedin公司开发,是一个分布式、分区的、多副本的、多订阅者,基于zookeeper协调的分布式日志系统〔也可以当做Q系统,常见可以用于x日志、n于年奉献给了e基金会并成为顶级开源工程。主要应用场景:日志收集系统和消息系统。Kafka的优点:1、解耦;2、冗余;3、扩展性;4、灵敏性;5、可恢复性;6、挨次保证;7、缓冲;8、异步通信Kafka一些核心概念:1、Kafka集群包含一个或多个效劳器,效劳器节点称为broker。2Kafka集群的消息都有一个类别,这个类别被称为Topic。3、topicpartitiontopicpartition。4、Producer〔生产者〕即数据的公布者,该角色将消息公布到Kafkatopic中。5、Consumerbroker中读取数据。消费者可以消费多个topic中的数据。6partition有多个副本,其中有且仅有一个作为Leader,Leader是当前负责数据的读partition。7FollowerLeaderLeaderFollower,Follower与LeaderLeaderFollower中选举出一个的Leader。FollowerLeaderleaderfollowerinsyncreplicas”〔ISR〕Follower。Hadoop介绍:HadoopHadoop是一个能够对大量数据进展分布式处理的软件框架。Hadoop以一种牢靠、高效、高牢靠性。高扩展性。高效性。高容错性。低本钱。Hadoop根底组件:〔pee:p的数据存储工具。〔tre, 一种资源协调者:p的资源治理器。HadoopHadoopMapReduce:分布式计算框架。Spark是用于大规模数据处理的统一分析引擎MapReduce计算模型。spark的一个主要特点是能够在内存中进展计算,准时依靠磁盘进展简洁的运算,而且兼容HDFS、Hive,可融入Hadoop的生态系统,以弥补MapReduce的缺乏。MapReduce:Yarn〔YetAnotherSpark是用于大规模数据处理的统一分析引擎MapReduce计算模型。spark的一个主要特点是能够在内存中进展计算,准时依靠磁盘进展简洁的运算,而且兼容HDFS、Hive,可融入Hadoop的生态系统,以弥补MapReduce的缺乏。RDResilientDistributedDatase〕叫做弹性分布式数据集,是Spark中最根本的数RDD具有数据流模型RDD允许用户在执行多个查询时显式地将工作集缓存在内存中,后续的查询能够重用工作集,这极大地提升了查询速度。大数据技术应用场景:推举引擎情感分析营销活动分析客户流失分析社交图谱分析……大数据在电信行业的应用:网络治理和优化:基设施建设优化和网络运营治理和优化市场与精准营销:客户画像,关系链争论,精准营销,实时营销和共性化推举客户关系治理:客服中心优化,客户关心与生命周期治理企业运营治理:业务运营监控,经营分析和市场监测数据商业化:营销洞察和精准广告,大数据监测和决策人工智能根本概念人工智能(ArtificialIntelligence),AI。它是硏究、开发用于模拟、延长和扩展人的智能的理论、方法、技术及应用系统的一门的技术科学。人工智能能做什么?图片识别:输入一种图片,然后可以知道图片的内容语音识别:输入一段语音,会输出一个文本自动驾驶:输入传感器信息,定位汽车的位置、模拟司机的操作;消费金融:输入一笔预算,模拟理财师进展投资,输出很好的回报;……强人工智能和弱人工智能弱人工智能假设机器可以通过编程呈现出人类智能的水平强人工智能则假设机器消灭意识,或者说机器思考和认知的方式可以用以前形容人类的方式来形容人工智能分类机器学习:它是人工智能的一个分支,探究如何让计算机通过阅历学习提高性能。BP神经网络:是一种按误差逆传播算法训练的多层前馈网络,学习规章是使用梯度下降法,通过反向传播来不断调整网络的权值和值,使网络的误差平方和最小;BP神经网络模型拓扑构造包括输入层((input)、隐层,hiddenlaye和输出层(outputlayer,神经网络:是受生物神经元启发构建的计算系统,神经网络的关键特性是基于阅历修改与单元之间的链接比较相关权重。卷积神经网络:是一种前馈神经网络,它的人工神经元可以响应一局部掩盖范围内的四周单元,对于大型图像处理有精彩表现。卷积神经网络包括卷积层(convolutionallayer和池化层〔poolinglayer〕人工智能的进展阶段第一次富强期1960S达特茅斯会议确定了人工智前的念和发底目标,机器学习推动人工智能首次富强;1970s第一次低谷期AI进展患病质疑1980s其次次富强期专家系统将人工智能从理论研完推向实际应用1990S其次次低谷期技术领域再次陷入瓶颈2023S复苏期计篁性能提升、互联网快速普及2023S增长发期海量图像、语音、文本等多模态数据不断涌现,计算力气显著提高2023S标志性大事1956年,达特茅斯会议首次提是出人工智能,即使一部机器的反响方式像一个人在行动时所依据的智能;1959年,首次提出机器学习;1976年,机器翻译等工程失败;1985年,消灭突破早期感知局限的多层神经网络1987年,LISP机市场倒塌;1997年,深蓝战胜世界国际象棋冠军;2023年,Hinton开头争论深度字习;2023年,大数据时代到来;年微钦公布全球首个智能助理“微小娜2023年,Alphago4:1战胜世界围棋冠军;2023年,DeepMind团队公布最强版AlphaGoZero人工智能的应用场景:安康医疗、智能教育、智能投顾、智能法务、自动价值AI5GIT根底设施,探究垂直领域模式创;人工智能关键技术总览:人工智能关键技术主要包括根底设施层和算法层。其中根底设施包括根底硬件和算法框架。根底硬件:CPU效劳器、GPU效劳器、专用芯片、高速网络算法框架:TensorFlow、Caffe、Mxnet、Touch、Keras、PyTorch、Theano……算法层:机器学习算法:工作原理:通过历史数据的训练形成模型,依据的数据输入利用模型推想结果;机器学习分为监视学习,无监视学习、半监视学习监视学习算法包括分类算法和回归算法。分类算法结果是离散型,评价方式:准确率、精准率、召回率回归算法的结果是连续的,评价方式是误差;无监视学习承受聚类算法,结果是簇,评价是簇内距离,簇间距离;征,以觉察数据的分布式特征表示。深度写系模型主要包括前馈神经网络、卷积神经网络、循环神经网络等。迁移学习、对抗学习、强化学习等人工智能平台深度学习平台:根底设施、供给算法、算力和数
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026山东中国海洋大学期刊社《中国海洋大学学报(自然科学版)》专职编辑招聘1人考试参考试题及答案解析
- 2026江西飞行学院高层次人才招聘60人考试备考题库及答案解析
- 2026年台州市级医疗卫生单位公开招聘卫技人员60人考试参考试题及答案解析
- 2026江苏徐州丰县综合检验检测中心招聘编外工作人员10人考试参考题库及答案解析
- 2026重庆渝中区大坪街道社区卫生服务中心招聘1人笔试备考题库及答案解析
- 2026新疆金元能矿投资集团有限公司招聘13人考试备考题库及答案解析
- 2026年杭州市余杭区公开选聘名优教师30人笔试模拟试题及答案解析
- 2026江西宜春市兴宜技术服务有限公司招聘解决经理、项目经理5人考试备考题库及答案解析
- 2026广西来宾象州县融媒体中心招聘见习人员1人笔试备考题库及答案解析
- 2026黑龙江大庆市黎明社区中心招聘药师1人笔试参考题库及答案解析
- 种植多肉教学课件
- 工程机械安全事故课件
- 湖北省市政公用设施维修养护工程消耗量定额及全费用基价表
- 内丘县永盛建筑材料有限公司年产20万立方米预拌混凝土项目环评报告
- (一模)2025届安徽省“江南十校”高三联考英语试卷(含官方答案)
- 人工智能在档案管理中的应用与发展
- 十字绣DMC绣线色号
- 部队采购招标资料3篇
- 2024年度中国协同办公平台行业研究报告
- 车辆制动技术复习备考题及答案
- 全套电子课件:建筑工程测量(第二版)
评论
0/150
提交评论