版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第8章
大数据技术与应用第8章
大数据技术与应用目录大数据概论大数据采集大数据采集实训8.18.28.38.1大数据概论大数据是“海量数据”,是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要采用新处理模式才能获得更多智能的、深入的、有价值的信息,以期得到更强的决策力、洞察力。8.1大数据概论8.1.1大数据的特点Volume(大量)Variety(多样)Value(价值)Velocity(高速)Veracity(真实性)大数据是以容量大、类型多、存储速度快、应用价值高为特征的数据集合。
8.1.2大数据的价值与应用大数据:样本=全部数据。不是精确性,而是复杂性。“数据之和的价值远远大于各数据价值的和”(GOOGLE的大数据翻译器)大数据研究,重关联大于重因果,预测是核心(亚马逊图书推荐?GOOGLE与流感预测)大数据的战略意义是实现数据的增值,数据就像一个神奇的钻石矿(阿里、腾讯与银行)8.2大数据采集什么是大数据采集技术?大数据采集技术就是对数据进行ETL操作,通过对数据进行提取、转换、加载,最终挖掘数据的潜在价值。然后提供给用户解决方案或者决策参考。
ETL,是英文Extract-Transform-Load的缩写,数据从数据来源端经过抽取(extract)、转换(transform)、加载(load)到目的端,然后进行处理分析的过程。用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据模型,将数据加载到数据仓库中去,最后对数据仓库中的数据进行数据分析和处理。8.2.1数据采集器介绍当下运用最广泛的是八爪鱼采集器,八爪鱼采集器是深圳视界信息技术有限公司开发,它具有以下优势:(1)1分钟获得数据:操作简单,无需代码,30秒上手,1分钟拿到98%以上互联网数据;(2)1千万数据采集:分布于云服务器,可以实现每日千万级别数据量的采集;(3)全场景解决方案:内置增量数据采集、防采集破解、验证码识别、模拟登陆、切换代理IP及切换浏览器版本功能,满足多种采集需求(4)数据处理能力:内置正则表达式格式化功能,可对提取内容进行针对性调整;内置分支判断及触发器功能,可对不同形式的内容做判断,根据判断结果做不同的提取操作,实现智能采集。1是什么?2怎么用?3简易采集模式4练习题8.2.1数据采集器是什么?一、功能散乱数据数据库ExcelBI平台八爪鱼结构化数据是什么?二、优势
电商数据例如:/list.html?cat=9987,653,655适用场景:竞品分析销售分析用户评论分析是什么?二、优势
复制粘贴:工作效率低爬虫编写:学习成本高是什么?二、优势
电商数据适用场景:竞品分析销售分析用户评论分析1.输入网址2.保存并启动1是什么?2怎么用?3简易采集模式4练习题目录怎么用?采集模式
智能采集:智能识别,无需配置简易采集:内置模板,即点即用向导模式:贴心指引,规则配置自定义采集:自由配置,随心采集1是什么?2怎么用?3简易采集模式4练习题目录
简易采集模式1是什么?2怎么用?3简易采集模式4练习题目录练习题选择本地生活、电子商务、媒体阅读三个板块各一个简易采集模板进行数据采集并导出结果1自定义采集模式演示2如何复制3如何粘贴4练习题自定义采集模式自定义采集模式演示1自定义采集模式演示2如何复制3如何粘贴目录如何复制一、案例例如:/omn/20180607/20180607A05ZM3.html/omn/20180606/20180606A1UE30.html/omn/20180607/20180607A07333.html适用场景:舆情监控品牌分析如何复制如何复制1自定义采集模式演示2如何复制3如何粘贴目录
如何粘贴1自定义采集模式演示2如何复制3如何粘贴目录练习题/6946599.html/6773561.html/7479912.html将左侧三个京东商品的页面打开,采集商品名称、价格、采集时间及页面网址谢谢!信息技术是沟通现实世界的桥梁。
第9章人工智能应用
信息技术与人工智能第9章
人工智能应用目录人工智能的发展历程新一代人工智能的核心技术人工智能的应用领域任务拓展:百度AI体验9.19.29.39.49.1人工智能的发展历程人工智能技术发展的三生三世:9.1.1第一次浪潮
伟大的首航:1956-19749.1.2第二次浪潮
专家系统的兴衰:1980-19909.1.3第三次浪潮
厚积薄发,再造辉煌:2011年至今9.2新一代人工智能的核心技术9.2.1模式识别与感知交流9.2.2机器学习与知识发现9.2.3机器推理与知识图谱9.2.1模式识别与感知交流1.图像识别2.语音识别3.自然语言处理9.2.1模式识别与感知交流1.图像识别图片识别AI体验:/?fr=shitu9.2.1模式识别与感知交流1.图像识别基本原理人工神经网络的作用卷积计算的作用9.2.1模式识别与感知交流2.语音识别语音识别AI体验:/tech/speech/9.2.1模式识别与感知交流3.自然语音处理自然语音处理AI体验:/逐字翻译→基于规则的句法分析翻译→基于实例的统计机器翻译9.2.2机器学习与知识发现1.监督式学习(Supervisedlearning)2.非监督式学习(Unsupervisedlearning)3.半监督式学习(Semi-SupervisedLearning)4.强化学习(reinforcementlearning)参考学习资料:/p/682c88cee5a8小白都看得懂的监督学习与无监督学习9.2.2机器学习与知识发现1.监督式学习监督式学习举例:机器学习识别鸢尾花的种类(样本文件)定义:根据已有的数据集,知道输入和输出结果之间的关系。根据这种已知的关系,训练得到一个最优的模型。也就是说,在监督学习中训练的数据既有特征(feature)又有标签(label),通过训练,让机器可以自己找到特征和标签之间的联系,在面对只有特征没有标签的数据时,可以判断出标签。9.2.2机器学习与知识发现监督式学习过程:机器学习识别鸢尾花的过程9.2.2机器学习与知识发现2.非监督式学习非监督式学习举例:Google新闻按照内容结构的不同分成财经,娱乐,体育等不同的标签,这就是无监督学习中的聚类。
定义:我们不知道数据集中数据、特征之间的关系,而是要根据聚类或一定的模型得到数据之间的关系。可以这么说,比起监督学习,无监督学习更像是自学,让机器学会自己做事情,是没有标签(label)的。9.2.2机器学习与知识发现3.半监督式学习定义:是一种监督式学习与非监督式学习相结合的一种学习方法。拥有大部分的输入数据(自变量)和少部分的有标签数据(因变量)。可以使用非监督式学习发现和学习输入变量的结构;使用监督式学习技术对无标签的数据进行标签的预测,并将这些数据传递给监督式学习算法作为训练数据,然后使用这个模型在新的数据上进行预测。9.2.2机器学习与知识发现4.强化学习强化学习举例:2016年击败世界冠军李世石九段的阿尔法狗定义:程序在某一情况下尝试所有可能的行动,记录不同行动的结果并试着找出最好的一次尝试来做决定。强化学习可以自动进行决策制定,并且可以做连续决策。即训练程序作出某一决定,获得一个策略去指导行动。9.2.3机器推理与知识图谱1.知识表示与机器推理2.知识图谱3.知识图谱技术案例9.2.3机器推理与知识图谱知识表示是指面向计算机的知识描述或表达形式和方法。具体来讲,就是要用某种约定的(外部)形式结构来描述知识,而且这种形式结构还要能转换为机器的内部形式,使得计算机能方便地存储、处理和运用。机器推理与知识表示密切相关。逻辑形式的知识表示需要用程序语言转化为机器能理解的内部形式。1.知识表示与机器推理9.2.3机器推理与知识图谱9.2.3机器推理与知识图谱9.2.3机器推理与知识图谱定义:“知识图谱本质上是语义网络(SemanticNetwork)的知识库”,可以简单地把知识图谱理解成多关系图(Multi-relationalGraph)。2.知识图谱9.2.3机器推理与知识图谱百度知识图谱:/kg/case3.知识图谱技术案例9.2.3机器推理与知识图谱微云知识图谱:
:10010/browser//index.php/blog/demo-72.html3.知识图谱技术案例9.3人工智能的应用领域9.3.1智慧生活1.智能聊天助理2.智慧出行推荐3.智能图像处理智能搜索引擎智能机器翻译9.3人工智能的应用领域9.3.2智慧医疗1.一站式就诊服务2.个人健康档案管理服务3.移动的医学图书馆参考学习网站:/watson/cn-zh/health/9.3人工智能的应用领域9.3.3智慧金融1.量化交易与智能投顾2.风险防控3.智能客服精准营销参考学习网站:/cn/solutions/ind
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年个人艺术发展咨询合同
- 概念验证中心建设协议
- 2025年人脸识别技术在安防领域的可行性研究报告
- 2025年高校创新创业孵化平台项目可行性研究报告
- 2025年权益保护法律服务体系建设可行性研究报告
- 2025年市民文化活动中心建设项目可行性研究报告
- 临聘员工协议书
- 交接物品协议书
- 物业与绿化协议书
- 保留追责协议书
- 中国淋巴瘤治疗指南(2025年版)
- 2025年云南省人民检察院聘用制书记员招聘(22人)考试笔试模拟试题及答案解析
- 2026年空气污染监测方法培训课件
- 实习2025年实习实习期转正协议合同
- 疗伤旅馆商业计划书
- 购买电影票合同范本
- 2025西部机场集团航空物流有限公司招聘考试笔试备考题库及答案解析
- 2025年广西公需科目答案6卷
- 2025年鲍鱼养殖合作协议合同协议
- 2025智慧消防行业市场深度调研及发展趋势与投资前景预测研究报告
- 急性呼吸窘迫综合征
评论
0/150
提交评论