




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
精选优质文档-----倾情为你奉上精选优质文档-----倾情为你奉上专心---专注---专业专心---专注---专业精选优质文档-----倾情为你奉上专心---专注---专业大数据关键技术及其在农业中的应用摘要:结合大数据系统的一般结构,介绍和对比了当前大数据领域在文件存储、数据处理和数据库领域的关键技术。分析了大数据的产生背景,简述了大数据的基木概念、典型的4“V”特征以及重点应用领域.通过各种技术的对比,得到了一些分析结果。农业数据具有容量大、关联性强、复杂多变等特点。大数据技术能从庞大的数据集合中寻找有价值的数据和知识。推动大数据技术在农业领域的实践和应用,对把握农业信息内在联系和规律意义重大。关键词:大数据;数据分析;关键技术;农业;应用随着移动互联网、物联网和云计算技术的迅速发展,开启了移动云时代的序幕,大数据(BigData)也越来越吸引人们的视线。人们通过网络无障碍交流、交换信息和协同工作,互联网的出现缩短了人与人、人与世界之间的距离,整个世界连成一个“地球村”。与此同时,借助互联网的高速发展、高内存高性能的存储设备和存储介质的出现、数据库技术的成熟和普及,人类在日常学习、生活、工作中产生的数据量正以指数形式增长,呈现“爆炸”状态[1]。“大数据问题”(BigDataProblem)就是在这样的背景下产生的,成为科研学术界和相关产业界的热门话题,吸引着越来越多的科学家研究大数据带来的相关问题。大数据的“大”不仅仅体现在数据的海量性,还在于其数据类型的复杂性。随着报表、账单、影像、办公文档等在商业公司中得到普遍使用,互联网上视频、音乐、网络游戏不断发展,越来越多的非结构化数据进一步推动数字宇宙爆炸。数据海量而复杂,这是对大数据的诠释。与传统的数据相比,大数据具有规模性(Volume)、多样性(Variety)、高速性(Velocity)和低价值密度(Value)的4V特点[2]。规模性和高速性是数据处理一直以来研究和探讨的问题,多样性和价值密度低是当前数据处理发展中不断显现出来的问题,而且在可以预见的未来,随着智慧城市、智慧地球等各种新设想的不断成为现实,上面的4种问题将会变得更加凸显,而且是不得不面对的问题。处于发展中国家前列的中国,大数据的应用处于起步阶段。在工信部发布的物联网“十二五”规划中,把信息处理技术作为四项关键技术创新工程之一提出,其中包括了海量数据存储、数据挖掘、图像视频智能分析,这都是大数据的重要组成部分。还有另外3项:信息感知技术、信息传输技术、信息安全技术,也与大数据密切相关。1大数据关键技术从大数据的纵向应用过程(获取、存储、挖掘、分析)来看,文件系统提供了对最底层存储能力的支持。文件系统之上的数据库系统可通过构建索引等功能,对外提供高效的数据查询等常用功能。最后,数据分析技术从数据库中的大数据中提取出有益的知识,提供面向对象的服务。从横向来看,大数据的每层应用既需要进行软件算法等的开发,也需要硬件设备支持[3]。云计算与物联网技术毫无疑义地成为影响大数据发展的首要因素。1.1大数据系统架构大数据处理系统不管结构如何复杂,采用的技术千差万别,但是总体上总可以分为以下的几个重要部分。大数据系统结构如图1所示。从数据处理的一般流程可以看到,在大数据环境下需要的关键技术主要针对海量数据的存储和海量数据的运算。传统的关系数据库经过.近40年的发展已经成为了一门成熟同时仍在不断演进的数据管理和分析技术,结构化查询语言(SQL)作为存取关系数据库的语言得到了标准化,其功能和表达能力也得到的不断增强。但是,关系数据管理系统的扩展性在互联网环境下遇到了前所未有的障碍,不能胜任大数据分析的要求。关系数据管理模型追求的是高度的一致性和正确性。纵向扩展系统,通过增加或者更换CPU、内存、硬盘以扩展单个节点的能力,终会遇到“瓶颈”。1.2分布式文件系统对数据存储,文件系统需要考虑3个问题:高性能共享性、文件的管理和保护、重复数据的处理。尤其是在面对海量文件时,上述问题更加凸显。文件系统是支持大数据应用的基础。Google是有史以来唯一需要处理如此海量数据的大公司。对于Google而言,现有的方案已经难以满足其如此大的数据量的存储,为此Google提出了一种分布式的文件管理系统——GFS(Googlefilesystem)。GFS是构建在大量廉价服务器之上的可扩展的分布式文件系统,主要针对文件较大、且读远大于写的应用场景,采用主从(Master-Slave)结构,通过数据分块、追加更新(append-only)等方式实现了海量数据的高效存储。同时,谷歌公司选择电价较低的地点建立存储库,从而降低了运行成本。GFS与传统的分布式文件系统有很多相同的目标,比如,性能、可伸缩性、可靠性以及可用性。但是,GFS的成功之处在于其与传统文件系统的不同。GFS的设计思路主要基于以下的假设:对于系统而言,组件失败是一种常态而不是异常。GFS是构建于大量廉价的服务器之上的可扩展的分布式文件系统,采用主从结构。通过数据分块、追加更新等方式实现了海量数据的高效存储。1.3分布式数据处理系统传统的针对结构化数据进行挖掘的理论已日臻成熟,但是针对大数据时代的数据类型,则需要开发新的数据处理与挖掘技术。大数据的处理模式分为流处理和批处理两种。流处理是直接处理,批处理采用先存储再处理。流处理将数据视为流,源源不断的数据形成数据流。当新的数据到来即立即处理并返回所需的结果。大数据的实时处理是一个极具挑战性的工作,数据具有大规模、持续到达的特点。因此,如果要求实时的处理大数据,必然要求采用分布式的方式,在这种情况下,除了应该考虑分布式系统的一致性问题,还将涉及到分布式系统网络时延的影响,这都增加了大数据流处理的复杂性。目前比较有代表性的开源流处理系统主要有:Twitter的Storm、Yahoo的S4以及Linkedin的Kafka等。目前,大数据的分析与处理尚没有绝对合适的工具。Hadoop是当前最为流行的大数据处理平台。Hadoop最先是模仿GFS和Mapreduce实现的云计算开源平台。对Hadoop改进并将其应用于各种场景的大数据处理已经成为业界新的研究热点,主要的研究成果集中在Hadoop平台性能改进、高效查询处理、索引构建和使用、基于Hadoop的数据仓库构建、Hadoop与数据库系统的连接、数据挖掘、推荐系统等方面。1.4分布式数据库系统大数据的特点决定了数据库系统需解决的问题[4]:第一,数据量规模巨大。大数据时代的数据量远远超过单机所能容纳的数据量,因此,必须采用分布式存储方式。这就需要系统具有很好的扩展性,即适应大数据的数据库系统应当具有良好的横向扩展(scale-out)能力。第二,数据异构性。结构化数据、半结构化数据、非结构化数据均是大数据的重要组成部分。高效地处理多种数据类型是大数据时代数据库技术面临的重要挑战之一。第三,设计理念要不断创新。面对多种类型的数据,不可能存在统一的数据处理方式,这就要求新型的数据库系统以不断变化的角度对待数据。面对这些挑战,Google公司提出了Bigtable的解决方案。Bigtable的设计目的是可靠的处理拍字节级别的数据,并且能够部署到千台机器上。Bigtable已经实现了以下几个目标:适用性广泛、可扩展、高性能和高可靠性。Bigtable已经在超过60个Google的产品和项目上得到了应用。这些产品在性能要求和集群的配置上都提出了迥异的需求,Bigtable都能够很好地满足。2大数据技术在农业中的应用农业大数据类别复杂。从领域来看,以农业领域为核心(涵盖种植业、林业、畜牧水产养殖业、产品加工业等子行业),逐步拓展到相关上下游产业(饲料、化肥、农药、农机,仓贮、屠宰业,肉类加工业等),并需整合宏观经济背景数据,包括统计数据、进出口数据、价格数据、生产数据、气象、灾害数据等;从地域来看,以国内区域数据为核心,借鉴国际农业数据作为有效参考;不仅包括全国层面数据,还应涵盖省市数据,甚至地市级数据,为区域农业发展研究提供基础;从广度来看,不仅包括统计数据,还包括涉农经济主体基本信息、投资信息、股东信息、专利信息、进出口信息、招聘信息、媒体信息、地理空间坐标信息等;从专业性来看,应分步构建农业领域的专业数据资源,进而应逐步有序规划专业的子领域数据资源[5]。应用指的是农业大数据各应用系统、应用平台的开发,为上层管理和服务提供应用支撑。根据目前农业大数据的主要来源,可以将其应用领域归纳为以下几个方面:(1)农业生产过程管理方面应用运用大数据的先进技术对农业各主要生产领域在生产过程中采集的大量数据进行分析处理,进而提供“精准化”的农资配方、“智慧化”的管理决策和设施控制[6],达到农业增产、农民增收的目的。(2)农业资源管理方面应用农业资源除了土地、水等自然资源之外,还包括各种农业生物资源和农业生产资料等。我国虽然地大物博,但可以进行农业生产的资源已越来越少。从目前农业基础实际状况来看,有必要运用物联网、大数据等先进技术对农业资源进一步优化配置、合理开发,从而实现农业的高产优质和节能高效。(3)农业生态环境管理方面应用农业生态环境具体包括土壤、大气、水质、气象、污染、灾害等,需要对这些农业环境影响因子实现全而监测、精准化管理。(4)农产品和食品安全管理方面应用农产品安全管理涉及产地环境、产前产中产后、产业链管理、储藏加工、市场流通、物流、供应链与溯源系统等食品链的各个环节,通过对农产品质量安全监管信息的分析处理,实现食品安全风险的预测预警及质量安全突发事件的应急管理。(5)农业装备与设施监控方面应用可以提供农业装备和设施在工作运作情况下状态的监控、远程诊断以及服务调度等方而的智能化管理和应用。(6)提供各种农业科研活动产生的大数据应用农业科研产生的大数据有包括空间与地而的遥感数据,还有如基因图谱、大规模测序、农业基因组数据、大分子与药物设计等大量的生物实验数据:利用科研试验大数据的分析,能够更好地指导农业生产和生活[7]。在上述各类应用中,农业生产过程、农业资源与生态环境、农产品质量安全、农产品市场流通各环节的监测和预测是重点应用方向。农业作为中国的基础产业,面临着农产品需求不断增加"资源紧缺"气候变化导致灾害频发"生态安全脆弱"生物多样性持续下降等严峻挑战,夯实以农业物联网"云计算技术为核心的农业信息化基础,提升以大数据为支撑的农业信息化服务,开拓智慧农业新局面,实现农业现代化和信息化的跨越式发展[8]。3结论与展望在大数据时代发展农业,可以将数据、技术、思维比作大数据时代的生产资料、生产工具与生产者[9]。三者互为条件,协调发展,才能保证大数据在农业领域能得到充分的应用。今后的研究可以遵循该研究提出的整合农业数据,构建多元团队,建立农业大数据平台的3个农业大数据发展思路和方法,融合来自农业中不同领域的数据,结合各领域专家知识和大数据分析工具,提高农业信息化和智能化水平。参考文献:[1]刘智慧,张泉灵.大数据技术研究综述[J].浙江大学学报(工学版),2014,06:957-972.[2]王秀磊,刘鹏.大数据关键技术[J].中兴通讯技术,2013,04:17-21.[3]刘海滨,刘佳明,纪文强.大数据基础理论与关键技术新观察[J].军民两用技术与产品,2014,04:8-11.[4]韩晶.大数据服务若干关键技术研究[D].北京邮电大学,2013.[5]彭科峰.汪懋华:铺设现代农业高速路大数据应用大有可为[N].粮油市场报,2014-05-09001.[6]BauckhageC,KerstingK.Dataminingandpatternrecognitioninagriculture[J].KI-KünstlicheIntelligenz,2013,27(4):313-324.[7]Ludena,D.A.,Ahrary,A.,&Ieee.(2013).ABigDataapproachforanewICTAgricultureApplicationDevelopment.2013
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 西药批发商药品批发业务中的企业文化构建与传播考核试卷
- 货币经纪公司企业文化与价值观考核试卷
- 草原草原水资源高效利用技术考核试卷
- 充电设施在儿童游乐场所的布局考核试卷
- 草原土壤肥力评价与提升考核试卷
- 玉石行业在全球文化贸易中的角色考核试卷
- VCD技术的护理应用与维护
- 小学防电防煤安全教育课件
- 拼多多果园托管与品牌形象重塑服务合同
- 影视作品网络播放权联合租赁合作协议
- 核医学检查技术知到智慧树章节测试课后答案2024年秋山东第一医科大学
- 本科生毕业论文写作指导-课件
- 企业向政府报告范文
- 法务岗位招聘笔试题与参考答案(某大型国企)2025年
- 2024年学年八年级道德与法治下册 第二单元 理解权利义务教案 新人教版
- 2024年我国人口老龄化问题与对策
- 《学前教育中幼儿创新思维培养的策略探究》开题报告5500字
- DB14-T2547-2022制药企业质量控制化学药品实验室管理规范
- 自由搏击基础理论知识单选题100道及答案解析
- 民间非营利组织审计报告(模板)
- 《智慧体育竞技科技助力新突破》演讲课件
评论
0/150
提交评论