




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
BCBCigDataEnglish参考答案PAGE2PAGE3Unit1[Ex.1] 根据TextA回答以下问题。1.AccordingtoGartner,bigdataishigh-volume,velocity,andvarietyinformationassetsthatdemandcost-effective,innovativeformsofinformationprocessingforenhancedinsightanddecisionmaking.2.Thecharacteristicsofbigdataarevolume,variety,velocity,veracity,validityandvolatility.3.Varietyreferstothemanysourcesandtypesofdatabothstructuredandunstructured.4.Bigdatavelocitydealswiththepaceatwhichdataflowsinfromsourceslikebusinessprocesses,machines,networksandhumaninteractionwiththingslikesocialmediasites,mobiledevices,etc.5.Themainideabehindbigdataisthatthemoreyouknowaboutsomething,themoreyoucangaininsightsandmakeadecisionorfindasolution.6.Thethreemainactionsyouneedtoknowbehindbigdataareintegration,managementandanalysis.7.Probablythebiggestadvantageofbigdataisthatithelpsbusinessestogainahugecompetitiveadvantage.8.Oneofthemostcommongoalsamongbigdataanalyticsprogramsisimprovingcustomerservices.9.Probablythebiggestdisadvantageofbigdataisthatitcanmakebusinessesasofttargetforcyberattackers.10.Workingwithbigdataneedsagreatdealoftechnicalproficiencyandthat’soneofthekeyreasonswhybigdataexpertsanddatascientistsbelongtothehighlypaidandhighlycovetedgroupintheITlandscape.[Ex.2]根据TextB回答以下问题。1.InbigretailsstoreslikeAmazon,Walmart,BigBazaretc.themanagementteamshavetokeepdataofcustomer’sspendinghabits(inwhichproductacustomerspends,inwhichbandhewishestospend,howfrequentlyhespends),shoppingbehavior,customer’smostfavouriteproductandwhichproductisbeingsearched/soldmost.2.Bankingsectorusestheircustomer’sspendingbehavior-relateddatasothattheycanprovidetheoffertoaparticularcustomertobuyhisparticularlikedproductbyusingbank’screditordebitcardwithdiscountorcashback.3.Bytrackingcustomer’sspendinghabits,shoppingbehaviors,bigretailstoresprovidearecommendationtothecustomer.4.Smarttrafficsystemcanbebuiltinthecitybybigdataanalysis.Onemoreprofitisthatfuelconsumptioncanbereduced.5.Byanalyzingflight’smachine-generateddata,itcanbeestimatedhowlongthemachinecanoperateflawlesslybeforeitistobereplaced/repaired.6.Bigdataanalysishelpsvirtualpersonalassistanttool(likeSiriinAppleDevice,CortanainWindows,GoogleAssistantinAndroid)toprovidetheanswerstothevariousquestionaskedbyusers.7.IoTsensorsplacednearthepatientcanconstantlykeeptrackofvarioushealthconditionsofthepatientlikeheartbitrate,bloodpresser,etc.Wheneveranyparametercrossesthesafelimit,analarmissenttoadoctor,sothattheycantakestepsremotelyverysoon.8.IfsomeonesearchesforYouTubetutorialvideoonasubject,onlineorofflinecourseproviderorganizationsonthatsubjectwillsendadonlinetothatpersonabouttheircourse.9.Thesystemsuggestsmanufacturingunitsorhousekeepersthetimetheyshoulddrivetheirheavymachineisthenighttime.Becausethisisthetimewhenpowerloadislessandtheycanenjoylesselectricitybill.10.Theycollectandanalyzedatalikewhattypeofvideousersarewatchingmost,whatmusictheyarelisteningmost,howlongusersarespendingonsite,etctosetthenextbusinessstrategy.[Ex.3]词汇英译中(1)automate(1)v.(使)自动化(2)enhance(2)vt.提高,增加;加强(3)framework(3)n.构架;框架;(体系的)结构(4)datamining(4)数据挖掘(5)parameter(5)n.参数(6)datastorage(6)数据存储(7)calculation(7)n.计算(8)dataanalysis(8)数据分析(9)particular(9)adj.特别的;详细的n.细节;详情(10)datavisualization(10)数据可视化[Ex.4]词汇中译英(1)脏数据,废数据(1)dirtydata(2)n.多样;种类(2)variety(3)社会化媒体(3)socialmedia(4)n.易变性(4)volatility(5)n.真实性(5)veracity(6)虚拟个人助理(6)virtualpersonalassistant(7)移动设备(7)mobiledevice(8)n.容量,大量(8)volume(9)n.贮存(9)storage(10)adj.稳定的;持久的(10)stable[Ex.5]短文翻译大数据词汇表批处理:批处理是一种计算策略,用于处理大数据集中的数据。对于处理大量数据的非时间敏感型工作,这通常是理想的选择。该过程开始并工作一段时间后,结果由系统返回。集群计算:集群计算是一种汇集多台计算机的资源并让它们协同工作以完成任务的实践活动。计算机集群需要集群管理层,该层处理各个节点之间的通信并协调工作分配。数据湖:数据湖是一个术语,指收集了相对原始状态数据的大型存储库。这通常用于指大数据系统中收集的数据,这些数据可能是非结构化且经常变动的。这与数据仓库在本质上不同。数据挖掘:数据挖掘是一个广义术语,指尝试在大型数据集中查找模式的实践活动。这是尝试将大量数据精炼成更易理解和具有内聚力的信息的过程。数据仓库:数据仓库是大型的且有序的可用于分析和报告的数据存储库。与数据湖相反,数据仓库由已清理、与其他来源集成的数据组成,并且通常井井有条。数据仓库经常与大数据相关联,但通常是更常规系统的组成部分。内存中计算:内存中计算是一种策略,它涉及将工作数据集完全移动到群集的集合内存中。中间计算不写入磁盘,而是保存在内存中。与Hadoop的MapReduce这样的I/O绑定系统相比,这给诸如ApacheSpark这样的内存计算系统带来了巨大的速度优势。流处理:流处理是对单个数据项在系统中移动时进行计算的一种实践。这样可以实时分析送入系统的数据,对于使用高速度的时间敏感型操作很有用。
Unit2[Ex.1] 根据TextA填空。1.adatamodel,awell-definedstructure,aconsistentorder,acomputerprogram2.textstrings,attributes,anincrementofdata3.20%,foundationofbigdata4.apre-definedmanner,pre-defineddatamodel,amainstreamrelationaldatabase5.rowsandcolumns,identifiablestructure6.storeandmanage,lackofschemaandstructure,unclearstructure,notveryaccurate7.doesnotconformsto,afixedorrigidschema,arationaldatabase,someorganisationalproperties8.E-mails,Binaryexecutables,TCP/IPpackets,Zippedfiles,Webpages9.semi-structureddata,tags,attributes,ahierarchicalform,XML10.heterogeneityofthesources,anystructure,tagandindex[Ex.2]根据TextB回答以下问题。1.Datamodelingistheprocessofdocumentingacomplexsoftwaresystemdesignasaneasilyunderstooddiagram.2.Typically,adatamodelcanbethoughtofasaflowchartthatillustratestherelationshipsamongdata.Itenablesstakeholderstoidentifyerrorsandmakechangesbeforeanyprogrammingcodehasbeenwritten.3.Datamodelingstagesroughlybreakdownintocreationoflogicaldatamodelsthatshowspecificattributes,entitiesandrelationshipsamongentitiesandthephysicaldatamodel.4.Hierarchicaldatamodelsarraydataintreelike,one-to-manyarrangements.IBM'sinformationmanagementsystem(IMS)isaprimaryexampleofthehierarchicalapproach.5.Relationaldatamodelingwasfirstdescribedina1970technicalpaperbyIBMresearcherE.F.Codd.6.Codd'srelationalmodelsetthestageforindustryuseofrelationaldatabases,inwhichdatasegmentswereexplicitlyjoinedbyuseoftables,ascomparedtothehierarchicalmodelwheredatawasimplicitlyjoinedtogether.7.ERmodelsarecloselyintegratedwithrelationaldatamodels.ERmodelsusediagramstographicallydepicttheelementsinadatabaseandtoeaseunderstandingofunderlyingmodels.8.Object-orientedapproachesfocusonobjectabstractionsofreal-worldentities.Objectsaregroupedinclasshierarchies,andtheobjectswithinsuchclasshierarchiescaninheritattributesandmethodsfromparentclasses.9.Anoffshootofhierarchicalandnetworkdatamodelingisthepropertygraphmodel,which,togetherwithgraphdatabases,hasfoundincreasedusefordescribingcomplexrelationshipswithindatasets,particularlyinsocialmedia,recommenderandfrauddetectionapplications.10.Graphdatamodelscanbeusedfortextanalysis,creatingmodelsthatuncoverrelationshipsamongdatapointswithindocuments.[Ex.3]词汇英译中(1)datamodel(1)数据模型(2)binary(2)adj.二进制的;双重的;二元的(3)unstructureddata(3)非结构化数据(4)class(4)n.类(5)dataset(5)数据集(6)node(6)n.节点(7)datasegment(7)数据段(8)phase(8)n.阶段(9)hierarchicaldatamodel(9)层次数据模型,分级数据模型(10)symbol(10)n.符号;记号[Ex.4]词汇中译英(1)快速开发方法(1)rapiddevelopmentmethodology(2)关系数据模型(2)relationaldatamodel(3)n.操作;运算(3)operation(4)vt.检索;重新得到(4)retrieve(5)文本分析(5)textanalysis(6)n.服务器(6)server(7)n.算法(7)algorithm(8)n.概要,纲要;图表(8)schema(9)n.属性;性质;特征(9)attribute(10)存储成本,存储花费(10)storagecost[Ex.5]短文翻译元数据什么是元数据?很简单:元数据是描述其他数据的数据。在信息技术中,前缀meta表示“基础定义或描述”。因此,元数据描述了与数据相关的任何数据,无论该数据是视频、照片、网页、内容还是电子表格。由于元数据汇总了有关数据的基本信息,例如资产类型、作者、创建日期、使用情况、文件大小等,因此元数据对于信息系统进行数据分类的效率至关重要。元数据信息可帮助IT系统发现用户的需求。重要的是要注意,组织中充斥着结构化和非结构化数据,它们都需要元数据。通过搜索引擎算法(严格的数据库格式)可以轻松组织和发现结构化数据,而对非结构化数据则完全失能。电子邮件是非结构化数据的示例。大多数电子邮件不容易分类,因为它们很少涉及单个主题。大多数业务交互都采用非结构化数据的格式,这使得对数据进行分类和定义是一项耗时且昂贵的提议,但是元数据可以提供帮助。为什么元数据在大数据世界中很重要?元数据可以在大数据世界中改变游戏规则,因为它可以为你带来竞争优势。越利用大数据的能力来推动业务决策,公司就越成功。元数据越健壮,团队就越能更快地提取可操作的信息并做出快速的业务决策。除了更好、更快地制定决策外,元数据还支持整个企业的数据一致性,并可以在数据集之间建立关联,从而获得高质量的结果。根据IDC发布的报告,尽管元数据是企业数据管理中增长最快的部分之一,但存在巨大的大数据鸿沟——元数据无法跟上大数据项目的快速发展。如果没有元数据,公司将在分析和解释大数据以及随后提供的推动业务发展的见解上失去优势。
Unit3[Ex.1] 根据TextA填空。1.whatdetailsyouwanttocollect,whattopicstheinformationwillcover,howmuchdatayouneed2.overadefinedperiod,aschedule,endyourdatacollection3.thetypeofinformation,thetimeframe,theotheraspects4.implementyourdatacollectionstrategy,startcollectingdata,storeandorganize5.alistofqueries,injustoneortwowords,online,overemail,overthephone6.collectingcustomerdata,asmanyas40datapoints7.acustomerrelationshipmanagementsystem,howmanyproductsyousell,whattypesofproductsaremostpopular8.whoclickedonyourads,whattimetheyclicked,whatdevicetheyused9.regularlysearchingyourbrand’sname,settingupalerts,usingthird-partysocialmediamonitoringsoftware10.withatrafficcounter,howmanypeoplecomeintoyourstore[Ex.2]根据TextB回答以下问题。1.Cloudstorageallowsyoutosavedataandfilesinanoff-sitelocationthatyoucanaccesseitherthroughthepublicinternetoradedicatedprivatenetworkconnection.2.SANareexpensivetomaintainbecauseasstoreddatagrows,companieshavetoinvestinaddingserversandinfrastructuretoaccommodatetheincreaseddemand.3.Typically,youconnecttothestoragecloudeitherthroughtheinternetoradedicatedprivateconnection,usingawebportal,website,oramobileapp.4.Inthismodel,youconnectovertheinternettoastoragecloudthat’smaintainedbyacloudproviderandusedbyothercompanies.5.Organizationsthatmightpreferprivatecloudstorageincludebanksorretailcompaniesduetotheprivatenatureofthedatatheyprocessandstore.6.Highlyregulateddatasubjecttostrictarchivingandreplicationrequirementsisusuallymoresuitedtoaprivatecloudenvironment,whereaslesssensitivedata(suchasemailthatdoesn’tcontainbusinesssecrets)canbestoredinthepubliccloud.7.Theprosofcloudstorageareoff-sitemanagement,quickimplementation,cost-effective,scalabilityandbusinesscontinuity.8.Theconsofcloudstoragearesecurity,administrativecontrol,latency,andregulatorycompliance.9.Mostcloudstorageprovidersofferbaselinesecuritymeasuresthatincludeaccesscontrol,userauthentication,anddataencryption.Ensuringthesemeasuresareinplaceisespeciallyimportantwhenthedatainquestioninvolvesconfidentialbusinessfiles,personnelrecords,andintellectualproperty.10.Businessesneedtobackuptheirdatasotheycanaccesscopiesoffilesandapplicationsandpreventinterruptionstobusinessifdataislostduetocyberattack,naturaldisaster,orhumanerror.[Ex.3]词汇英译中(1)datacollection(1)数据收集(2)collect(2)vt.收集(3)cloudstorage(3)云存储(4)demonstrate(4)vt.证明,证实;显示,展示(5)cyberattack(5)网络攻击(6)establish(6)vt.建立,创建,确立(7)hybridcloud(7)混合云(8)link(8)n.链接(9)privatecloud(9)私有云,专用云(10)monitoring(10)n.监视;控制;监测[Ex.4]词汇中译英(1)公共云(1)publiccloud(2)adj.在线的;联网的;联机的(2)online(3)云提供商(3)cloudprovider(4)n.网站,站点(4)site(5)数据点(5)datapoint(6)n.备份(6)backup(7)建立,设立;安排(7)setup(8)n.带宽(8)bandwidth(9)私有网络,专用网络(9)privatenetwork(10)n.容量;性能(10)capacity[Ex.5]短文翻译收集大数据的5个步骤如今,许多公司收集大数据来分析和解释日常交易和流量数据,旨在跟踪运营情况,预测需求或实施新计划。但是如何直接收集大数据呢?可能有很多数据收集方法,你可能会感到很困惑。在这里,我将介绍收集大数据的一般步骤。步骤1:收集数据根据不同目的有多种收集数据的方法。例如,你可以从“数据即服务”公司购买数据,或使用数据收集工具从网站收集数据。步骤2:存储数据收集大数据后,你可以将数据放入数据库或存储服务中以便进一步处理。通常,此步骤需要对物理基础设施以及云服务进行投资。一些数据收集工具在收集数据后提供无限的云存储,这大大节省了本地资源并使数据易于从任何地方访问。步骤3:清理数据由于可能会有一些你不需要的噪音信息,因此需要收集满足你需求的信息。此步骤是对数据进行整理,包括清理、连接以及合并数据。步骤4:重新整理资料你需要在清理数据后重新组织数据以备将来使用。通常,需要将非结构化或半非结构化格式转换为Hadoop和HDFS之类的结构化格式。步骤5:验证数据为了确保所获取的数据正确且有意义,你需要验证数据。选择一些样本以查看其是否有效。这些是收集大数据的一般步骤。但是,要收集数据、对其进行分析并收集对市场的见解并不像看起来那么容易。像Octoparse这样的数据收集工具使此过程变得非常容易。它们允许用户自动收集干净和结构化的数据,因此无需清理或重新组织数据。收集数据后,可以将其存储在云数据库中,可以随时随地对其进行访问。
Unit4[Ex.1] 根据TextA回答以下问题。1.Adatabaseisanorganizedcollectionofstructuredinformation,ordata,typicallystoredelectronicallyinacomputersystem.Itisusuallycontrolledbyadatabasemanagementsystem(DBMS).2.SQLisaspecializedprogramminglanguagewhichisstandardizedtobeusedformanagingrelationaldatabasesandperformingvariousoperationsonthedata.3.SQLconsistsofmanytypesofstatements,commonlyknownasadataquerylanguage(DQL),adatadefinitionlanguage(DDL),adatacontrollanguage(DCL),andadatamanipulationlanguage(DML).4.Relationaldatabasesbecamedominantinthe1980s.Itemsinarelationaldatabaseareorganizedasasetoftableswithcolumnsandrows.5.Adistributeddatabaseconsistsoftwoormorefileslocatedindifferentsites.Thedatabasemaybestoredonmultiplecomputerslocatedinthesamephysicallocation,orscatteredoverdifferentnetworks.6.Aclouddatabaseisacollectionofdata,eitherstructuredorunstructured,thatresidesonaprivate,public,orhybrid
cloud
computingplatform.Thetwotypesof
clouddatabasemodelsaretraditionaland
database
asaservice(DBaaS).7.Thenewestandmostgroundbreakingtypeofdatabaseisself-drivingdatabase,alsoknownasautonomousdatabase.Itusesmachinelearningtoautomatedatabasetuning,security,backups,updatesandotherroutinemanagementtaskstraditionallyperformedbydatabaseadministrators.8.General-purposeDBMSfeaturesandcapabilitiesshouldincludeauseraccessiblecatalogdescribingmetadata,DBMSlibrarymanagementsystem,dataabstractionandindependence,datasecurity,loggingandauditingofactivity,supportforconcurrencyandtransactions,supportforauthorizationofaccess,accesssupportfromremotelocations,DBMSdatarecoverysupportintheeventofdamage,andenforcementofconstraintstoensurethedatafollowscertainrules.9.Becauseit’sdesignedtoprocessmillionsofqueriesandthousandsoftransactions,MySQLisapopularchoicefore-commercebusinessesthatneedtomanagemultiplemoneytransfers.10.Somecommonchallengesthattheyfaceareabsorbingsignificantincreasesindatavolume,ensuringdatasecurity,keepingupwithdemand,managingandmaintainingthedatabaseandinfrastructureandremovinglimitsonscalability.[Ex.2]根据TextB回答以下问题。1.Adatawarehouseisasystemthataggregatesdatafromdifferentsourcesintoasingle,central,consistentdatastoretosupportbusinessanalytics,datamining,\o"artificial-intelligence"artificialintelligence(AI),and\o"AI-vs-Machine-Learning-vs-Deep-Learning-vs-Neural-Networks-What’s-the-Difference?"machinelearning.2.Traditionally,adatawarehousewashostedon-premisesoftenonamainframecomputeranditsfunctionalitywasfocusedonextractingdatafromothersources,cleansingandpreparingthedata,andloadingandmaintainingthedatainarelationalstore.3.Adatawarehouseprovidesafoundationforthefollowing:moreconsistent,higher-qualitydata;faster,unlimitedinsight;smarterdecision-makingsupportedbycutting-edgetools;gainingandgrowingcompetitiveadvantage.4.Generallyspeaking,thethreetiersdatawarehousesaretheextractiontier,thedatastoretierandtheanalyticstier.5.BecauseETLtransformsdatabeforewritingittothewarehouse,it’sabetterchoiceforloadingsmallerdatavolumesandforon-premisesdatawarehousesolutions.6.ThetransformationofdatainanELTprocesshappenswithinthetargetdatabase.7.Adatalakeisbasicallyadatawarehousewithoutthepredefinedschemas.DatalakesarecommonlybuiltonbigdataplatformssuchasApacheHadoop.8.Becausetheycontainasmallersubsetofdata,datamartsenableadepartmentorbusinesslinetodiscovermore-focusedinsightsmorequicklythanpossiblewhenworkingwiththebroaderdatawarehousedataset.9.Aclouddatawarehouseisadatawarehousespecificallybuilttoruninthecloud,anditisofferedtocustomersasamanagedservice.10.Adatawarehouseapplianceisapre-integratedbundleofhardwareandsoftwareCPUs,storage,operatingsystem,anddatawarehousesoftwarethatabusinesscanconnecttoits\o"us-en_cloud_learnhub_networking-a-complete-guide"networkandstartusingas-is.[Ex.3]词汇英译中(1)backend(1)后端(2)datalake(2)数据湖(3)clouddatabase(3)云数据库(4)datamart(4)数据集市(5)dataaccesscontrol(5)数据存取控制,数据访问控制(6)calculus(6)n.运算,计算(7)datawarehouse(7)数据仓库(8)concurrency(8)n.并发(性)(9)distributeddatabase(9)分布式数据库(10)control(10)vt.控制;管理[Ex.4]词汇中译英(1)图形数据库(1)graphdatabase(2)vt.分布,分配;散发,分发(2)distribute(3)机器学习(3)machinelearning(4)n.引擎,发动机(4)engine(5)非关系数据库(5)nonrelationaldatabase(6)vt.插入;嵌入(6)insert(7)面向对象数据库(7)object-orienteddatabase(8)n.指令(8)instruction(9)面向对象程序设计(9)object-orientedprogramming(10)n.界面;接口(10)interface[Ex.5]短文翻译数据湖数据湖是一个中心位置,它以其原始格式存储大量数据,并且是组织大量高度多样化数据的一种方式。与将数据存储在文件或文件夹中的分层数据仓库相比,数据湖使用不同的方法。它使用平面架构来存储数据。数据湖支持所有数据类型数据湖以原始粒度格式存储来自多个来源的大数据。它可以存储结构化、半结构化或非结构化数据,这意味着数据可以更灵活的格式保存,这样当我们准备使用数据时就可以对其进行转换数据湖的好处数据湖中的每个数据元素都会分配到一个唯一的标识符,并用一组扩展的元数据标签进行标记。每当出现业务问题时,都可以向数据湖查询相关数据,然后可以分析较小的数据集以帮助回答问题。你可以对数据进行各种分析,例如SQL查询、大数据分析、全文搜索、实时分析,甚至可以使用机器学习来发现见解。数据湖通常是配置在可扩展的商用硬件集群上。因此,可以将数据转储到湖中,以备将之需而无需担心存储容量。此外,群集可以存在于本地或云中。术语“数据湖”通常与面向Hadoop的对象存储相关联。
Unit5[Ex.1] 根据TextA回答以下问题。1.ETLisaprocessthatextractsthedatafromdifferentsourcesystems,thentransformsthedata(likeapplyingcalculations,concatenations,etc.)andfinallyloadsthedataintothedatawarehousesystem.2.ThefullformofETLisExtract,TransformandLoad.3.Well-designedanddocumentedETLsystemisalmostessentialtothesuccessofadatawarehouseproject.4.Inthisstep,dataisextractedfromthesourcesystemandstoredintothestagingarea.5.Therearethreedataextractionmethods.Theyarefullextraction,partialextractionwithoutupdatenotificationandpartialextractionwithupdatenotification.6.Thedataextractedfromsourceserverneedtobecleansed,mappedandtransformedbecausedataextractedfromsourceserverisrawandnotusableinitsoriginalform.7.Thetypesofloadingmentionedinthepassageare:•Initialload—populatingallthedatawarehousetables.•Incrementalload—applyingongoingchangeswhenneededperiodically.•Fullrefresh—erasingthecontentsofoneormoretablesandreloadingwithfreshdata.8.MarkLogicisadatawarehousingsolutionwhichmakesdataintegrationeasierandfasterusinganarrayofenterprisefeatures.Itcanquerydifferenttypesofdatalikedocuments,relationships,andmetadata.9.Oracleistheindustry-leadingdatabase.Itoffersawiderangeofchoiceofdatawarehousesolutionsforbothon-premisesandinthecloud.Ithelpstooptimizecustomerexperiencesbyincreasingoperationalefficiency.10.ThebestpracticesofETLprocessarenevertrytocleanseallthedata,plantocleansomething,determinethecostofcleansingthedata,storesummarizeddataintodisktapes.[Ex.2]根据TextB回答以下问题。1.ApacheStormisanopen-sourceandfreebigdatacomputationsystem.ItisalsoanApacheproductwithareal-timeframeworkfordatastreamprocessingwhichsupportsanyprogramminglanguage.2.Talendisabigdatatoolthatsimplifiesandautomatesbigdataintegration.Itsgraphicalwizardgeneratesnativecode.Italsoallowsbigdataintegration,masterdatamanagementandchecksdataquality.3.ApacheCouchDBisanopen-source,cross-platform,document-orientedNoSQLdatabasethataimsateaseofuseandholdingascalablearchitecture.Itiswritteninconcurrency-orientedlanguageErlang.4.ApacheSparkisalsoaverypopularandopen-sourcebigdataanalyticstool.Sparkhasover80high-leveloperatorsformakingeasybuildparallelapps.Itisusedatawiderangeoforganizationstoprocesslargedatasets.5.ThefeaturesofSpliceMachineare:•Itcandynamicallyscalefromafewtothousandsofnodestoenableapplicationsateveryscale.•TheSpliceMachineoptimizerautomaticallyevaluateseveryquerytothedistributedHBaseregions.•Itreducesmanagement,deploysfaster,andreducesrisk.•Itcandealwithfaststreamingdata,develops,testsanddeploysmachinelearningmodels.6.ThefeaturesofPlotlyare:•Iteasilyturnsanydataintoeye-catchingandinformativegraphics.•Itprovidesauditedindustrieswithfine-grainedinformationondataprovenance.•Itoffersunlimitedpublicfilehostingthroughitsfreecommunityplan.7.AzureHDInsightisaSparkandHadoopserviceinthecloud.Itprovidesbigdatacloudofferingsintwocategories,StandardandPremium.Itprovidesanenterprise-scaleclusterfortheorganizationtoruntheirbigdataworkloads.8.Skytreeisabigdataanalyticstoolthatempowersdatascientiststobuildmoreaccuratemodelsfaster.Itoffersaccuratepredictivemachinelearningmodelsthatareeasytouse.9.Lumifyisconsideredavisualizationplatform,bigdatafusionandanalysistool.Ithelpsuserstodiscoverconnectionsandexplorerelationshipsintheirdataviaasuiteofanalyticoptions.10.Hadoopisthelong-standingchampioninthefieldofbigdataprocessing.Itiswell-knownforitscapabilitiesforhuge-scaledataprocessing.Ithaslowhardwarerequirementduetoopen-sourcebigdataframeworkcanrunon-premiseorinthecloud.[Ex.3]词汇英译中(1)businessdecision(1)业务决策,商业决策(2)datastream(2)数据流(3)dataintegrity(3)数据完整性(4)nativecode(4)本机代码,本地代码(5)datamap(5)数据映射(6)proxyserver(6)代理服务器(7)communicationprotocol(7)通信协议(8)analyst(8)n.分析家,分析师(9)sampledata(9)样本数据(10)duplicate(10)v.复制adj.复制的n.复制品;副本[Ex.4]词汇中译英(1)文本文件(1)textfile(2)n.过滤(2)filtering(3)用例(3)usecase(4)v.映射(4)map(5)adj.敏捷的,灵活的(5)agile(6)vt.恢复;重新获得;找回(6)recover(7)vt.擦掉;抹去;清除(7)erase(8)n.样本;样品vt.抽样调查;取样(8)sample(9)n.间隔尺寸,粒度(9)granularity(10)n.验证;证明;证实(10)verification[Ex.5]短文翻译数据分析数据分析是一个广义术语,涵盖了许多不同类型的数据分析。任何类型的信息都可以使用数据分析技术来获得可用于改善状况的见解。数据分析的过程有几个不同的步骤:1)第一步是确定数据需求或如何对数据进行分组。数据可以按年龄、人口、收入或性别分开。数据值可以是数字的,也可以按类别划分。2)数据分析的第二步是收集数据的过程。这可以通过多种资源来完成,例如计算机、在线资源、相机、环境资源或人员。3)一旦收集到数据,就必须对其进行组织以便可以进行分析。对获取统计数据可以用电子表格或其他形式的软件进行组织。4)然后在分析之前清理数据。这意味着将对其进行清理和检查以确保没有重复或错误,并且它不是不完整的。此步骤有助于在交给分析师继续分析数据之前,纠正所有错误。数据分析分为四种基本类型:1)描述性分析描述了给定时间段内发生的事情。观看次数增加了吗?这个月的销售是否比上一个更强劲?2)诊断分析更多地关注发生某些事情的原因。这涉及更多的数据输入和一些假设。天气是否影响啤酒销售?最近的营销活动是否影响了销售?3)预测分析是用历史数据来分析过去的模型并预测未来的模型的过程。上一个炎热的夏天,销售情况如何?如果今年夏天炎热情况会怎么样?4)规范性分析给出采取行动的建议。如果按这些天气模型的平均值衡量炎热夏天的可能性大于58%,则我们应该为啤酒厂增加一个夜间班次,并租用一个额外的水箱以增加产量。
Unit6[Ex.1] 根据TextA填空。1.largestoresofdata,patternsandtrends,knowledgediscoveryindata(KDD)2.buildingmodels,analgorithm,theexecutionofdataminingmodels3.anassociatedprobability,confidence,generaterules,agivenoutcome4.remodelingthegivendata,theuser,theprepareddataset,stakeholders,meetbusinessinitiatives5.themostnecessaryprocess,everyaspectoftheprocess,anypossiblefault,thenewpatternsdiscovered6.simplypresenttheknowledge,whentheywantit7.preparingthedata,toremovenoise,simpleexponential,themovingaverage8.datapoints,thesamescale9.getinformation,thedatapoints,groupingpeople,similarproductrecommendations10.predictthelikelihood,thepresenceofotherfeatures,therelationbetweendifferentfeatures,findhiddenpatterns,performrelatedanalysis[Ex.2]根据TextB回答以下问题。1.C4.5isoneofthetopdataminingalgorithmsandwasdevelopedbyRossQuinlan.C4.5isusedtogenerateaclassifierintheformofadecisiontreefromasetofdatathathasalreadybeenclassified.2.K-meansisoneofthemostcommonclusteringalgorithms.Itworksbycreatingaknumberofgroupsfromasetofobjectsbasedonthesimilaritybetweenobjects.3.Apriorialgorithmworksbylearningassociationrules.Associationrulesareadataminingtechniquethatisusedforlearningcorrelationsbetweenvariablesinadatabase.4.EMalgorithmisalsounsupervisedlearningsinceweareusingitwithoutprovidinganylabelledclassinformation.5.PageRankisalinkanalysisalgorithmthatdeterminestherelativeimportanceofanobjectlinkedwithinanetworkofobjects.6.GoogleusesPageRanktodeterminetherelativeimportanceofawebpageandrankithigheronGooglesearchengine.7.Boostingalgorithmisanensemblelearningalgorithmwhichrunsmultiplelearningalgorithmsandcombinesthem.Boostingalgorithmstakeagroupofweaklearnersandcombinethemtomakeasinglestronglearner.8.Lazylearnersstartclassifyingonlywhennewunlabeleddataisgivenasaninput.C4.5,SVNandAdaboost,ontheotherhand,areeagerlearnersthatstarttobuildtheclassificationmodelduringtrainingitself.9.Theassumptionusedbythefamilyofalgorithmsisthateveryfeatureofthedatabeingclassifiedisindependentofallotherfeaturesthataregivenintheclass.NaiveBayesisprovidedwithalabelledtrainingdatasettoconstructthetables.10.CARTstandsforclassificationandregressiontrees.Itisadecisiontreelearningalgorithmthatgiveseitherregressionorclassificationtreesasanoutput.[Ex.3]词汇英译中(1)buildmodels(1)建立模型,构建模型(2)anomaly(2)n.异常,反常(3)dataleakage(3)数据泄露(4)clustering(4)n.聚类(5)hiddenpattern(5)隐藏模式,隐含模式(6)construct(6)vt.构建,构造(7)neuralnetwork(7)神经网络(8)deployment(8)n.部署;调度(9)processingunit(9)处理单元(10)factor(10)n.因素[Ex.4]词汇中译英(1)先验算法(1)apriorialgorithm(2)n.泛化(2)generalization(3)关联规则(3)associationrule(4)n.神经元;神经细胞(4)neuron(5)聚类算法(5)clusteringalgorithm(6)n.可能性;几率,概率(6)probability(7)决策树(7)decisiontree(8)n.回归(8)regression(9)惰性学习算法,消极学习算法(9)lazylearningalgorithm(10)n.分类器,分类者(10)classifier[Ex.5]短文翻译数据挖掘中数据源的类型平面文件平面文件是被定义为有结构的文本形式或二进制形式的数据文件,这些文件易于被数据挖掘算法提取。平面文件中存储的数据之间没有关系或路径,就如把关系数据库存储在平面文件中,表之间也就没有了关系。平面文件由数据字典表示。例如:CSV文件。关系数据库关系数据库被定义为用有行和列的表组织的数据集合。关系数据库中的物理模式是定义表结构的模式。关系数据库中的逻辑模式是定义表之间关系的模式。数据仓库数据仓库定义为从多个来源集成的数据集合。数据仓库有三种类型:企业数据仓库、数据集市和虚拟仓库。可以使用两种方法来更新数据仓库中的数据:查询驱动方法和更新驱动方法。事务数据库事务据库是按时间戳、日期等组织的数据集合,以表示数据库中的事务。当事务未完成或未提交时,这种类型的数据库具有回滚或撤消其操作的能力。这是一个高度灵活的系统,用户可以在不更改任何敏感信息的情况下修改信息。多媒体数据库多媒体数据库包括音频、视频、图像和文本媒体。它们可以存储在面向对象的数据库中。它们用于以预定格式存储复杂信息。万维网WWW指万维网,是音频和视频、文本等文件和资源的集合,这些文件和资源由统一资源定位器(URL)通过网络浏览器标识,由HTML页面链接并可以通过因特网访问。它是最异构的存储库,因为它从多种资源中收集数据。本质上,它是动态的,因为数据量不断增加和变化。
Unit7[Ex.1] 根据TextA回答以下问题。1.Oneofthemostimportantdecisionsthatbigdataprofessionalshavetomake,especiallytheoneswhoarenewtothesceneorarejuststartingout,ischoosingthebestprogramminglanguagesforbigdatamanipulationandanalysis.2.\o"LearnPython"\t"/top-5-programming-languages-big-data/_blank"Pythonhasbeendeclaredasoneofthefastestgrowingprogramminglanguagesin2018accordingtotherecentlyheld\t"/top-5-programming-languages-big-data/_blank"StackOverflowDeveloperSurvey.Itsgeneral-purposenaturemeansitcanbeusedacrossabroadspectrumofuse-cases,andbigdataprogrammingisonemajorareaofapplication.3.Pythoncanintegra
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年深圳信息职业技术学院辅导员考试真题
- 南阳工艺美术职业学院《外国文学史(Ⅰ)》2023-2024学年第二学期期末试卷
- 广西职业师范学院《生物制药工程实验》2023-2024学年第二学期期末试卷
- 黑龙江中医药大学《风景园林设计逻辑与分析》2023-2024学年第二学期期末试卷
- 辽宁职业学院《信息分析与预测》2023-2024学年第二学期期末试卷
- 贵州交通职业技术学院《古代文学论文选题与写作》2023-2024学年第二学期期末试卷
- 江西应用科技学院《住宅空间设计》2023-2024学年第二学期期末试卷
- 广州民航职业技术学院《家具设计与陈设》2023-2024学年第二学期期末试卷
- 工业互联网的兴起与发展
- 工业互联网的崛起与影响分析
- Unit1ScienceFictionUsingLanguage(2)ReadingforWriting课件高中英语人教版选择性
- 初中语文 24 唐诗三首《卖炭翁》公开课一等奖创新教学设计
- 北京海淀十一学校2024届英语七年级第二学期期末教学质量检测模拟试题含答案
- 2023-2024学年辽宁省沈阳市皇姑区七年级(下)期末数学试卷(含答案)
- 酿酒机械与设备智慧树知到期末考试答案章节答案2024年齐鲁工业大学
- 儿童保健门诊规范化建设标准
- 《庖丁解牛》省公开课金奖全国赛课一等奖微课获奖课件
- JBT 11699-2013 高处作业吊篮安装、拆卸、使用技术规程
- 24春国家开放大学《离散数学》大作业参考答案
- 健康保险合同
- 2023-2024年天原杯全国初中学生化学竞赛复赛试题(含答案)
评论
0/150
提交评论