数据大势完整_第1页
数据大势完整_第2页
数据大势完整_第3页
数据大势完整_第4页
数据大势完整_第5页
已阅读5页,还剩154页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据生命周 ETL工具所谓 DataCleansing与Data TalendDI安装和初期设 安装准 下载TOS- 启动Talend 配置TalendStudio(external 备份和恢复TOS- TOS-DI 偏好设定 Business模型是什 尝试建 设计Job和数据处 从一个简单Job说 详说组件间的连接 活用 Job的执 Job/Item的导入导 Project&Job设 Stats&Log管 Status设定和管 版本管 生成文 Job高级选 其他设 什么是 来看看System 自定义 在Job中如何调用 实 ETL和 TalendSQLTemplate讲 SystemSQL 查看SQL 自定义SQL 实例说明如何使用SQL Job开发,测试,部署流 Error!BookmarknotJob部 Error!BookmarknotJob运行监 Error!Bookmarknot TTALENDDATAINTEGRATION11组织在全国范围设定了各种各样采集气象数据的感应器。比如每60秒采我们使用微信联络,发照片和感受到SNS(社交网络),我们发邮件,打电话(录音情况),写博客。这些信息均被以某种形式(Flat文件,XML,数据库)存储到媒体介质中(CD,DVD,硬盘,U盘等),就作数据的产生(Data数据的质量分析(Data数据清洗(Data数据的产生(Data实时产生的。与其相对,数据还可以被积累,积累到了一定的程度(Daily,Weekly,Monthly,Yearly)bat/shell等一次性的处理。数据的产生可以来自外部,比如公司和公司之间通过EDI(详见附录-EDI解说),FTP,HULFT(详见附录-HULFT是什么)来传输文件。比如公websiteWebService得到的数据。也可以来自公司或系统内部,比如一个系统的输出是另一个系统的输入。比如系统运行过程中产生的日志信息(Log)。比如ESB(详见附录-企业服ESB解说)中各个系统间接口的相互调用。对于RealTime型的数据输入,只有通过有效的CheckYYYYMMDD格式。但是由于各种各样的原因,在数据输入端的MDM(详见附录-MDM主数据管理)中的数据来源都是来自多个HR管理系统中的数据需要汇总保存为营HR管理系统中对于人员基本信息的表定义均有可能不同,信息输入的控制也参差不齐。电话号码的形式可能XXXX-XXXX-XXX形式,也可能XXXXXXXXXXX,或Moble:XXXXXXXXXXXMDM时候的RealTime型的数据。在数据处理前就有更加有必要对其进行6GB级别的,其中含有大量的噪音数据,比如气温高于60摄氏度,风速负值,处理前我们需要Input数据本身已经没有多少意义。Load进数据库来进行管理。那么在设计这个数据库的数据结构既存数据质量的分析(Data数据质量衡量(评分

5.数据质

发义InformaticDataQuality等ETLELT经过了数据质量分析和数据清洗。接下来需要做得就是将Input数据整形,变换,导入到目标的数据库,数据仓库中。这个过程分成ETLETLELT方式,数据处理整database中。所以采取哪种方式更多的是在于要求和环境。将在下SQLTemplate详细说明。BI对于加工好,存储好的数据,一般由两条处理路线。一条就是BI,dimetiongroup-byaggregatefunction(SUM,也就是说,OLAP就是找一个数据库工程师坐在你旁边干活儿。企业投OLAPETL工具,数据仓库的建立,意ETL整理,我们是无法直接拿过来就用的。BI软件,用户就可以撇开工程师的臭脸,自己想产生什么样的数据集市(Dataa)是数据的最终保存场所。显然将大且全的数据全部提供给一个个部门来使用是不合适的,不合适的体现一.二.业务逻辑上造成的不理解和效率低下。市场部的人关心的是三.各个部署的分析人员作业量和符合增大。市场部的人员希望因为有上诉的不合适,数据管理的团队就需要按照各个特点部门的要求从数据仓库中把一部分数据提取出来,做成一个个的Subt,ISubet上作开发。Subset的形式也不一定是一些数据库中的中间表,它也可以是BIOLAP的认识:BI-BusinessIntelligence简单说,企业内积累的数据进行分析,加工,按照各个商业的要求,生成报表,来对决策,统计进行支持和帮助。比如,营业收入的分析,利润的统计分析,顾客动向分析等。本来这些工作依赖给专家也是可以完成的。但这不是I的意义。BI义就是通过工具简单的操作即可自己得出报表,即可自己快速的看到分析结果。OLAP=BI是一种大误解。OLAP不是一种分析的技术,OLAP是安MOLAPROLAP。造成误解的原因是OLAP技术本身是没有什么商业价值的,只有OLAP+分析+BIBI工具中,OLAP中既存的报表工具,或单独的第三方报表工BI工具都比较昂贵,昂贵理由之一,就是里面会集成很多功能。无疑报表就是其中一个最重要的。这样Business方面的人员就可以BI工具。这样就不得不去尝试使用开源的或廉价的报表工具。iReport是其中的代表。另一分支即数据挖掘。会被简称为DM。它是基于蓄积的大量数据,做解析(数据挖掘算法),然后找出潜在的项目间的关联性(常被称为估计预测聚类NAS(网络备NetworkAttachedStorage)。CDC(ChangeDataCapture)。DataWareHouse中以达到数据同步的要求时,实时的数据抽出和整时间戳BA的时间戳来确定抽取的数据。音频文件:mp3格式,wma格式,mpeg-4格式,CD格式等GreenPlum,Ingres,Netezza,Teradata,MongoDB,EXit等ETLExtract/Transform/Load。从各种各样的Input中抽取数据,加工/变化/整Informatic:PowerCenterRepositoryManager,Designer,WorkflowManager,WorkflowMonitor。逻辑很清晰。Talend:TalendOpenStudioforDataIntegration开源软件,Component非常DataQuality,ESB等一系列开源产品。个个经典。ETL:久其公司开发,ETL灵蜂:BeeLoad专做政府和军工项目,软件不太好用,文档的进步空间还ODBC。Mning以通过编写小程序来处理,我们还可以在DBMS层来做大量的工作,比处理(这种做法被称为ELT)。但是对于复杂的逻辑和特殊的接口,使用ETL工具就会事半功倍,更省更快更简单。而且在接口(I/F)的支持上,ETL工具中都有很好的集成,可以省去很多额外的工作。比如ETL所谓数据仓库(Data100G以上。所谓主数据管理(MDM:MasterDataManagement)40A70年代的时候,使用文本(笔记本)来记其中,客户信息,员工信息,产品信息三本记事本我们把它看成是MasterData(主数据),而销售信息则不是主数据。区别就是主数据是一接上例,随着企业的成长和信息化的出现,A企业开始引入信息化建设。建立了销售系统-管理客户信息,人事系统-管理员工信息,2008年先后引90年代的建立的Excel,2000年建立的销售系统,以及2008年之后的各自独立的信息系统来管理各自的客户信息。那么需要找出A企业的一B工厂的信息。我们去哪里找呢?哪里的信息是准确的呢?B存在于文本文件,Excel,销售系统,CRM和某地的一个分公司数据库中。其中文本文件,Excel,分公司数据库中记录的B工厂的地址和联系方式均不相同,CRM中则比其他的形式的记录多出很多信息(比如规模,主营项目等)。可能你会说CRM为准啊,因为它最接近现在。那么很久所以我们需要MDM来整合数据,这样才能是其发挥效用。想象一下通察和描述数据(DataProfiling)。poorqualityDataProfiling来帮助我们了解数据集的质量以避免在数据迁移数据处理中无用DataCleansing,数据本身会含有很多的噪音即错误的数据。比如,DB中。这种数据毫无意义)。再123-000123000,还12-30-00123,000。不同的格式的数据要进行清洗,同合成统一格式才能发挥其作用。这就是DataCleansing必须要做的事情了。223GBminimumJDK的安装路径。exportexportJAVA_HOME=/usr/lib/jvm/jdk1.7.0_40/exportPATH=$JAVA_HOME:$PATH在globalpoie/ec/pilefile或userprofiles/poilefile.d,WindowsMacOS的所有包。Palette个Libraries或Driversexternalmodules。装externalmodulesitem,XML,preferences等。item,XML,preferences等。View->ZoomIn/ZoomWindows->MaximizeActiveViewor据MetaData(DBConnectionRoutines等)。Main右击-Editproperties来编辑。是通过控件tContextLoad来进行。tt/ogDI的语言表现。在TalendDI中用户是可以自由的编写开发自定义组件的,只要将组件按WindowPreferencesTalendgStatsportTraceportSavebeforeClearbeforeExec109[statistics]connectingtosocketonport3358[statistics]connected[statistics][trace]connectingtosocketonport4645[trace]connectedJobRunVMargumentsJVM-Xms256MandXmx1024MPaletteHideShow为显示的组件。File>EditProject33Job。来做,是通过人工监视还是监视软件。这又涉及到LogAppearance/RulersandGridTabBusinessAssignmentTab来查看。

JobJob同时可创建一个使用组件)连接组件)InputPropertyType和Schema信息。Schema的设定来说,对于重复使用率很高的文件,事先会保存到Input文件course(课程)中的CourseName后添加“课程”后将etAAAYvout.csv中。如图,因为InputOutput都是分隔符的文本文件,所以选择了CourseName后连接上“课程”字样。件头和文件尾。Limit则是在文件很大的时候控制读入的行数。1020。CourseID指定为Key。Basicsetting中设定路径,行列分隔符,IncludeHeader的勾选为输出out1schema中的。encodingUTF-8SplitOutput那个勾选和1000行数据分割一次文件。弹出表达式编辑器,添加处理:row2.CourseName"课程"过tFilterRow3条,并最终输出。InputInput属性Reject。tMapOutput的。这个连接出现的前提是,在tMapeditorDieOnError的勾选。如下图所示。去除勾选DieOnErrortMap的处s据。Duplicates输出重复的数据。ttFileList中使用。结构)ELTmapper组件中去。详细说明请参照ELT组件说明。Input连接到加工系列的组件的时候,比InputSchemaSchema也会Row1的Schema中增加一列。Mode中的选择:Absulute表示监视到的具体行数,而非百分比。DBObject。Status和Version。指定是输入Input还是输出Output。并上传XML或XMLXML的结构。XML的Schema也可以手动的定义。Field的长度。ExcelExcel2007版本的话,勾选[Readexcel2007fileformat(xlsx)]SocksHttp代理。ContainerContainer。MDM中的Schema。可以在定义好的MDM连接上右击,RetrieveSchemaEntitySchema结构,拖拽循环节点到右上。(橙色线所可以将Metadata导出到context的意义就在于,在开发环境中建立的并行执行多个Subjob也需要暂停来等待空闲线程。在有迭代关系的组件上,可以设定并行执行来提高性能。方法是双击4个一组的进行。正常执行Output。JobFlow上加上断点。加断点的方法就是在组件上右TraceDebug模式执行在Job的RunView中有Advancedsettings选项。可以进行执行时间,Project的默认定义来扩充Java虚拟机中队Xms和Xmx的设定。Server-Client模式的ETL工具中,比如InformaticPowerCenter。从DEV/Test环境到Prod环境的Job移植依靠的是Job导出,导入。PowerCenter。而在TOS-DI中,可以不依赖TOS-DI的环境,直接在DEV/Test下的bat或shell的执行只需要JAVA环境。,),看OptionAll.batandUnixWindows去修改默认的Context值Java勾选的时候,将输出.java勾选的时候,导出.perties文件OK了。用tStatCatcherDB中。如下图:DBContext。Job如何打开不同版本的Job:如果已经存在多个版本的Job,则选择要打开的版本。也可以勾选Job可能包含多个独立的处理,这些处理之间的关联可能是由先后关OnSubjobOK等来连接各个不同的处理。Job的启动和监视,应该由专门的监控软件来执行。Scheduler功能,指定好时间触发(几月几号几点几分执行等),在Unixcrontab来执行。TaskScheduler如下图来指定好bat文件的路径,然后定期触发。显然,上面的方法是不够理想的(过于简单)。相比之下,Unix*******実行コマンド55552328-31**Unix系中通在Dayofweek则是处理后的清尾。这样的设计不仅区分清楚不同的逻辑并且指定好JobTOSDI捕捉并显示出来。形Job上的ErrorPalette中拖拽,然后如下图般填写内容即可。CodeViewer,如下图。可以点击要查看代码的某组件,然后点击左下的Code打开Job55/收录了800+个各国开发爱好者开发的组件。下图为Youtube和GoogleAnalystic专用的组件。ow的Folder是"USERNAME"和"DOMAIN";globalNB_LINE。><CONNECTORCTYPE="FLOW"<CONNECTORCTYPE="ITERATE"MAX_OUTPUT="1"<CONNECTORCTYPE="SUBJOB_OK"MAX_INPUT="1"<CONNECTORCTYPE="SUBJOB_ERROR"MAX_INPUT="1"<CONNECTORCTYPE="COMPONENT_OK"<CONNECTORCTYPE="COMPONENT_ERROR"<CONNECTORCTYPE="RUN_IF"<PARAMETERNAME="ADDRESSES"FIELD="TABLE"REQUIRED="true"NUM_ROW="3"NB_LINES="5"SHOW="true"><ITEMS<ITEMNAME="USERNAME"<ITEMNAME="DOMAIN"<RETURNNAME="NB_LINE"TYPE="id_Integer"LONG_NAME=TutorialcomponentLONG_NAME=TutorialcomponentNB_LINE.NAME=Numberofline按照上面的编辑和设定,会有如下图一样的显示。参数Address,是TableUsername和Domain。%>Domainnb_linetTutorialRow处理的行数。<%@<%@"CodeGeneratorArgumentcodeGenArgument=(CodeGeneratorArgument)argument;INodenode=(INode)codeGenArgument.getArgument();Stringcid= "ADDRESSESjava.util.List<String>addresses_<%=cid%>=newfor(inti=0;i<lines.size();i++){Map<String,String>line=lines.get(i); line.get("DOMAIN")%>);}}tTutorialRow_main.javajet。<%@<%@"CodeGeneratorArgumentcodeGenArgument=(CodeGeneratorArgument)argument;INodenode=(INode)codeGenArgument.getArgument();Stringcid=String[]adresses_<%=cid%>=addresses_<%=cid%>.toArray(newString[]System.out.print(nb_line_<%=cid%>+++":for(inti_<%=cid%>=0;i_<%=cid%><adresses_<%=cid%>.length;%>++{System.out.print(adresses_<%=cid%>[i_<%=cidif(i_<%=cid%><adresses_<%=cid%>.length-1)}<%@<%@"CodeGeneratorArgumentcodeGenArgument=(Cod

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论