“1+X”(初级)06-数据分析_第1页
“1+X”(初级)06-数据分析_第2页
“1+X”(初级)06-数据分析_第3页
“1+X”(初级)06-数据分析_第4页
“1+X”(初级)06-数据分析_第5页
已阅读5页,还剩68页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据分析学习完本课程后,你将能够:1.了解指标的定义、价值和评价标准2.掌握指标体系的构建方法3.掌握阿里云大数据产品MaxCompute、DataWorks的基本应用课程目标课程目录数据分析指标与实现1.1什么是数据指标1.2优秀的数据指标的特征1.3数据分析指标的实现2.基于阿里云平台进行数据分析什么是指标、数据指标“如果你不能衡量,那么你就不能有效增长”----现代管理学之父彼得·德鲁克对企业或组织来讲,衡量即按统一标准来定义、评价业务情况,这个标准即指标(Indicator)。指标就是说明总体数量特征的概念及其数值的综合。我们在数据库、数据仓库中进行数据操作,包括统计、查询、分析等,其针对的数据字段(这些字段与产品、业务相关,对产品和业务有参考价值),本质上都是数据指标。企业指标体系则是若干个反映企业业务、企业生产运营、企业产品等数量特征的相对独立又相互联系的数据指标所组成的有机整体。数据分析与数据指标数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的价值,发挥数据的作用。一句话,数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程;数据分析离不开数据指标,数据指标贯穿数据分析过程。数据分析是一个过程:确定分析目标-->确定数据指标-->获取数据-->生成数据指标-->分析数据指标-->得出结论;数据指标是数据分析的载体,是通过数据指标实现数据分析的目标;各种维度的数据指标即为数据分析的结果展现形式;数据指标结合分析方法得出新的指标,通过数据指标获得分析结论。方法维度指标数据分析指标的组成完整的数据统计指标:指标的名称,说明所反映现象数量特征的性质和内容统计的时间界限和空间范围计算方法(修饰词)例如截止2020年1月1日A学校在岗教职工人数618这一天B店铺通过直播带来的利润数据指标的分类6定性vs定量虚荣vs北极星先见性vs后见性相关性vs因果性定性和定量7【例】在绩效考核当中管理层:适宜采用定量成分较多、约束力较强、独立性较高、以最终结果为导向的考核指标普通员工:适宜采用定性成分多、需要上下级随时充分沟通、主要以工作过程为导向的考核指标定性指标定量指标非结构化的、经验性的、揭示性的、难以归类的指标可以被计数和衡量的指标虚荣和北极星8【例】虚荣指标:总注册用户数北极星指标:总活跃用户数、总活跃用户占比虚荣指标北极星指标容易给人留下印象,但是无法用于决策的指标可以指明工作的方向,帮助改进商业模式,决策下一步行动的指标先见性和后见性9【例】先见性指标:下半年每个月的预测销量后见性指标:用户流失率变化先见性指标后见性指标用于预测企业未来情况的指标通过对未来的预测,制定利益最大化的策略用于揭示当前存在问题的指标发现存在的问题后通过干预,减少损失相关和因果10【例】相关指标:雪糕销量和溺亡人数因果指标:商品单价和销售额相关指标因果指标一个或多个指标变化的同时,另一个或多个指标也会随之变化但是指标之间不存在先后的时间关系一个或多个指标的改变,能够对另一个或多个指标产生某种作用指标之间的变化存在先后的时间关系数据指标的其他分类方式不同行业、不同企业、同一企业不同部门内指标分类不近相同,常见数据指标的分类:按通用性分:宏观指标、特定指标,如互联网行业常见的宏观指标PV、UV,具体到某业务的销售情况则为特定指标;按重要性:KPI指标、普通指标,即核心关键指标(按部门、按业务、按时间等)、一般指标;按指标内容或其数值表现形式:总量指标、平均指标、相对指标,如上半年总收入、上半年月均收入、上半年增长率按管理功能:描述指标、考核指标、监控指标等,其他分类常用的数据指标不是所有的数据指标都叫指标,只有对当前业务有参考价值的指标才可称作指标。对于互联网电商而言,常见指标如下:网页基础指标:PV(页面浏览量)用户每1次对网站中的每个网页访问(成功访问/进入)均被记录1次。用户对同一页面的多次浏览,浏览量累计。在一定统计周期内用户每次刷新网页1次也被计算1次;UV(独立访客人数)访问网站的一台电脑客户端为一个访客。统计周期内相同的客户端只被计算一次;VV(用户访问次数)当用户完成浏览并退出所有页面就算完成了一次访问,再次打开浏览时,VV数+1;跳出率表示用户来到该页面后,没有进行任何操作就直接离开的比例,代表了对客户的吸引力;退出率用户从某个页面进入网站,最终从该页面退出的比例;平均访问时长指在特定统计时间段内,浏览网站的一个页面或整个网站时,用户所停留的总时间除以该页面或整个网站的访问次数的比例;转化率在一个统计周期内,完成转化行为的次数占推广信息总点击次数的比率;回购率指用户对商品或者服务的重复购买次数(回头客)。常用的数据指标不是所有的数据指标都叫指标,只有对当前业务有参考价值的指标才可称作指标。对于互联网电商而言,常见指标如下:用户基础指标:ARPU

每个用户平均收入,ARPU=总收入/用户数;新增用户新注册使用电商系统的用户,又通常分为:日新增(DNU)、周新增(WAU)、月新增(MAU),注意重新注册用户不算,这是衡量营销推广渠道效果的最基础指标;活跃用户在特定的统计周期内,成功启动过、使用过产品的用户;活跃用户数根据不同统计周期可以分为日活跃数(DAU)、周活跃数(WAU)、月活跃数(MAU);注意同周期内用户个数不累计;留存率在某一统计时段内的新增用户数中再经过一段时间后仍启动该应用的用户比例(留存率=留存用户/新增用户*100%)。通常重点关注次日、3日、7日、30日即可,并观察留存率的衰减程度;留存率又分为:次日留存率、7日(周)留存率、30日(月)留存率等等;常用的数据指标不是所有的数据指标都叫指标,只有对当前业务有参考价值的指标才可称作指标。对于互联网电商而言,常见指标如下:用户基础指标:流失率:指那些曾经使用过产品或服务,由于各种原因不再使用产品或服务的用户,用户流失率=某段时间内不再启动/使用应用的用户/某段时间内总计的用户量,流失率和留存率有紧密关联,流失率高既留存率低,但活跃度不一定高,因此需要综合分析,也可以按周期统计流失率;一次性用户:即新增日后再也没有启动过/使用过应用的用户;在实际应用中一般认为至少超过7天时间才能够定义是否是一次性用户,即一周以上时间未使用/未登录应用。使用时长:统计时间段内,某个设备从启动应用到结束使用的总计时长;启动/登录次数:统计时间段内,用户打开/使用应用的次数;使用间隔:用户上次使用应用的时间与再次使用时间的时间差。数据指标的价值数据指标的价值:

改变行为

促成目标:优化产品、优化定价、优化市场定位等【例】指标显示将“立刻注册”改成“免费注册”可以提升20%的转化率,那么就应该将文案优化【反例】销售员的季度奖金应该与手头上的订单数这一指标挂钩吗?销售团队会为了个人收入制造大量低质量的潜在客户,而不是想办法获得更多高质量客户。应该与已完成的订单数量或订单的利润率挂钩。课程目录数据分析指标与实现1.1什么是数据指标

1.2优秀的数据指标的特征

1.3数据分析指标的实现2.基于阿里云平台进行数据分析优秀的数据指标的特征可理解是比率可比较不同的时间段不同用户群体不同竞争产品简单易懂避免误导业务解释性可操作性强可以比较反映关联性本周转化率比上周高2%本周转化率为5%Sales销量?销售额?里程vs速度当前速度vs区间平均速度优秀的数据指标的特征某APP公司面临一个选择:该在免费版中提供尽量丰富的功能以吸引新用户,还是该将这些功能保留在收费版本中,以促使用户为高级功能付费?推出功能丰富的免费版不利于销售额的增长而免费版功能过简又不利于新用户的增加。方案一:免费功能A

B

C

D

E收费功能F

G

H

I

J

日均新用户数100日均收入1000方案二:免费功能A

B

C

收费功能D

E

F

G

H

I

J

日均新用户数60日均收入1200指数=新用户数/收入一个结合了二者的数据指标来帮助理解产品的改动对公司的整体业绩会有怎样的影响。否则,可能会片面地为增加销售额而牺牲新用户的增长。指数=

10%指数=

5%课程目录数据分析指标与实现1.1什么是数据指标1.2优秀的数据指标的特征

1.3数据分析指标的实现2.基于阿里云平台进行数据分析数据分析指标的实现分析需求目标业务理解设计指标规划分析、计算方法落地实施结果考评数据分析指标的实现过程也是从需求出发,首先明确分析的任务目标,结合企业业务,设计制定优秀的数据指标,基于分析目的,采取相应的分析方法,然后指标落地实施,最后考评指标分析结果与原需求目标是否匹配,是否能达到既定目标。数据分析指标的设计维度示例在企业指标体系中有许多指标来衡量企业的生产运行情况,衡量产品销售、用户质量、市场活动、风险控制的效果,基于不同的角度将这些指标进行维度划分,如下示例:营运指标客户价值指标财务指标市场营销活动指标风控类指标市场竞争指标销售转化指标数据分析指标案例某电商平台考察风险控制情况,业务主要是线上销售商品,客户购买商品,购买完成对购买过程、快递物流、购买商品进行线上评价,或者客户购买商品后由于各种原因线上投诉,还有就是进行线上退、换货等。结合具体实际情况,设计风控类指标时,可以从三个方面考虑:买家评价、买家投诉、退换货等。其中,买家评价指标可设计为:

指标名称指标定义指标作用买家评价率指某段时间参与评价的买家与该时间段买家数量的比值;反映用户对评价的参与度,电商网站目前都在积极引导用户评价,以作为其他买家购物时的参考买家好评率指某段时间内好评的买家数量与该段时间买家数量的比值;买家差评率指某段时间内差评的买家数量与该段时间买家数量的比值;数据指标的分析方法数据指标通常分为定量和定性,定性指标即分类指标,如满意度高还是低、产品质量优还是差、一般;定量指标则是通过准确数量定义、精确衡量并能设定绩效目标的考核指标。定性指标分析方法:对比分析,如按时间分析每月满意度情况;结构分析,如产品质量优、一般、差的占比分析;定量指标分析方法:分组分析,指标分组分析,企业按不同区域分组,考察某月营收情况;结构分析,在统计分组的基础上进行分析;交叉分析,即立体分析,指标在横向分析、纵向分析的基础上,从交叉、立体出发从低级到高级分析的综合分析方法……

数据指标的分析方法交叉分析案例:

假设A公司资产净收益率0.35%,营业利润率0.74%,每股收入为0.001元,而B公司资产净收益率10%,营业利润率12%,每股收入为0.3元,如果只看这些数据,横向比较明显B公司优于A公司,如果从纵向做对比,发现A公司一年来,收益率、利润率、每股收入都是逐月在增加,而B公司三项指标是逐月下降,对于投资者而言,往往认为A公司要比B公司更有吸引力。

数据分析指标的系统实现数据分析系统(数据仓库)其他业务系统指标获取:商业智能软件编写、开发处理程序数据操作语言数据分析工具\平台数据挖掘工具\平台指标定义完成后,就要考虑指标的系统实现了,即如何实现这些数据指标。理论上讲,数据指标可以从指标涉及数据的源系统(或其他非系统数据源)直接获得,也可以从专门的数据分析系统获得。数据分析指标的系统实现大数据、云计算和互联网发展到今天,数据量越来越大,维度越来越多。企业对数据、效率要求的逐步提高,也给大数据提供了展现能力的平台,基于大数据分析平台(数据仓库系统)获取各类数据分析指标成为企业数据指标分析的常见方式。常见数据分析工具:QlikViewTableauPowerBIMicroStrategyFineBIQuickBI临时分析指标常规分析指标企业核心KPI数据仓库系统

指标体系数据指标分析案例指标类别指标名称指标定义单位展现要素集客经营有效集团客户数截至统计周期末,订购了集团通信和信息化产品(不含校园V网、乡情网、家庭V网),且近三个月累计通信和信息化收入大于0,状态在网的A、B、C、D集团客户数家本月值同比变化环比净增以某企业实现指标“有效集团客户数”为例,此指标的相关信息如下:说明:此指标涉及集团客户信息、集团客户订购产品信息、集团客户产品使用信息等,是一个综合性的指标,计算分析方法为“同比”和“环比”。基于数据库实现数据指标分析案例指标“有效集团客户数”的数据源涉及多个业务系统,其明细口径为“截至统计周期末,订购了集团通信和信息化产品(不含校园类产品、家庭类产品),且近三个月累计通信和信息化收入大于0,状态在网的集团客户数。”,数据来源分析如下:订购收入客户状态、客户数产品订购账户客户CRM系统BOSS系统CRM系统说明:CRM:承载客户管理、客户产品订购相关业务的系统;BOSS:承载有关客户计费、账务相关业务的系统。基于数据仓库实现数据指标分析案例指标“有效集团客户数”的数据源涉及多个业务系统,其明细口径为“截至统计周期末,订购了集团通信和信息化产品(不含校园类产品、家庭类产品),且近三个月累计通信和信息化收入大于0,状态在网的集团客户数。”,在数据仓库中实现:数据展现工具集团客户类主题仓库系统技术口径:selectcount(distinct客户ID)From客户表Leftouterjoin订购表on客户表.客户ID=订购表.客户IDLeftouterjoin账户表on客户表.客户ID=账户表.客户IDWhere账户表.近三个月累计通信和信息化收入>0And订购表.订购产品名称notin(校园类,家庭类)And客户表.客户状态=“在网”;更简单的情况是:客户表、订购表、账户表在数据仓库中有统一的集团客户统一视图课程目录1.数据分析指标与实现2.基于阿里云平台进行数据分析2.1MaxCompute基本操作2.2DataWorks基本操作大数据分析平台/数据仓库当今是互联网、云计算、大数据快速发展的时代,企业如何对海量、多源、多类型数据做有效的应用、分析,有效途径之一就是构建大数据分析平台,通过大数据平台来收集数据、存储数据、加工数据、分析数据、展现及应用数据。数据分析平台常见功能组成有:数据采集数据存储数据分析与处理数据展现全过程自动调度和智能运维基于阿里云搭建数据分析平台/数据仓库统一存储,减少不必要的冗余和跨库搬移数据提供SQL/MR/机器学习/图计算等多种计算能力,避免为计算而搬数据统一权限和计算资源调度,最大化的提升资源的利用率和弹性统一元数据最大化数据统一管理非结构化数据半结构化数据结构化数据统一数据存储统一计算资源调度SQLMRGraphPAI多种计算框架预测分析人工智能统计分析机器学习多样化应用场景大数据计算服务-MaxCompute大数据计算服务MaxCompute,由阿里云自主研发,提供针对TB/PB级数据、实时性要求不高的分布式处理能力,应用于数据分析、挖掘、商业智能等领域。阿里巴巴的数据业务都运行在MaxCompute。MaxComputeMaxCompute是一种快速、完全托管的EB级数据仓库解决方案。MaxCompute的主要功能及作用数据通道计算分析开发SDK安全服务MaxCompute致力于批量结构化数据的存储和计算,提供海量数据仓库的解决方案及分析建模服务。通常和DataWorks一起构建大数据分析平台。MaxCompute所有的操作都是基于表,因此MaxCompute的使用从安装配置环境后建表开始准备账号开通服务创建项目空间创建子账号并赋权安装配置访问工具(客户端等)创建表/数据操作MaxComputeMaxCompute的使用流程MaxCompute常见使用方式使用方式使用场景及优势API/SDK:以RESTfulAPI或JavaSDK、pythonSDK的方式提供离线数据处理服务。定制开发,满足个性化需求,与外部系统对接。CLT(CommandLineTool):运行在Window/Linux下的客户端工具,通过CLT可以提交命令完成Project管理、DDL、DML等操作。本地上传下载数据、项目空间管理;灵活、易用。DataWorks:提供了上层可视化ETL/BI工具,用户可以基于DataWorks完成数据同步、任务调度、报表生成等常见操作。团队分工协作数据开发全流程,高效、安全。IDE插件:eclipse插件、IDEA插件、RStudio插件,扩展IDE对MaxCompute的支持。使用第三方IDE对接MaxCompute,提升本地开发、调试效率。MaxCompute的客户端配置MaxCompute客户端是一个java程序,需要JRE环境才能运行,请下载并安装JRE1.6+版本(JRE1.7或以上版本,建议优先使用JRE1.7/1.8,其中JRE1.9已经支持,JRE1.10暂时还不支持)。

官网下载客户端压缩文件

解压文件,可以看到如下4个文件夹:bin/conf/lib/plugins/客户端工具CLT修改<ODPS_CLIENT>/conf/odps_conf.ini

project_name=[project_name]

access_id=****************

access_key=******************************end_point=/apitunnel_endpoint=log_view_host=https_check=<true|false>MaxCompute的客户端应用客户端工具CLT运行bin目录下的MaxCompute:Linux系统下运行./bin/odpscmdWindows下运行./bin/odpscmd.batodps@my_project>select*frommy_table; --执行SQL语句odps@my_project>descmy_table; --查看表结构odps@my_project>listtables; --查看表名列表odps@my_project>createtablemy_talbe(idbigint);--创建表应用客户端统计分析数据客户端工具CLT通过客户端上传数据文件:odps@my_project>createtablet_student(idbigint,scorebigint); --创建表odps@my_project>tunneluploadd:\t_student.csvt_student; ---上传数据文件

odps@my_project>Selectcount(1)as

“人数“fromt_studentwherescore>=95; --统计优秀学生人数Java+eclipse的应用JavaeclipseStep01官网导航中找到并下载MaxComputeforeclipse插件;Step02将插件解压并复制到eclipse安装目录下的plug-in子目录下;Step03启动eclipse;Step04检查Wizard选项,确认配置成功。基于Java+eclipse进行MR/Graph的开发123412341)安装配置环境2)开发MR/Graph程序;3)本地模式测试脚本4)导出Jar包55)上传至MaxCompute项目空间66)在MaxCompute中使用MR使用MaxComputeStudioIntelliJIDEAMaxComputeStudio,是面向MaxCompute计算引擎开发的数据处理开发工具,是一套基于流行的集成开发平台IntelliJIDEA的开发插件。安装步骤:安装JDK1.8安装IntelliJIDEA,需要IntelliJIDEA14.1.4以上在IntelliJIDEA中打开File|Settings|Plugins,点击Browserepositories...按钮搜索“MaxComputeStudio",安装MaxComputeStudio插件完成安装,重新启动IntelliJIDEA创建MaxCompute项目链接使用MaxComputeStudio基于MaxComputeStudio编写SQL脚本,进行数据操作。数据上传/下载综述DataHub实时数据通道OGG插件Flume插件LogStash插件Fluentd插件Tunnel批量数据通道DataWorks数据集成DTSSqoopKettle插件MaxCompute客户端MaxCompute系统上传/下载数据包括两种方式,通过数据通路,将分析数据导入到MaxCompute中,分析结果又可以通过数据通路导出:Tunnel命令MaxCompute客户端提供Tunnel命令实现数据的上传/下载。基本语法:

tunnel<subcommand>[options][args]可用命令:

upload(u):tunneluploadlog.txttest_project.test_table/p1="b1",p2="b2"; download(d):tunneldownloadtest_project.test_table/p1="b1",p2="b2"test_table.txt; resume(r):tunnelresume

20150610xxxxxxxxxxx70a002ec60c; show(s):tunnelshowhistory-n5; purge(p):tunnelpurge5; help(h):tunnelhelp;MaxComputeSQLMaxComputeSQL是个数据仓库工具,Query解析后,计算和存储交由底层的飞天实现。MaxComputeSQL支持常用的SQL语法,包括窗口函数MaxComputeSQL可以看做对标准SQL的支持,但是不能简单等同于数据库MaxComputeSQL不支持事务、主外键约束、索引等MaxComputeSQL长度有限制,目前是不能超过2MMaxComputeSQL适用于海量数据(TB/PB级别)的数据运算MaxComputeSQL的每个作业的准备,提交等阶段要花费较长时间,实时性不高MaxComputeSQL的运算符and,or,not&、|+,-,*,/,%>,<,>=,<=,=,<>,isnull,isnotnull,like,rlike,in,betweenand关系运算符算术运算符逻辑运算符位运算符MaxComputeSQL的DDL语句创建表/视图添加分区查看表/分区信息删除分区修改表修改生命周期DDL语句MaxComputeSQL的DML语句SELECT操作INSERT操作TRUNCATE操作函数DML语句MaxComputeSQL的函数内置函数自定义函数MaxCompute中的函数自定义函数UDAFUserDefinedAggregationFunctionUDFUserDefinedScalarFunctionUDTFUserDefinedTableValuedFunction用户自定义标量函数用户自定义表值函数用户自定义聚组函数UDF:用户自定义函数实现UDF需要继承com.aliyun.odps.udf.UDF类,并实现evaluate方法evaluate方法必须是非

static的public方法evaluate方法的参数和返回值类型将作为SQL中UDF的函数签名用户可以在UDF中实现多个evaluate方法

调用UDF时框架会依据UDF调用的参数类型匹配正确的evaluate方法加载UDF依赖包继承UDF类定义evaluate方法(函数签名)实现evaluate方法UDF实现逻辑UDTF实现逻辑

实现UDTF需要继承com.aliyun.odps.udf.UDTF类

需要实现4个接口@Resovle()定义函数的输入和输出参数类型调用UDTF时输入参数要和@Resolve定义的一致

closesetupprocessforwardoutputUDAF实现逻辑

实现UDAF需要继承com.aliyun.odps.udf.Aggregator类

需要实现setup,newBuffer,iterate,terminate,merge,close等接口用户实现自定义的Writablebuffersetup()初始化变量newBuffer()定义数据读写通道close()关闭、清理terminate()分片结果转化最终结果merge()中间结果合到分片结果中iterate()每条记录聚合到结果中UDF的开发流程配置开发安装配置环境,开发并使用本地模式测试UDF上传资源使用odpscmd的命令将本地Jar包上传MaxCompute创建函数MaxCompute中,基于上传的Jar包创建自定义函数打成Jar包将开发好的UDF导出成Jar包测试使用在MaxCompute上测试并使用自定义函数MaxCompute基本操作小结56基于MaxCompute进行数据分析:MaxCompute概述、功能、使用流程MaxCompute常见使用方式数据上传和下载MaxCompute

SQL课程目录1.数据分析指标与实现2.基于阿里云平台进行数据分析2.1MaxCompute基本操作

2.2DataWorks基本操作DataWorks(数据工场,原大数据开发套件)是阿里云数加重要的PaaS平台产品,它提供全面托管的工作流服务,一站式开发管理的界面,帮助企业专注于数据价值的挖掘和探索。DataWorks支持多种计算和存储引擎服务,包括离线计算MaxCompute、开源大数据引擎E-MapReduce、实时计算(基于Flink)、机器学习PAI、图计算服务GraphCompute和交互式分析服务等,并且支持用户自定义接入计算和存储服务。DataWorks大数据开发平台-DataWorksDataWorks的主要功能及作用全面托管的调度数据转化与同步可视化开发监控告警使用DataWorks,可以对数据进行传输、转换和集成等操作,从不同的数据存储引入数据,并进行转化和开发,最后将处理好的数据同步至其它数据系统。DataWorks提供全链路智能大数据及AI开发和治理服务。通常情况下DataWorks和其他产品结合在一起尤其是MaxCompute搭建数据分析系统。开通MaxCompute资源新建项目空间创建子账号分配项目管理员添加项目成员数据开发生产运维组织管理员(主账号)项目管理员(子账号)开发(子账号)部署+运维(子账号)1234DataWorks应用流程数据产生数据提取数据收集与存储数据分析与处理数据展现与分享大数据开发平台数据产生:业务系统产生的结构化的数据,通常存储的数据库中,如MySQL、Oracle、RDS等类型。数据收集与存储:利用MaxCompute的海量数据存储与处理能力来分析这些已有的数据,首先需要将不同业务系统的数据同步至MaxCompute中。DataWorks提供数据集成服务,可将多种数据源类型数据按照预设的调度周期同步到MaxCompute中。数据分析与处理:对MaxCompute上的数据进行加工(MaxComputeSQL、MaxComputeMR)、分析与挖掘(数据分析、数据挖掘)等处理,从而发现其价值。数据提取:分析与处理后的结果数据,需同步导出至其他(业务)系统,供业务人员使用其分析的价值。数据展现和分享:最后可通过报表、地理信息系统等多种展现方式来展示与分享大数据分析、处理后的成果。数据开发流程数据输入数据加工代码发布生产运维数据输出生产调度开发角色部署/运维运维角色涉及模块:数据开发模块发布管理模块运维中心模块数据管理模块注:在数据开发过程中,需由项目管理员在【项目管理>数据源配置】来新增数据源供开发使用。数据开发流程导入数据DataWorks支持以下两种操作:将保存在本地的文本文件中的数据上传到工作空间的表中。通过数据集成模块将业务数据从多个不同的数据源导入到工作空间。本地文本文件上传的限制如下:文件类型:仅支持.txt和.csv格式。文件大小:不超过10M。操作对象:导入分区表时,分区不允许为中文。节点开发选择或新建业务流程新建或选择已有的ODPSSQL节点编写符合语法的SQL代码当前界面测试运行、检查语法逻辑错误、输出结果配置节点调度信息、依赖关系(非手工流程)保存、提交节点任务发布到生产、测试(非单一项目)DataWorks中,ODPSSQL节点、Shell节点、PyODPS节点等各类节点的开发过程大同小异,根本区别在于个不同类型节点的数据处理实现。ODPSSQL节点开发过程示例如下:调度配置任务的时间属性目前支持月、周、天、小时和分钟5种配置方式,目前能支持的最短时间为5分钟。说明:对于周期运行的任务,依赖关系的优先级

大于

时间属性,即在时间属性决定的某个时间点到达时,任务实例运行的前提是上游依赖是否全部运行成功。上游依赖的实例没有全部运行成功

并且

定时运行时间已到,则实例仍为

未运行状态。上游依赖的实例全部运行成功

并且

定时运行时间还未到,则实例进入

等待时间

状态。上游依赖的实例全部运行成功

并且

定时运行时间已到,则实例进入

等待资源

状态准备运行。DataWorks中的参数设置参数类型设置方式适用类型参数编辑框示例系统参数date和bdp.system.cyctime在调度系统

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论