基于SQL的数据分析应用-all.ppt_第1页
基于SQL的数据分析应用-all.ppt_第2页
基于SQL的数据分析应用-all.ppt_第3页
基于SQL的数据分析应用-all.ppt_第4页
基于SQL的数据分析应用-all.ppt_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于SQL的数据分析应用,主要内容,数据处理的基础ETL 数据质量探查 数据预处理 基于SQL的程序设计,数据处理的基础ETL,大数据的批量导入问题 SQL Server的导入导出工具 SSIS(Integration Services 项目) BCP工具、Bulk Insert命令,bulk insert dataTrainDB.dbo.thealldata2 from e:shifenzheng_test.csv with ( FIELDTERMINATOR =, FIRSTROW = 2 ),数据处理的基础ETL,导入过程容易引发的问题 原始数据和目标数据的格式 中文转码 字段内的特殊符号 导入导出过程的错误处理 导入导出的效率 数据导入后的处理 索引 触发器,2013年商务酒店泄露数据库 2.9G CSV文件,数据质量的探查,SQL Server的聚合函数 AVG MAX MIN SUM COUNT VAR VARP STDEV STDEVP,SELECT ColumnName OVER(PARTITION BY . ORDER BY) FROM TABLENAME WHERE . GROUP | ORDER,数据质量的探查,集中趋势描述 均值、中位数、众数 离散程度描述 方差和标准差,按照生产所需时间,分类计算安全库存量的均值,并按照productid排序,select productid,name,daystomanufacture, AVG(SafetyStockLevel) over(partition by DaysToManufacture) as avgStock, ROW_NUMBER() over(partition by DaysToManufacture order by productid) as newRowID from Production.Product,计算SafetyStockLevel(安全库存量)的众数,select SafetyStockLevel,COUNT(1) as cnt from Production.Product group by SafetyStockLevel order by cnt,数据预处理,文本型数据的问题及处理方法 编码类型 特殊字符 非规范的文本格式,查找 替换 字符串截取及拼接,ASCII()、CHAR()、UNICODE()、NCHAR()、REVERSE() CHARINDEX()和PATINDEX() LEN() LEFT()、RIGHT() SUBSTRING() LOWER()、UPPER() LTRIM()、RTRIM()和TRIM() REPLACE() REPLICATE()、SPACE(),数据预处理-字符串函数,ascii(字符串表达式) char(整数表达式) charindex(字符串表达式 1, 字符串表达式2,整数表达式) patindex(字符串表达式 1,字符串表达式 2),select ascii(abc),select char(100),select charindex(ab,BCabTabD),select charindex(ab,BCabTabD,4),select patindex(%ab%,123ab456),select patindex(ab%,123ab456),select patindex(_ab%,123ab456),select patindex(_ab_,123ab456),数据预处理-字符串函数,substring(字符串表达式,开始位置,长度) replace(字符串表达式 1,字符串表达式 2,字符串表达式 3),select substring(abcdef,2,2),select replace(abcttabchhabc,abc,123),数据预处理,数值型数据存在的问题及处理方法 数据的规范性 数据的类型 数据的范围 噪声数据,SQL聚合函数 抽样,RAND() NEWID(),随机抽样100条记录,数据预处理,时间日期型数据的处理 格式问题 初步的时间解码及计算,DATEADD() DATEDIFF() DATEPART() DATENAME() GETDATE() DAY()、MONTH()、YEAR(),根据生日查询年龄,数据预处理-时间日期函数,dateadd(日期部分,数字,日期) datediff(日期部分,开始日期,结束日期) datename(日期部分,日期),select dateadd(year,45,1990-12-11),select dateadd(mm,45,1990-12-11),select dateadd(qq,12,1990-12-11),select dateadd(hh,12,1990-12-11),select dateadd(yy,-12,1990-12-11),select datediff(yy,1990-12-11,2008-9-10),select datediff(mm,2007-12-11,2008-9-10),select datename(dw,2007-12-11),dw 表示一星期中星期几,wk 表示一年中的第几个星期 dy 表示一年中的第几天,数据预处理,数据类型的转换 Cast Convert,SELECT Default Date: + CONVERT(Varchar(50), GETDATE(), 100) SELECT US Date: + CONVERT(Varchar(50), GETDATE(), 101) SELECT ANSI Date: + CONVERT(Varchar(50), GETDATE(), 103) SELECT UK/French Date: +CONVERT (Varchar(50), GETDATE(), 103) SELECT German Date: + CONVERT(Varchar(50), GETDATE(), 104),convert 在进行日期转换时还提供了丰富的样式 cast 只能进行普通的日期转换,复杂数据处理,系统表 临时表 定义变量,select * from sys.tables select * from sys.columns,select * into #temp from ,declare temp nvarchar(5) set temp = 123 print temp,复杂数据处理,复杂数据处理要求 使用一条SQL查询无法完成任务 需要有变量等暂存中间数据 需要使用判断或循环来完成功能 存储过程,存储过程Procedure是一组为了完成特定功能的SQL语句集合,经编译后存储在数据库中,用户通过指定存储过程的名称并给出参数来执行。 存储过程中可以包含逻辑控制语句和数据操纵语句,它可以接受参数、输出参数、返回单个或多个结果集以及返回值。 由于存储过程在创建时即在数据库服务器上进行了编译并存储在数据库中,所以存储过程运行要比单个的SQL

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论