大数据数据分析项目实践_第1页
大数据数据分析项目实践_第2页
大数据数据分析项目实践_第3页
大数据数据分析项目实践_第4页
大数据数据分析项目实践_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据数据分析项目实践

一、实践目的

伴随着互联网的高速发展,数据的大量出现,我们正在逐步迈入“大数据”

时代,最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,麦肯锡称:

“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人

们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到

来J其实,“大数据”一直存在在我们生活中,只是因为以前受限于科学技术

的发展,大家都没有发觉到它,或者说是注意到它,随着现代社会科学的进步,

客观处在的“大数据”才被人们注意到,就像磁场、电波等等这些客观存在,但

是受限于科学技术水平,到近百年才被人类发现。“大数据”亦是如此。从硝烟

弥漫的战场,到包罗万象的网络世界,从日新月异的经济世界,再到普普通通的

百姓生活。“大数据”无处不在,只是在这几年才引起人们的注意。社会和科学

技术的飞速发展造就了“大数据”,从某种意义上来说,“大数据”是这个社会和

科学技术高速发展下的一个产物。

作为新时代的大学生,作为一名统计学专业的学生,就要走与时俱进的思维,

要紧跟时代的步伐,掌握新兴的知识,学习和大数据想关的技能,是我们的责任

和义务,在学习到一门知识的同时,掌握一门可以在这个竞争压力巨大的社会中

立足的技能,感谢我的母校,给了我一个如此之好的机会,通过本次的暑期实训,

让我们学习和掌握对于报表的的要求和制作,Python的安装及使用以及MySQL

的数据爬取。同时,也希望同学们通过此次暑期实训,能够认识和了解自己的不

足之处,并且在剩下的大学时光里让自己变得更加优秀,查漏补缺。让自己在毕

业之际,能够有能力选择自己所喜好的工作,完成一个还算华丽的大学谢幕。

二、实践内容

1

报表的制作(帆软的学习与运用)

数据的爬取(Pylhon的学习与运用)

数据库的构建(MySQL的学习与运用)

实践成果(运用帆软进行报表的制作,数据自行采集)

三、实践过程

1.报表的认识和制作

暑期实践学习的第一个部分,即为报表的制作。所用到的软件是帆软帆软是

达孜帆软软件有限公司旗下商业智能和数据分析品牌。帆软是达孜帆软软件有限

公司旗下商业智能和数据分析品牌。帆软报表又名FineReporl,web报表工具,

用户可以借助具轻松的构建出灵活的数据分析和报表系统,大大缩短项目周期,

减少实施成本,最终解决企业信息孤岛的问题,使数据真正产生其应用价值。首

先学习帆软从认识帆软的工具栏开始,认识帆软的工具栏,了解其各种不同的作

用。然后开始学习帆软报表制作的第一步。

帆软项目连接Oracle数据库。操作如下:

(1)打开模板设计器,单击[服务器],选择[定义数据连接]

(2)单击[+],选择[JDBC]

(3)数据库选择[Oracle],驱动器选[oracle,jdbc.driver.OracleDriver]0

(4)输入URL,例如:jdbc:oracle:thin:@x:y:z,其中,x为IP地址,y为端

口号,z为实例名。

(5)输入用户名、密码。点击测试连接按钮,测试0K,确定。

连接数据库成功后,开始构建模板数据集,编辑查询语句,制作报表。操作

如下:

(1)创建模板数据集:单击[+],选择[数据库查询]。

(2)编辑查询语句,可单击预览查询结果。单击保存后,左下方模板数据集中

出现dsl的数据库查询实例。

2

(3)单击文件,新建普通报表。拖动查询字段到报表中,选择从左往右,完成

字段的自动添加功能。

(4)在浏览器中预览。点击左上角预览键。

帆软图表的绘制

(1)创建模板数据集:单击[+],选择[数据库查询]。

(2)编辑查询语句,可单击预览查询结果。单击保存后,左下方模板数据集中

出现dsl的数据库查询实例。

(3)单击文件,新建决策报表。

(4)在图表一栏选择自己所需要的图表,并且将其拖拽到新建的决策报表中。

(5)在右侧的控件设置中,在数据一栏对所选择图表的数据来源、数据集、系

列名、值、汇总等项进行绑定和设置。在类型一栏,对自己选用图表类型进行设

置。

(6)同样在右侧的控件设置中,对自己所需要的样式,和特效进行设置。

(7)在浏览器中预览。点击左上角预览键。

通过对此次帆软报表的学习,对数据的处理,有了全新的认识。也然我对于

我自己的专业一一统计学,有了全新的认识。原来处理数据不光是我们所学习用

到的sas软件,r语言。还有其他很多优秀的软件但从制作报表来看,sas和r

确实不如帆软来的那么简单粗暴。原来统计的运用还是挺广泛的。

2.数据的爬取

数据的爬取是对python的学习以及运用,Python是一种跨平台的计算机程

序设计语言。是一种面向对象的动态类型语言,最初被设计用于编写自动化脚本

(shell),随着版本的不断更新和语言新功能的添加,越来越多被用于独立的、

大型项目的开发。Python的学习从最基础的语法开始,与之对应的是学习起来

也相对更简单一些。同时Python的动态语言特性也是区别于Java的静态语言的,

这一点我现在还没有什么感受,毕竟才刚学半个月,而但是Java给我的感觉就

3

是很严谨,甚至有些刻板。以下是python学完后的收获:

(1)python中双引号和单引号作用一样,print'helloWorld'和print"hello

World”是一样的(print语句中连接字符串用,)。

(2)python,使用变量,不需要定义类型,只要赋初值就行,和javascript中定

义变量有点类似,只是更简单了,连var都不需要。

(3)基本语法:

importsys〃导入模块

sys.getsizeof(a)〃占用空间

type(a)〃a的类型

2的3次方写法:2**3

a.len()或len(a)//数组的长度

a[2]//数组的读取

a[-l]〃读取倒数第一个数据

a.pop()〃弹出

a/3〃不支持除法

a.(0,,x')〃在第0位之前插入x

a.append(1)〃增加‘1’

a.count('x')〃计算a中有儿个元素'x'

a.removed.5)〃移除1.5

a.clear()//清除'

(4)python语法相对比较简单,对比类似于R语言。只需要保证正常的程序编

写规范,该对齐的对其,该缩进的缩进。

(5)python中的控制语句,if,while,for。条件都没有括号,条件都后必须

加:,while也可以有else语句。

(6)python,模块的概念,即把一个程序提出来公用,也是一个普通的python文

件,在其它要调用的程序中import模块名就0K了,然后使用模块名,方法就可

以用其方法,也可from模块名import方法名,然后直接调用方法即可。

(7)python中的元组、列表、字典的表示。起始值为0;其定义如下:

mylist=['apple'banana'orange']歹(I表

4

zoo=('aaa','bbb','ccc')元组

die=tzhang:san,11:si,wang:wuJ

在学习Python的过程中我了解到了Python的数据处理能力和爬虫,数据处

理不仅仅需要Python语言的支持,更多的是分析数据的能力,爬虫呢相对来说

就比较简单了,因为之前也接触过一点Web的知识,参加过一个月的甲骨文培训I,

所以对于爬虫的理解也不是太过难。老师的讲解也十分清楚,收获颇多。

3.数据库的构建(MySQL的学习与运用)

数据库的构建是kMySQL的学习,以下是有关学习内容:

三大范式:

(1)数据库字段单元保证最小,不能再分,例如地区:能够准确到上海即上海,

而不用中国C

(2)字段要与主键有相关性。

(3)字段与主键的相关性要是直接相关(非间接相关)

事务四大准则:

(1)原子性:即整个事务是不可切分的;不能只执行其中某一部分。

(2)-一致性:事务发生前后,数据库状态变化应该是一致的。

(3)隔离性:事务之间是孤立的,不会相互影响。

(3)持久性:事务一旦执行完毕,数据库的变化是持久的。

createdatabase数据库名创建数据库

dropdatabaseifexists数据库名如果数据库已经存在删除数据库

use数据库名选择数据库

createtableuserinfo(

idmcdiuiiiiiil(8)nutnulluuloiiiuruiiicul,

tokenvarchar(60)notnull,

wecha_idvarchar(60)notnull,

truenamevarchar(60)notnull,

sextinyint(1)notnul1,

regtimeint(11)notnull,

5

primarykey(id)

)创建表

describe查询表结构

showcreatetableuscrinfo查看表类型

createtablecopyonelikeuserinfo;复制表结构

createtablecopytwoselect*fromuserinfo;复制表结构及内容

droptablecopyone;删除表

altertablecopytworenameuserinfotwo;修改表名

altertableuserinfotwoaddageint(3;;增加字段

altertableuscrinfochangesexuser_sexchar(2)notnull:

修改表字段和类型

altertableusorinfomodifyuser■'nt(1)not.null:只修改

表类型,不改名

altertableuserinfodropuser_sex;删除表中的字段

deletefromuserinfotwo;删除表中所有记录

truncatefromuserinfotwo;删除表记录

truncate命令不管表中有多少条记录,它都是删除表,然后重建该表,而delete

命令是将表中所有记录一个一个删除。相比之下,truncate命令要比delete命

令快得多,特别是记录非常多时尤为明显。

createindexuindexonuserinfo(name);向已存在的表添加索引

本次实践所学习的三部分内容即为最为基本的数据分析所需要的途径:数据

的采集,数据的储存,数据的处理。这次实践让我收获颇丰。

4.实践成果(项目实训)一一2018年西安财经大学各省份录取情况

对西安财经大学2018年各省份的录取情况进行调查,收集数据,整理表格。

数据来源网站:西安财经大学本科招生信息网

数据来源网址:http:〃zhaosheng.xaufe.edu.cn

6

整理得到以下表格(部分表格截取不全)

ABCD

1专业录取人数

2统计学61

3财政学59

4会计字145

5金融学135

6经济学60

7信息管理与信息系统36

8电子商务84

9法学153

I0旅游管理44

11汉语言文学45

I2物流管理127

I3工程管理98

I4

I5

I6

17

口1乙▼J*I

A

BCDEF

M业录取人数

161

2一59

3一

金145

4一

济135

息60

Dt

561p-

t36

7一

8一

9一

101

11J

121

131

14J

151

16J

7

ABCDEFG

1专业录取人数最高分最低分平均分

2人力斐源管理73528511516.3

3城市管理73527511514.9

4会计学69567525531.5

5行政管理69522511514.5

6市场营消67525512519.2

7公共事业管理66518512515.4

8物流管理64523511515.3

9金融学63562521526.1

10财务管理57534517522.7

11汉语言文学'45538515518.6

12

13

14

15

16

17

18

4A

4I

ABCDEFGH

1类别录取人数最低分最高分平均分地区录取地点

2文史22543579570.4云南省陕西省

3理工25516547525云南省陕西省

4文史16540553545.4内蒙古自治区陕西省

5理工20510561537.5内蒙古自治区陕西省

6文史2546549547.5北京市陕西省

7理工3496500498北京市陕西省

8文史10515537528.7吉林省陕西省

9理工20472527508.4吉林省陕西省

10文史30556563559.5四川省陕西省

11理工41548563552.4四川省陕西省

12文史10519544526.2天津市陕西省

13理工30494537506.5天津市陕西省

14文史12532543536.3宁夏回族自治区陕西省

15理工23462517475.6宁夏回族自治区陕西省

16文史20563571565.9安徽省陕西省

17理工33502534515.7安徽省陕西省

18文2山东省陕西省

19理工33538567544.9山东省陕西省

20文史21544554546.4山西省陕西省

21理工29514530517.3山西省陕西省

22文史9536540538广东省陕西省

23理工11481514497.5广东省陕西省

24文史11335337336江苏省陕西省

25理工12333338334.6江苏省陕西省

26文史16571576572.9江西省陕西省

27理工29523538525.8江西省陕西省

28文史19568596582河北省陕西省

29理工33524546'533.1河北省陕西省

M◄>N丁识别结果

8

A10▼大数据技术

ABC~0~EFG

1专业录取人数最高分最低分平均分

2工程管理98’489'473’476.2

3软件工程94'481’473'475.2

4电子商务84'515'473'476.4

5经济统计学’79'486'473'476.2

6会计学’76534492'501.2

7金融学’72'526'477'4845

8物流管理63'486'473'475.6

9统计学61'506'474'479

10大数据技汴60'518'475479.1

11网络工程’50'485'473’474.6

12

13

14

15

16

17

18

19

20

21

帆软项目连接Oracle数据库。开始构建模板数据集,编辑查询语句,新建

决策报表,拖拽所需的统计图表,绑定数据,设置用关图表的类型,样式和特效。

女伴fllW事为32X动社@日志|,青11:51:20ATTTv«a2u・uDDJKB(ata4axJ)invalidckaxtDinIyT・JS0国*

!C团现®©,目■、-X,。x>按厢

8?值实利大展(|fr»“■X

・触ioa80日:

,E

■Jttia<5ta“de>t

-Z0BR

验各地叵呆即偈况

•各地区乘用情况《,淞

-

,,,财邑专立

破♦射一凝看立录❷

•:•文史奇11乘用情&

9

预览报表效果

以小组合作的方式,完成了最后的实践成果,实践项目一一2018年西安财

经大学各省份录取情况。大概实践的最后一课就是团队协作吧!最后这个实戏项

目的完成,也让我明白了团队的重要性。感谢我的团队,如果不是他们,实训项

目就不会完成的这么轻松,这么高效。

三、实践体会

我们现在很多人都缺少动手能力,社会是我们练习的场所,是我们超车的好

时段,成长是需要付出的,鲜花也需要经历风雨。我们更需要去社会中闯荡,去

社会中发展。通过这次暑期实践,学习到了许多之前没有接触过的知识,很开心,

特别是Python的学习,通过讲解与小项目的培训|,使我加深了对python的认识。

因为之前有学R语言的基础,所以这次实训入门时也相对容易许多。这是我第一

次接触到Python语言,但不是我学习的第一种语言。它的逻辑规则和和语法与

R语言和sas相比存在很大的相似之处,在对数据进行处理时有种似曾相识之感。

实习安排是逐渐加深的,所以跟随课程学习相对容易。老师的讲解也很清晰透彻。

也然我明白了学校是保护我们的地方,也是我们学习的场所,在学校我们可

以尽情的学习,不用担心外面的纷扰,但是我们已经长大,已经不是小孩子,我

10

们已经是大学生,我们也即将迈出校园,走进社会了,如果一直都不去了解外面

的世界,一心只读圣贤书,这样的我们缺少了该有的训练,该有的磨砺,一匹千

里马如果不能够驰骋

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论