数据预处理试验1_第1页
数据预处理试验1_第2页
数据预处理试验1_第3页
数据预处理试验1_第4页
数据预处理试验1_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、重庆交通大学信息科学与工程学院 实验报告班级:曙光1701班姓名学号:实验项目名称:数据导入与预处理实验一实验项目性质:验证性、设计性实验所属课程:数据导入与预处理实当室(中心):语音楼八楼指导教师:实验完成时间:2019 年11 月 1 日一.实验目的. 了解和掌握数据库的恢复,数据库数据的变换,数据的统计以及 可视化;掌握Json数据集的API下载方法,数据提取,以及导入其他 数据结构的方法。.了解和掌握不同数据格式之间的转换方法;掌握用计算机编程语言实现数据的格式转换以及数据信息的提取。二.实验要求.安装Mysql数据库,以及 mysql workbench客户端,.下载对公众开放的安然

2、(Enron)公司的电子邮件数据集。下载地址:.在mysql中恢复Enron数据库。.数据统计每一天和每一周发邮件的数量,并用可视化软件实现可视化。.采用iTunes API做个小实验,利用关键词来生成JSON据结果集。 iTunes是由Apple公司提供的一个音乐服务,任何人都可以利用 iTunes服务来查找歌曲、艺术家和专辑。在查找的时候需要把搜索关 键词添加到iTunes API URL的后面。URL中,=后面的是搜索关键词, 是一个乐队的名字,the Growlers 。注意:URL中用+代替空格字符,URL不允许包含空格字符iTunes API会根据提供的关键词从音乐库中返回 50个

3、结果。整个结果集形成一个JSON文件,每一条音乐信息中的元素,以名字-值 的 格式存放在jsoNc件中。The GrowlersApple iTunes的开发文档:.使用一种熟悉的语言,编写程序,将下载下来的 the Growlers 的 所有音乐的歌名提取出来,并可视化显示。三、需求分析.提取出安然公司数据集中的每天的阅读量和每周的阅读量,并画出趋势图.提取出iTunes中的trackname数据四、实验过程.安装好 Mysql 和 Mysql WorkbenchMySQL. MySQL Shell- x MySQL Workherich 8,0 CEkflySQL Installer -

4、CommunityMySQL Server 8.0Welcome to MySQL WorkbenchMySQL Workberfcch is the official graphical user imerface GUI tool for MySQL It allows you to design,create and browse your database schefnas, hwork with database objects and insert data well asdesign and riiiri SQL queries to work with stored data

5、You can also migrate schemas and data from otherdMaba蕤 rtndors to your MySQL daubasefirow Docuimtatioin Rtad The Bl的 Discuii 0而 由e FNuim$ *MySQL Connections S4Locdl instance MySQLBOJt rwtkKifll110mm 304.建立一个新的数据库:一0 % AwpEAiihiiiiiitkhMp Kd Pcibled. Uk the toolbar t viidiiuallf q& help for the川讷E 田。

6、L script the canAppl Si* Script 1o DucabMff口 caret posltkuni or h个 aiitnmiAitlf brlp.Thr 惟lEt中 Urts wt row Be cuted. Rebbc hvWUr m ewjWPrea 9w Uw m -bee tie cikuw dqk查看数据库:nysql show databases- .Database 1-enron happyplace information_schema mydatabase mysql performance_scheina sakila student sys wo

7、rld10 rows in set (0. 00 sec)4,下载好安然公司的数据集_ cnron-rriysqldiirnvS.sql.选用enron数据库,在Mysql中导入安然公司的数据集到数据1 itarniiig (0. 00OK.affectedj1PWM占F-0u&ryluervOKr 0affected(0. 00 sec).ier;.nOK.rowsaffected(0. 00 sec ieryGKhrowsrtffpctedI 1 wning 0.07secHierv口儿affected (D,。6 sec 0E.Records:biierv OK.0 rows affec

8、ted (Q. 06149 rovs affected (0.02 sec)149 Duplicates: 0 Tamings: 0 7 C7View;St0esFundicnaA vwngi x Locri mclancfl MySQt M九kTlx SwLpta&c HdLp而.鱼2里里反叵鼠”fflw脚wJiiery OK.0 rows affected. 1 learning 0. 05.在Mysql Workbench中查看已经创建好的数据库用 MyS-QL Wo rkberitli-9QLMI媾修的 彳 * | % I JUAutomata con rtw zkaracta- i

9、aTddisabled. Use tfiirkdiuidlly Qet Iojrrent caret 国toggle autom*mytlltlbtM个 L-| .AdiniflistfirtleinSc而魅sctM?ma: Finwi7.用SQLiS言查找每天的订阅量(1999年至U 2017年)Fron enron.message where year (datearid year( date) 71242aLMD-l 15B用LW-i IT5一i H餐立.Ai i ft+|再用Tableau Public 2019.2,绘制图形,如下图所示:工作发19.用sql语言查找每周的订阅量uar

10、y 1stutJn.hnfoLmit tc 1 DOO tja-sselect week(date)+,court(*)零量From enron.messagewhere year(date)1998 and year(dat)?013group by date(date)order by riJt(date)J10. 并导入excel画图11. 下载iTunes数据集,下载结果为文本文件12.f iTeng tel - IES本 X:忤的 Eg蚪曲(H?,re5vltCount;50H results:,wrapperType/Udck,1 kind-/song _artistld,2651

11、12052, collectionld:90576154trackld,:902676172f artistNamcThe G ro wlers, co I let io n N a me *: Chine w Fountain btrackName*:Black Memories, collectianCensoredNameChinese Fountain,*trackCensoredName/Blaclc Memories, artistViewUrl二http:Eusk叩/us/artist/the* g rcwlers/2&5112052 ?uo =4t c ollectionVie

12、wUrl: Http矍mu sic.apple.corn/us/al bu m/bla c k- inernories/90276l52?i=90276172&uo=4;,trackViewUrr;https7/miJsic.app Ie. com/us/alburn/black*memories/902676l52?i= 902676172&口口 二4:“ previewUrr:* htt p;/Za W i0-ssl.itunes,ap plexo m/i tunes-assets/ M usic3/v4/a c/9c/d$/ac9cdBS3-a b04- 3df3-940d-f3e70d

13、d4 (Lfk他 1 行.Ml 网 1(XW将后缀名改为.Json:resultCcMin t*;匕身、-reiulta-: * wrapperlypc i t rat k ,i:,口“、rirt lit Id - 2SS112052,,B11“1的工雄,90 居IE 九: 92676170 rti*prrvitMJrl;不少*;“仙”由温nJtu”吉*pp】.CE小融14方雷5司paHd日S8W1产孑八4,14f”内57+4月羽与西口cftlh 1X7: (*wr*p|p*rT)r|*7track, kihd* 7irt UtId112852f HralItCtihld11; W267615

14、i2j trickldl ; 267&182dibpreviEMJr 1; https: J /=口5与1. itimwdpp 二awfppijeiis亏丁七u5 /tdsjcj/u,92,19Fe1”4口丸lf5d!E20474叱wrdppeEypF :3在 ItindWcmg,art istld,r: 26S112652, collectionld :902676152, trackldr : W267&183, artis ,frpreve*9/1(/,6191后64-卡依| -1 产9 -*wrpprTypH: t rack- j, Ikind* r -iccig, 壮工或居5112屿

15、时collttctisnld11; W2S7S1S2J trarkldl : W267&172,pneviewUl:.处七四:ffaudlinMEsl -applb ueJapp七 asetE us d 9酩的口,5六二二q._ y %,工q-4二口二 hW -.g - AwwrapperType-itrack, kind-: swig*, artistld,B: 265112052, collectiomild :9B6SS533S, trackldf :906886343, artis previefcHrl: * https: audio-上占 Aim的、3 口 pJ-岂.t appJ电

16、一asset 克-uN-flzEi-iae&MiiyMudEa/M/配df be F93wdbcgm6&-dfb1一9F司匚 *wrapperTypeB: t rack, kind ;: *s.ong*., 12flSlUfHi2H collect lonld :9MSB6335JI 七户虹心叱! 9MMAMA. art ilprew ie4Jr 1: hEtpv: f/taudiLiJ1*斗:it- i t u 外屈争-心0112日 ftB&Oi产 - ju4,f ?/0t_口*/$8靖匚W2d-eB8FwrapperTypeft:Htrac. , 厂ng前$口押七lectirild:WG7

17、S152j -trkMr!?0267615 rtli用python将json格式文件中的 Trackname提取出来打开jupyter ,编写代码Ie _L_: import jsoniiffli=Json. Icad(op#ntr*H:;数据导人与官如霹,矣整一:1, json*, encoding utf-8T) size-iimi _ rezultCou-t J sizeT ;和In 121: for 1 in range(size):print1 imo: resutlts. ij tracinie 1)结果如下for i in rang&12): pri nt (imvre suit

18、 s- Ci ftxackXa*)Eerier Ipside D*wti Emnm二m PancHX-=-5i tt ir=; a it i ng. 丁: whin目BreakdTnCkoi F。白leu mi:d duy HesyrFlake15 二 had EyesA:.g? 1Do Ydu KejietnSerI Cot YduBrokenConc Other Q Am in-* Crying 党a脸i e r Soing To Be Fi ifriis I I Could Sitif SiriBubble ThsCnETellaricnEBelleSidiJe It TcitiLei SituationsGo Onffhat You Thought You

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论