基于纽约的共享单车使用数据的可视化和建模[精选]_第1页
基于纽约的共享单车使用数据的可视化和建模[精选]_第2页
基于纽约的共享单车使用数据的可视化和建模[精选]_第3页
基于纽约的共享单车使用数据的可视化和建模[精选]_第4页
基于纽约的共享单车使用数据的可视化和建模[精选]_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、摘 要中间空两格,四号,黑体,居中随私家车数量的快速发展,交通资源日益紧缺,一线城市已因为交通堵塞大大的增加了出行的时间成本。大力发展公共交通是缓解交通压力的有效手段。以东京为例,所有的住宅中距离最近的车站不足500米的占比达到61.9%,超过一千米的只有0.53%1。而很多中国民众因为家与车站的距离稍远而放弃选择公共交通。共享单车的出现改善了这一问题,鼓励了更多的人选择公共交通。本文将基于纽约的城市自行车数据对其进行数据可视化,并爬取相关的天气信息,建立线性模型预测每日公共自行车的的使用量,从而利于公共自行车管理者优车站设置以及车辆调配。关键字小四,黑体,顶格写: 公共交通;共享单车;小四,

2、宋体,分号隔开数据可视化;线性回归abstract四号,times new roman,加粗,居中with the rapid development of the number of private cars, the transportation resources are becoming increasingly scarce. the first-tier cities have greatly increased travel time costs due to traffic congestion. vigorously developing public transport i

3、s an effective means to ease traffic pressure. take tokyo as an example. the percentage of all homes that are less than 500 meters from the nearest station is 61.9%, and only 0.53% is over one kilometer. many chinese people have given up on public transportation because of the distance between their

4、 home and the station. the emergence of shared bicycles has improved this problem and encouraged more people to choose public transport. this article will be based on new york citys urban bicycle data to visualize the data, and crawl related weather information, establish a linear model to forecast

5、the daily use of public bikes, which will benefit the public bicycle operators to set the optimal station and vehicle deployment. key 小四,times new roman,加粗,顶格写word: transportation resources; shared bike; data visualization; linear regression目 录中间空两格,三号字,黑体,居中1. 背景介绍“最后一公里”是阻碍公共交通普及与发展的痛点,人们在“最后一公里”中

6、出行成本较高同时也存在一定的社会不安全因素,例如刺激了不安全的摩的或者三轮车等非正规运营手段的发展,并且这部分运营车辆时长出现闯红灯、乱停放等妨害交通秩序的行为,大大影响了交通管理和乘客的人生安全。另外,部分市民因为车站与家的距离稍远,也在一定程度上打击了这部分市民选择乘坐公共交通的积极性,共享单车的出现以及市场化,为解决“最后一公里”难题提供了全新的解决方案,降低了市民在最后一公里的出行成本,打击了黑车市场,填补了住宅到车站的公共交通空隙,有利于推行绿色环保的出行理念2。2014年起,共享单车逐步投放到中国的各个大学,由于共享单车十分适合大学生以及部分高校教职工的需要,共享单车在高校市场慢慢

7、站稳脚跟,并在这次成功的尝试后把市场拓展到城市中,逐渐成为具有竞争优势的新兴出行交通工具。新事物的诞生必然伴随着许多问题,第一是没车,在很多人流量特别少的并且地理位置相对比较偏僻的地方,车辆流动速度比较缓慢,当一辆车被骑走时,很难预测下一辆车什么时候会骑回来,这个问题到最后会演变为无车可骑的窘境;第二对于人流量大的地方,无论共享单车的数量多么充足,这批共享单车只能满足第一批“抢到”共享单车的用户,后来者也很有可能面临无车可骑的问题,在上下班高峰期,类似情况并不少见3。总结以上提出的问题,是共享单车管理效率的问题,如何提高共享单车的利用率,在什么地方投放共享单车,如何设置投放的频率,是提升共享单

8、车服务水平的一大关键。本文将围绕纽约城市共享单车的使用数据进行数据可视化,体现每个位置共享单车的使用情况,并根据天气、工作日与非工作日、假期等建立适当的模型来预测共享单车的使用量。2.数据获取、处理与可视化获取城市自行车使用数据 citi bike是一家位于纽约的私有盈利的公共自行车公司,自2013年5月开始运营,目前也是美国最大的公共自行车,因此我们选用该公司的数据进行研究。 从纽约citi bike官方网站()直下载自行车使用数据。citi bike官网记录数据自2013年6月至今,选用其中一年,即从2017年4月1日至2018年3月31日的数据作为研究对象。数据总量约为1200万骑行数据

9、。table 1 使用数据样例 名词注释单位trip duration骑行时长秒start time开始时间日期,时间stop time停止时间日期,时间start station id起始站标记数字start station name起始站点名字start station latitude起始站点纬度start station longitude起始站点经度end station id终点站标记数字end station name 终点站名字end station latitude 终点纬度end station longitude终点站点经度bikeid自行车唯一识别码usertype用户

10、类型birthyear出生年份gender性别0=未知;1=男性; 2=女性table 2 相关变量注释为了更好的分析citi bike的使用情况,我们还需考虑天气因素。利用r里的rcurl包对专业天气网站()爬取天气数据。其中对两种不同类型的天气数据进行读取,第一种是读取2017年4月1日至2018年3月31日每日的天气数据,总共365个观测值,包含当日的降雨量,最高气温,最低气温,平均气温,最大能见度,最小能见度,平均能见度以及风力等天气变量;其二是读取每日每小时的天气数据,数据量总共是36524,观测变量与前者类似。datetemp_htemp_atemp_lhumid_hhumid_a

11、humid_lvisi_hvisi_avisi_lwind_hwind_awind_l4/1/201750423793775910942813384/2/201764524171472410101093-4/3/201761534671513110108154514/4/2017484846100917110712111294/5/201762534410085521050154484/6/2017524742100908010712914364/7/2017504642876550101092113434/8/201760503962402310107105434/9/20176653425

12、7402310109104-4/10/201775635159443310108126184/11/20177867576854361010885-4/12/20177565558262241095144174/13/201766574863412610109124174/14/201764575054412810109125174/15/20176355488863471010710417table 3 每日天气datetimetemp.humiditypressurevisibilityprecipeventsconditions4/1/201712:15 am39.2f93%30.41i

13、n5.0mi20.7mph9.99inovercast4/1/20171:15 am39.2f93%30.41in6.0mi21.9mphn/aovercast4/1/20172:15 am39.2f93%30.41in6.0mi21.9mphn/aovercast4/1/20173:15 am39.2f93%30.41in4.0mi25.3mphn/aovercast4/1/20174:15 am39.2f93%30.41in4.0mi11.5mphn/aovercast4/1/20175:15 am39.2f93%30.41in5.0mi9.2mphn/aovercast4/1/20176

14、:15 am37.4f93%30.41in6.0mi3.5mphn/aovercast4/1/20177:15 am37.4f93%30.41in10.0mi5.8mphn/aovercast4/1/20178:15 am39.2f87%30.41in10.0mi6.9mphn/aovercast4/1/20179:15 am39.2f87%30.41in10.0mi4.6mphn/aovercast4/1/201710:15 am42.8f76%30.41in10.0mi3.5mphn/aovercast4/1/201711:15 am44.6f71%30.41in10.0mi6.9mphn

15、/aovercast4/1/201712:15 pm44.6f71%30.41in10.0mi5.8mphn/aovercast4/1/20171:15 pm44.6f71%30.41in10.0mi9.2mphn/aovercast4/1/20172:15 pm44.6f71%30.42in10.0mi4.6mphn/aovercasttable 4 每小时天气处理数据为了研究在一个时间段内每个公共自行车站的使用情况,并对其进行可视化,需要对已经获得的数据进行处理。 数据清理,citi bike 数据中日期与时间连接在一起,需要将其分开,另外,在天气数据中,每一个数据包含单位,需要将其去除,

16、让其成为计算机可操作的数据; 利用r中dplyr包里的group_by函数,对citi bike数据集按照起始站(start station)进行分组,获得新的数据集,起始站数据集 利用r中dplyr包里的group_by函数,对citi bike数据集按照终点站(end station)进行分组,获得新的数据集,终点站数据集可视化将不同数据集输入到专业数据可视化网站plotly对新获得的数据集进行可视化figure1 显示一年内有多少自行车从车站出发,尺寸大小代表出发数量figure2 显示一年内有多少自行车到来车站,尺寸大小代表出发数量figure3 显示了出发车辆占车站总车辆数的比例fi

17、gure 1从车站出发figure 2 到达车站figure 3 出发车辆数比例进一步,研究早晨和傍晚的高峰时刻对自行车用量的影响figure 4 显示了晚高峰的用车比例,颜色深浅和尺寸大小都代表了用车比例figure 5 显示了早高峰的用车比例,颜色深浅和尺寸大小都代表了用车比例figure 6 显示了晚高峰的出发比例figure 7 显示了五月份每一天每一个时刻车站含有车的数量figure 4figure 5figure 6利用rstudio里的shiny, 展示五月份每一天每一个时刻车站含有车的数量figure 7figure 7 车站内自行车数量3、预测模型 从citi bike 数据

18、集中计算得到每日骑行次数,并与每日天气数据进行合并,给天气状况变量重新赋值,0=好天气,1=坏天气;给假期变量重新赋值,0=非假期,1=有假期;最后对星期、假期、天气变量因子化,得到用量-每日天气数据集。 从citi bike 数据集中计算得到每小时骑行次数,并与每小时天气数据进行合并, 处理方法与上一步骤类似,最后得到用量-每小时天气数据集 对每日自行车使用量进行预测这部分利用用量-每日天气数据集进行建模。共享单车使用数量受到天气因素影响较大,另外使用量也受到工作日以及非工作日,节假日和季节的制约,因此该部分主要探究共享单车的使用量与上述变量之间的关系。模型假设与约定 数据真实可靠 不同模型

19、均使用相同的训练集和测试集,其中随机选取70%作为训练集,30%作为测试集 把rmse作为不同模型的对比标准,rmse越小越好。rmse=mse, mse为均方误差 符号说明名词解释名词解释num自行车使用量wind_h当日最大风力temp_h当日最高气温wind_a当日平均风力temp_a当日平均气温wind_l当日最小风力temp_l当日最低气温precip当日降雨量humidity_h当日最高湿度weather当日天气状况humidity_a当日最平均湿度holiday是否加假日humidity_h当日最低湿度season季节visibility_h当日最高能见度dayofweek星期几

20、visibility_a当日平均能见度visibility_l当日最低能见度其中num为自行车使用量,也是被预测变量。 线性模型对num进行全变量建模, estimate std. error t value pr(|t|) (intercept) -7683.64 9578.93 -0.802 0.423297 temp_h 1748.38 509.29 3.433 0.000707 *temp_a -2039.97 1001.05 -2.038 0.042707 * temp_l 1051.54 502.00 2.095 0.037289 * humidity_h 231.42 100.4

21、1 2.305 0.022066 * humidity_a -302.58 169.87 -1.781 0.076179 . humidity_l 149.49 97.65 1.531 0.127159 visibility_h na na na na visibility_a 557.78 753.41 0.740 0.459845 visibility_l 700.19 287.00 2.440 0.015455 * wind_h -238.76 168.97 -1.413 0.158999 wind_a -179.87 259.56 -0.693 0.489009 wind_l 134.

22、79 49.66 2.714 0.007147 * precip -100.94 17.09 -5.906 1.24e-08 *weather1 -2830.85 1321.67 -2.142 0.033250 * holiday1 -13879.14 2949.21 -4.706 4.35e-06 *seasonspring -4298.64 1507.01 -2.852 0.004732 * seasonsummer -8061.90 1468.23 -5.491 1.05e-07 *seasonwinter -6244.81 1849.94 -3.376 0.000864 *dayofw

23、eek2 3747.33 1768.89 2.118 0.035204 * dayofweek3 3965.62 1870.13 2.121 0.035030 * dayofweek4 4134.33 1774.63 2.330 0.020686 * dayofweek5 1397.26 1810.23 0.772 0.440979 dayofweek6 -5668.10 1832.25 -3.094 0.002222 * 根据建模结果,我们发现visibility_h变量存在奇异值,检查数据visibility_h这列数据均为相同的大小,因此该变变量没有考虑价值,故而删除该变量,随后模型亦舍

24、弃该变量,不再赘述。 模型改进根据上述全模型结果,删除变量visibility_h后,adjusted r-square = 0.8336, estimate std. error t value pr(|t|) (intercept) -7683.64 9578.93 -0.802 0.423297 temp_h 1748.38 509.29 3.433 0.000707 *temp_a -2039.97 1001.05 -2.038 0.042707 * temp_l 1051.54 502.00 2.095 0.037289 * humidity_h 231.42 100.41 2.30

25、5 0.022066 * humidity_a -302.58 169.87 -1.781 0.076179 . humidity_l 149.49 97.65 1.531 0.127159 visibility_a 557.78 753.41 0.740 0.459845 visibility_l 700.19 287.00 2.440 0.015455 * wind_h -238.76 168.97 -1.413 0.158999 wind_a -179.87 259.56 -0.693 0.489009 wind_l 134.79 49.66 2.714 0.007147 * preci

26、p -100.94 17.09 -5.906 1.24e-08 *weather1 -2830.85 1321.67 -2.142 0.033250 * holiday1 -13879.14 2949.21 -4.706 4.35e-06 *seasonspring -4298.64 1507.01 -2.852 0.004732 * seasonsummer -8061.90 1468.23 -5.491 1.05e-07 *seasonwinter -6244.81 1849.94 -3.376 0.000864 *dayofweek2 3747.33 1768.89 2.118 0.03

27、5204 * dayofweek3 3965.62 1870.13 2.121 0.035030 * dayofweek4 4134.33 1774.63 2.330 0.020686 * dayofweek5 1397.26 1810.23 0.772 0.440979 dayofweek6 -5668.10 1832.25 -3.094 0.002222 * dayofweek7 -8318.17 1821.29 -4.567 8.04e-06 *当继续去除一些不显著的变量时候(p-value较大的变量),发现模型没有变得更好,相反rmse还有一定程度的变大,因此保留该改进后的模型。 随机

28、森林随机森林是一种基于分类树的算法,其运算量在没有很大提高的情况下能提高运算精度,在这里,依然使用去掉visibility_h后的数据对自行车使用量num进行预测。结果如下,根据结果,发现方差解释度达到81.56%, rmse = stepwise stepwise 方法包括向前、向后、双向三个方向,在这三个相似的模型中使用bic(贝叶斯信息准则),这是因为bic引入了模型参数个数的惩罚项,并且bic惩罚项比aic大,同时bic也考虑了样本数量,所以,当样本数量较大的时候,bic在防止模型精度过高从而导致模型复杂度过高上比aic更有效。bic=-2lnl+lnnk 其中l=极大似然函数的估计值

29、,n=样本量,k=参数个数+2向前法模型保留变量:全部保留,共16个变量向后法保留变量:temp_h+temp_a+temp_l+visibility_l+wind_h+wind_l+precip+holiday+season+dayofweek 共10个变量双向法保留变量:temp_h+temp_a+temp_l+visibility_l+wind_h+wind_l+precip+holiday+season+dayofweek 共10个变量向前向后双向adusted r-squarep-valuermse从模型上看,三种方法都有不错的adjusted r-square和p-value, r

30、mse也十分相近,但是从模型复杂度上来说,向后法和双向法更,因为这两个方法在相同的精度下,把变量个数减少到10个,模型更简便。 其他模型与比较首先,glm是最小二乘回归的拓展,适用于因变量是正整数或者分类数据的情况,在本例中,每日自行车使用量是正整数,且根据是否工作日,是否节假日,哪个季节均可分类,因此我考虑了该模型,并设定参数为正态分布(gaussian)。其次,由于自行车每日使用量在数值上比其他变量的绝对值要大很多,因此我也考虑了对自行车使用量num进行了log(num)变换,但是结果并不理想。最后考虑广义相加模型(gam), 自行车使用量num与其他变量之间并不一定存在很强的线性关系,这

31、从之前的模型中rmse以直很难降低可以看出,因此考虑gam模型,该模型可应用与因变量和自变量不呈线性关系的情况,且可对部分或全部的自变量采用平滑的方法建立模型,设定分布参数为正态分布(gaussian)。glmlog(num)gamadjusted r-square-p-value-rmse3.2.7 总结根据以上所有模型的结果,rmse都十分相近,在尝试不同思路的情况下,依然不能更进一步降低rmse的值,更有模型在原本以为会有更好结果的情况下给出了相似甚至更高的rmse。但是,上述模型stepwise中的向后法和双向法在相似的rmse情况下极大的简化了模型,由此可以认为这两种线性模型在应用于预测每日用车量的需求下是比较优秀的。但是我们也不能否认随机森林这一非线性模型的优良性能,其给出的模型具有高于80%的方差解释率,rmse也比较底,在预测中尚可接受。 对每小时自行车使用量进行预测本部分建模使用用量-每小时天气数据集。此部分分析过程与上一部分,即对每日自行车用量预测部分,相似。需要预测的自行车使用量num相同,不一样的是自变量有所区别。 符号说明名词解释名词解释num自行车使用量condition天气状况time时刻holiday节日temp气温season季节humidity湿

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论