交通数据分析基础习题

上传人：h*** IP属地：山东上传时间：2025-04-24 格式：DOCX 页数：17 大小：59.42KB 积分：15 举报 版权申诉

已阅读5页，还剩12页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第一章1-8，略。9.将特征status转换为有序因子，等级依次为Poor、Improved、Excellent。#假设原始数据中的status列是字符型向量

status_ordered<-factor(

x=status,#原始数据向量

levels=c("Poor","Improved","Excellent"),#指定有序等级

ordered=TRUE#声明为有序因子

)10.创建一个名为fruits的字符向量，包含以下水果名称："apple"、"banana"、"cherry"、"date"、"elderberry"。将"fig"添加到这个向量的末尾。#创建初始向量

fruits<-c("apple","banana","cherry","date","elderberry")

#添加新元素到末尾

fruits<-c(fruits,"fig")11.创建一个名为matrixA的3×3矩阵，将其中所有元素均初始化为0，并将第1行第2列的元素设置为5。#创建全0的3x3矩阵

matrixA<-matrix(0,nrow=3,ncol=3)

#修改第1行第2列元素为5

matrixA[1,2]<-512.创建一个名为students的数据框，包含3列，分别为Name（字符型）、Age（整数型）、Score（数值型）；并添加3行数据，分别为("Alice",20,85)、("Bob",22,90)、("Charlie",19,88)。students<-data.frame(

Name=c("Alice","Bob","Charlie"),

Age=c(20L,22L,19L),#显式声明整数类型（L后缀）

Score=c(85,90,88),

stringsAsFactors=FALSE#关闭字符自动转因子（R4.0+默认关闭）

)13.使用students数据框（习题12中创建的），筛选出年龄大于20岁且分数高于87分的学生。filtered_students<-subset(

students,

Age>20&Score>87#逻辑条件：年龄>20且分数>87

)14.使用plot()函数绘制students数据框（习题12中创建的）中Age和Score的散点图，并给该散点图添加标题和坐标轴标题。plot(

x=students$Age,

y=students$Score,

main="StudentAgevs.Score",#标题

xlab="Age(years)",#x轴标签

ylab="Score(%)",#y轴标签

pch=19#设置点的形状（实心圆点）

)第二章1.将数据框ggplot2::diamonds中的特征color转换为字符型特征。library(ggplot2)

diamonds$color<-as.character(diamonds$color)2.对数据框ggplot2::diamonds中的所有数值型特征进行标准化。#方法1：使用基础R的scale函数

diamonds_scaled<-as.data.frame(scale(diamonds[,sapply(diamonds,is.numeric)]))

#方法2：使用dplyr（需加载包）

#library(dplyr)

#diamonds_scaled<-diamonds%>%

#mutate(across(where(is.numeric),scale))3.筛选出数据框ggplot2::diamonds中x大于4，并且特征cut为"Fair"的样本。filtered_diamonds<-subset(diamonds,x>4&cut=="Fair")4.为数据框ggplot2::diamonds增加一个日期型的列date_vec，其中，第1行的日期为"2023-01-01"，第2行的日期在第1行的基础上加1天，依次类推。diamonds$date_vec<-seq.Date(

from=as.Date("2023-01-01"),

by="day",

length.out=nrow(diamonds)

)5.查看数据框ggplot2::diamonds的基本信息。str(diamonds)6.将数据框ggplot2::diamonds的特征cut、color、clarity的名称改为大写形式。colnames(diamonds)[colnames(diamonds)%in%c("cut","color","clarity")]<-

c("CUT","COLOR","CLARITY")7.对于数据框ggplot2::diamonds，根据特征cut对数据集进行划分，并分组统计各组信息。library(dplyr)

group_summary<-diamonds%>%

group_by(CUT)%>%

summarise(

count=n(),

avg_price=mean(price,na.rm=TRUE),

min_carat=min(carat),

max_carat=max(carat)

)8.根据特征price和carat对数据框ggplot2::diamonds进行排序。sorted_diamonds<-diamonds%>%

arrange(price,carat)#先按price升序，再按carat升序第三章1.利用R语言计算数据框ggplot::diamonds中特征carat的均值、中位数、众数、几何平均数、调和平均数、方差、标准差、变异系数、四分位数、偏度和峰度。library(ggplot2)

library(psych)#用于几何平均和调和平均

library(e1071)#用于偏态和峰态

#计算统计量

stats<-list(

mean=mean(diamonds$carat),

median=median(diamonds$carat),

mode=names(which.max(table(diamonds$carat))),#众数（可能有多个）

geometric_mean=geometric.mean(diamonds$carat),

harmonic_mean=harmonic.mean(diamonds$carat),

variance=var(diamonds$carat),

std_dev=sd(diamonds$carat),

coeff_variation=sd(diamonds$carat)/mean(diamonds$carat),

quantiles=quantile(diamonds$carat,probs=c(0.25,0.75)),

skewness=skewness(diamonds$carat),

kurtosis=kurtosis(diamonds$carat)-3#峰态（减去3调整）

)

#打印结果

print(stats)2.计算数据框ggplot::diamonds中特征color的频数和频率。color_freq<-table(diamonds$color)

color_prop<-prop.table(color_freq)

#打印结果

print(color_freq)

print(round(color_prop,3))3.绘制图形查看数据框ggplot::diamonds中特征color的分布。library(ggplot2)

ggplot(diamonds,aes(x=color))+

geom_bar(fill="skyblue")+

labs(title="DistributionofDiamondColors",x="Color",y="Count")+

theme_minimal()4.绘制图形查看数据框ggplot::diamonds中特征price的分布。ggplot(diamonds,aes(x=price))+

geom_histogram(bins=50,fill="lightgreen",color="black")+

labs(title="DistributionofDiamondPrices",x="Price(USD)",y="Count")+

scale_x_log10()+#对数转换处理右偏分布

theme_minimal()5.绘制图形查看数据框iris中特征Sepal.Length与Sepal.Width的关系，图中要根据特征Species对点进行类别划分，并根据特征Petal.Length设置点的大小。ggplot(iris,aes(

x=Sepal.Length,

y=Sepal.Width,

color=Species,

size=Petal.Length

))+

geom_point(alpha=0.7)+

labs(

title="SepalDimensionsbySpecies",

x="SepalLength(cm)",

y="SepalWidth(cm)",

color="Species",

size="PetalLength(cm)"

scale_color_manual(values=c("setosa"="red","versicolor"="blue","virginica"="green"))+

theme_minimal()第四章1.有一信号交叉口，其信号周期为60s，经测得该交叉口的一个进口的平均交通流量为180辆/h，且车辆到达数n符合泊松分布n~Pλ解：一个周期（60s）内到达的车辆数：m设一个周期到达k辆车的概率为Pk，则由递推公式P当k≤2时，Pk递增；时，因此，当k=2时，P2.某交叉口有25%的骑自行车的人不遵守交通规则，假设到达该交叉口的骑行者服从二项分布X~Bn,p解：不遵守交通规则的人数概率为p=0.25n将上述数据代入公式：P则有：PPP那么，8人中有3人及以上不遵守交通规则的概率是：P3.在平均交通量为120辆/h的道路上，观测断面上的车辆达到符合泊松分布n~Pλ，其中λ=120/3600，问30解：一个观测周期（30s）内到达的车辆数：m泊松分布计算公式：P在30s内无车到达的概率为：P在30s内有1辆车到达的概率为：P在30s内有2辆车到达的概率为：P在30s内有3辆车到达的概率为：P在30s内有4辆及以上的车到达的概率为：P4.某信号交叉口设置了左转信号相位，经研究来车符合二项分布X~Bn,p，每一周期平均来车30辆，其中有30%（1）到达的5辆车中，有2辆左转的概率；（2）到达的5辆车中，少于2辆左转的概率；（3）到达的10辆车中，少于2辆左转的概率；（4）某一信号周期内无左转车的概率。解：（1）左转概率为p=0.3，将上述数据代入公式：P得：P（2）由（1）有：PPP（3）n=10Pk<2（4）n=30P5.对于单向平均流量为360veh/h的车流，其车头时距h服从负指数分布ℎ~Eλ，其中λ=3603600=0.1，求车头时距大于10s的概率。解：车头时距大于10s的概率也就是10s以内无车的概率。由λ=PP同样，车头时距小于或等于10s的概率为：P6.在一条有隔离带的双向四车道道路上，单向流量为360veh/h，车头时距h服从负指数分布ℎ~Eλ，其中λ=3603600=0.1。单方向路宽7.5m，设行人步行解：行人横过单向行车道所需要的时间：t=因此，只有当ℎ≥7.5s时，行人才能安全穿越，由于双车道道路可以充分超车，车头时距符合负指数分布，对于任意前后两辆车而言，车头时距大于7.5s的概率为:P对于Q=360veh/h的车流，1h车头时距次数为360，其中h≥7.5s的车头时距为可以安全横穿的次数:360×0.4724=170（次）第五章1、设某路口车辆到达数服从二项分布X~Bm,p，x1,x2解：EX=mp=2、在某一地区，一年发生的交通事故次数X，设X的密度函数为fx;θ=θ2xe−解：EX似然函数为：Lln令ddθlnL=3、某自动驾驶公交车速度X服从正态分布Nμ,σ2，从某天中随机抽取6辆自动驾驶公交车测其速度（单位为km/h）分别为14.615.114.914.815.215.1（1）已知σ2=0.06，（2）σ2未知，α解：x=14.95，s（1）σ2已知，u0.025=1.96，均值μ在置信度为xu0.05=1.64，均值μ在置信度为x（2）σ2未知，t0.0255=2.571,均值μ在置信度为0.95t0.055=2.015,均值μ在置信度为0.904、某公司想探究职员乘坐汽车的晕车程度（数值为0-10，数值越大，晕车程度越重），现给出男、女职员晕车程度。设两组数据分别来自正态总体Nμ1,σ12和Nμ2,σ22，两样本相互独立，男性职员nx女性职员nx解：μ1−μ2x15、货运公司A、B从甲地到乙地运输货物的时间分别服从正态分布Nμ1,σ12和Nμ2,σ22，两总体方差相同，两样本相互独立，μ1，μ2货运公司A：2.662.632.682.602.67货运公司B：2.582.572.632.592.60试求两货运公司的运输时间均值差μ1解：x1=2.65，x2=2.59sμ1−μx6、随机调查某路段100辆车的速度，测得其平均速度为45km/h，根据以往数据可知，该路段的车速标准差为42.5。试求该路段车辆平均速度的置信区间，α=0.1。解：均值μ的置信度为0.90的区间估计为：x7、为了解交通安全宣传视频的传播效果，随机调查了500人，其中有100人收看了该宣传视频，试在0.9的置信水平下估计该宣传视频收视率的置信区间。解：p=20%置信度90%总体比率P的置信区间为p8、为了调查两条线路每辆公交车的日营业额（元），随机抽取了两条线路的公交车样本。这两个样本相互独立，设x1,x2分别为第一个和第二个总体的样本均值，S12,S22分别是两个总体的样本方差。两个总体均值分别为μ1和μ2，方差分别为σ12和σ22且未知，两个样本的数据量、均值、方差如下：n1解：μ1−μx9、某道路汽车的速度服从正态分布，方差σ2=1.21，现随机抽取6辆汽车，测得的汽车速度（单位为km/h32.4631.5430.1029.7631.6731.32请问当显著性水平α=0.01时，能否认为该道路汽车的平均速度为32.50km/h解：H0:μ=32.50H检验统计量：z=x决策：拒绝H0结论：这条道路汽车的平均速度不是32.50km/h10、某自行车租赁公司声称其新推出的骑行套餐可以让骑行者在两个月内减重8.5kg以上。为了验证这一声称是否属实，有关研究人员抽检了10名参与者，得知他们的减重（单位为kg）情况如下：9.511.58.57.51189.57.51114.5请问在α=0.05的显著性水平下，解：H0:μ≥8.5H1检验统计量：z决策：不拒绝H结论：该公司的声称可信。11、某地铁公司想要了解乘客性别会不会显著影响地铁满意度。于是，他们从女性乘客中抽取了50名，测得平均满意度为8.2，从男性乘客中抽取了60名，测得平均满意度为7.8，统计资料表明男性乘客和女性乘客的满意度都服从正态分布，其标准差分别为0.73和1.16，请问在显著性水平为0.05的条件下，女性乘客的地铁满意度是否比男性乘客的地铁满意度高？解：n1=50n2=60H检验统计量：U决策：拒绝H结论：显著性水平为0.05的条件下，女性乘客的地铁满意度比男性乘客的地铁满意度高。12、地铁公司声称其某条地铁线路主要服务于通勤族，其乘客中有70%为通勤族。为了验证这一声称是否属实，某研究机构随机抽取了300人，发现有200名通勤族经常通过该地铁线路出行。取显著性水平α=0.05，检验该地铁线路乘客群中通勤族的比率是否为70%。解：H检验统计量：z决策:不拒绝H结论:该地铁公司的说法属实。13、随机选取某条道路10个小时的交通流量（单位为pcu/h）：97.8532.55296.37561.652256.7599.54179.23782.16110.67540.53请绘制正态概率图。解：这10个点不在正态概率图上，因此可以认为该道路交通量的分布不是正态分布，对数据进行对数变换，结果如下：IXiLnxiXk132.553.4830.061297.854.5830.159399.544.6010.2564110.674.7070.3545179.235.1890.4516296.375.6920.5497540.536.2930.6468561.656.3310.7439782.166.6620.841将lnxi.xk在正态概率图描点，点在一条直线附近，则认为该批数据来自于正态总体。14、以下是40到83之间的24个随机数，按从大到小排列：83,79,77,75,73,72,71,70,69,67,64,63,61,60,60,59,57,56,55,53,53,50,48,47。对此数据进行正态性检验。解：xKXkXnDkAk14783360.449324879310.309835077270.255445375220.214555373200.180765572170.151275671150.124585770130.099795969100.076410606770.053911606440.032112616320.0107W若取α=0.05，在n=24时给出W0.0515、某收费站观察平时经过的车辆司机的性别（用M代表男性，用F代表女性）依次如下：MMMMMMMMMFFFFFFFFFFM，请问男、女性司机出现的顺序是否随机？解：设男性为1，女性为0，得到样本序列：11111111100000000001，其中0的个数为10,1的个数为10，R=3，取α=0.05，16、抽取A、B两个品牌的自动驾驶出租车在同一线路的平均速度如下（单位为km/h）。A品牌：34.333.537.238.432.429.835.0。B品牌：33.734.639.236.4。请问品牌B的自动驾驶出租车速度是否不小于A品牌的自动驾驶出租车的速度（α=解：要检验的假设为：H0:首先混合两组样本，由小到大排序RX129.8232.4333.5433.7534.3634.6735.0836.4937.21038.41139.2得知m=7,n=第六章1、能见度会影响司机开车的速度，在同一条道路上测定能见度好、较好、一般、较差、差时车辆的速度，每种情况都随机抽取了4辆车的速度（单位：km/h），测定的结果列于表6-11中。试比较不同能见度下的车辆速度是否有显著差异。表6-11不同能见度下的车辆速度能见度好较好一般较差差132.029.225.223.322.3232.827.426.125.122.5331.226.325.825.122.9430.426.726.725.523.7解：其中，影响因素为不同的能见度，共有5个不同水平，分别为好、较好、一般、较差和差。则r=5,n方差来源平方和自由度均方MS因素ASSArMSA误差SSEnMSE总和SSTn得到F比值为$F=\frac{{MSA}}{{MSE}}=\frac{{43.43}}{{0.866}}{\rm{=}}50.15$$F{\r

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

交通数据分析基础习题

文档简介

温馨提示

最新文档

评论

交通数据分析基础 习题

文档简介

温馨提示

最新文档

评论

相关文档

交通数据分析基础习题