版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第四章概率统计模型4.1报童的诀窍(随机分布)4.2机票超售策略(随机模拟)4.3牙膏的销售量(多元线性回归)4.4教学评估(逐步回归)4.5Logistic回归4.6统计聚类第四章概率统计模型4.1报童的诀窍(随机分布)确定性因素和随机性因素1.随机因素可以忽略2.随机因素影响可以简单地以平均值的作用出现3.随机因素影响必须考虑确定性模型随机性模型确定性是理想化的,随机性是现实中必然存在的确定性因素和随机性因素1.随机因素可以忽略2.随机因素影4.1报童的诀窍假设《新民晚报》平均每天零售500份,报亭每天应该预定多少份?4.1报童的诀窍假设《新民晚报》平均每天零售500份4.1报童的诀窍问题报童售报:a(零售价)
>b(购进价)
>c(退回价)售出一份赚a-b;退回一份赔b-c每天购进多少份可使收入最大?分析购进太多卖不完退回赔钱购进太少不够销售赚钱少应根据需求确定购进量每天需求量是随机的优化问题的目标函数应是长期的日平均收入每天收入是随机的存在一个合适的购进量等于每天收入的数学期望4.1报童的诀窍问题报童售报:a(零售价)>建模设每天购进n份(不随机),日平均收入为G(n)随机因素的主要来源——每天需求量为R,概率P(R=r)=f(r),r=0,1,2…准备求n使G(n)最大已知售出一份赚a-b;退回一份赔b-c,日收入为
n=E(R)???建模设每天购进n份(不随机),日平均收入为G(n)随变限积分求导公式变限积分求导公式求解为简化计算将r视为连续变量?求解为简化计算?结果解释nP1P2取n使
a-b~售出一份赚的钱b-c~退回一份赔的钱0rp通常,a-b>b-c,R接近正态分布,n>E(R)结果解释nP1P2取n使a-b~售出一份赚的钱0rp通常为什么用随机分布模型?需求R是随机的由于收入是需求的非线性函数,日平均收入ES(n)不是简单地由日平均需求E(R)决定R的随机分布对最优决策有影响若收入是需求的线性函数,日平均收入可用日平均需求来表示,就不必用随机模型。为什么用随机分布模型?需求R是随机的怎样运用随机分布模型?关键:搞清楚随机性的主要来源是什么?这个主要来源设为一个随机变量(如报童模型中每天的需求量R)这个随机变量的分布是容易得到的;其他随机变量(如收入)可以写成它的函数。来源变量也可以考虑多个,但是如果他们不独立,是很难处理的。怎样运用随机分布模型?关键:搞清楚随机性的主要来源是什么?算例若每份报纸的购进价为0.75元,售出价为1元,退回价为0.6元,需求量服从均值500份,均方差50份的正态分布,报童每天应购进多少份报纸才能使平均收入最高?
算例若每份报纸的购进价为0.75元,售出价为1元,退回价为问题的推广现实情况:每天的需求并不完全是随机的,如周末或重大事件期间销量会上升,天气不好时销量会下降。解决途径一:利用历史数据;解决途径二:利用时间序列分析方法;解决途径三:利用MonteCarlo数值模拟。问题的推广现实情况:每天的需求并不完全是随机的,如周末或重大MonteCarlo模拟若明天需求量依赖于气温T,R=500+-|T-20|,N(0,50^2),U(5,15),与独立Matlab程序(明天T=5)求得n0=371(近似).a=1;b=0.75;c=0.6;T=5;N=1000;e=normrnd(0,50,1,N);d=unifrnd(5,15,1,N);R=500+e-d*abs(T-20);S0=0;forn=100:800,S=mean(((a-b)*R-(b-c)*(n-R)).*(R<=n)+(a-b)*n*(R>n));ifS>S0,S0=S;n0=n;end;end;n0,S0MonteCarlo模拟若明天需求量依赖于气温T,习题1.1国际市场上每年对某种商品的需求量为一个随机变量(单位:千吨),根据预测,它服从[2,4]上的均匀分布,并已知每售出1千吨此种商品,可以挣得外汇3千万美元,但若售不出去,而屯售于仓库,每年需花费保养费每千吨为1千万美元,问应组织多少货源可使平均收益达到最大?习题1.1国际市场上每年对某种商品的需求量为一个随机变量(天猫补救“超卖”天猫方面承认“双11”当天因流量巨大,导致其系统商品库存数据与商家的前后台数据对接不准,确有少部分订单出现“超卖”。为此,天猫在致歉的同时给出3条补救意见――■商家根据自己的实际情况对消费者进行额外补偿,如店铺优惠券、现有商品5折销售等;■对于未发货的“超卖”订单,支持进行全额退款;■对于所有“超卖”订单,买家都可获得商品价格30%、最多500元的天猫积分。其中,最后一条是天猫首次就“超卖”明确表示赔付。2013阿里巴巴双11成交350亿,9小时超过美国“网络星期一”全天!天猫补救“超卖”天猫方面承认“双11”当天因流量巨大,导致其4.2机票超售(overbook)策略2013-10-21《北京晚报》:三天前,徐先生网上为朋友订购了大新华航空公司于昨天下午3点55分从北京飞往哈尔滨的机票。昨天下午,朋友两点多就来到了机场,却在换登机牌时被工作人员告知,登机牌已经换完,飞机上“满座”,已无空位置。“为什么我买了票却不让我上去?”由于着急赶时间,徐先生的朋友急切地与工作人员交涉,结果被告知,“很多航班都会这样售票,防止有人买票后临时有事退票或改签,导致飞机坐不满人,浪费资源。”
4.2机票超售(overbook)策略2013-10-9.6机票超售(overbook)策略问题分析:订票的乘客可能不来登机(no-show);只按容量订票可能会出现很多空位从而损失利润;超额订票可能导致乘客不能登机(deny-boarding,DB)而赔偿;找一个最佳订票数量9.6机票超售(overbook)策略问题分析:模型假设飞机容量n,机票价格g,固定飞行成本r;订票限额m>=n,乘客是否到来随机独立,每个乘客no-show的概率p;no-show数K~B(m,p)每位DB无须付机票费,且赔偿b.模型假设飞机容量n,机票价格g,固定飞行成本r;基本模型利润期望利润
(q=1-p).求m使E(S(m))最大订票数m,容量n,no-show人数K~B(m,p)到来(on-show)人数m-K基本模型利润订票数m,容量n,no-show人数K~模型求解方法一:数值模拟(实际计算适用)对m=n,n+1,n+2,….,计算E(S(m)),求得最优m注意到最优解与r无关Matlab程序n=300;p=0.05;q=1-p;g=1000;b=200;m=n+1;fork=0:(m-n-1)P(k+1)=nchoosek(m,k)*p^k*q^(m-k);endES=q*m*g-(g+b)*(m-n-(0:(m-n-1)))*P'模型求解方法一:数值模拟(实际计算适用)模型求解ES0=ES-1;whileES>ES0m=m+1;ES0=ES;fork=0:(m-n-1)P(k+1)=nchoosek(m,k)*p^k*q^(m-k);endES=q*m*g-(g+b)*(m-n-(0:(m-n-1)))*P';endm,ES0%计算结果m=321(但计算有溢出警告)模型求解ES0=ES-1;模型求解方法二:模型近似化简(理论上比较漂亮)当m很大,K~B(m,p)近似N(mp,mpq)q=1-p.模型求解方法二:模型近似化简(理论上比较漂亮)模型求解令dE(S)/dm=0得模型求解令dE(S)/dm=0得模型求解由于(-t)=(t),所以可以证明zR第3项n=300,p=0.05,b/g=0.2,计算得m=319思考:还可以对第3项做更精细的估计,从而得到更高精度结果。模型求解由于(-t)=(t),所以思考:还可以对第3模型求解方法三:MonteCarlo模拟(不求数学期望,从最原始的随机数开始模拟,忽略r)clear;n=300;p=0.05;g=1000;b=200;fori=0:50;m=n+i;K=binornd(m,p,1,10000);ES(i+1)=mean(g*(m-K).*(m-K<=n)+(n*g-b*(m-K-n)).*(m-K>n));end[maxES,id]=max(ES)m=n+id%计算结果m=321模型求解方法三:MonteCarlo模拟(不求数学期望,从考虑不同客源的模型第一类顾客(noshow概率大):后付费,高票价。第二类顾客:先付费,低票价。设打折,打折票t张,第二类顾客noshow概率=0.noshowK~B(m-t,p)数学分析及求解考虑不同客源的模型第一类顾客(noshow概率大):后付费参考文献李冰州,能力随机的海运集装箱收益管理超订模型,西南交通大学学报2006/41/4夏剑锋基于二项式分布的航空机票超售模,中国民航学院学报,2006/24/1衡红军,航班座位超售量的确定.计算机工程2005/31/7鞠彦兵,航空客运超售风险研究北京航空航天大学学报2002/28/5参考文献李冰州,能力随机的海运集装箱收益管理超订模型,习题2.1英国的青年旅社联盟(YouthHostelAssociation)采用网上订票,房客订票时须付10%不退还的房费,余额90%入住时才付(当然不住的房客就不用付这90%)。剑桥有一家YHA连锁,500个床位,每个床位每天均价为20英镑。每个订票的房客有30%的可能性不会来住。如果YHA只按照500个床位订出,常常会因床位空置而造成损失,所以YHA会采取超售策略。当到来的房客超出其容纳能力时,YHA就到附近宾馆安排房客入住,宾馆的价格是旅社的3倍。由于房客只要付旅社的房价就住上宾馆,他们当然不会有什么怨言。试研究这一问题以帮助YHA确定其超售额度。
习题2.1英国的青年旅社联盟(YouthHoste趣味思考题假设今天是你的生日,有个富豪为了帮你庆祝生日,决定送你一副他收藏的油画。你呢,对油画这种东西一无所知,但是呢,每一幅油画上面都有一个标签,写着这幅油画的价格。富豪一共有100幅油画,他从100幅油画中间每次随机抽取一幅画,(你可以看到油画上的标签标注的价格)你可以选择要或者是不要,但是如果你不要了之后就不能反悔,也就是不能再回头要这幅画了。问题来了,你要怎么样的策略才能提高你拿到最高价格的油画的概率?可以的话,根据你的方案计算出概率。趣味思考题假设今天是你的生日,有个富豪为了帮你庆祝生日,决定回归模型是测试分析方法建立的最常用的一类模型数学建模的基本方法机理分析测试分析通过对数据的统计分析,找出与数据拟合最好的模型通过实例讨论如何选择不同类型的模型对软件得到的结果进行分析,对模型进行改进由于客观事物内部规律的复杂及人们认识程度的限制,无法分析实际对象内在的因果关系,建立合乎机理规律的数学模型。回归模型是测试分析方法建立的最常用的一类模型数学建模的基本4.3牙膏的销售量
问题收集了30个销售周期本公司牙膏销售量、价格、广告费用,及同期其它厂家同类牙膏的平均售价。销售周期公司销售价格(元)其他厂家平均价格(元)广告费用(百万元)销售量(百万支)13.853.85.57.3823.7546.758.5133.74.37.259.5243.73.75.57.553.63.8579.3363.63.86.58.2873.63.756.758.7583.83.855.257.8793.83.655.257.1103.854684.3牙膏的销售量问题收集了30个销售周期本公司牙膏销113.94.16.57.89123.946.258.15133.74.179.1143.754.26.98.86153.754.16.88.9163.84.16.88.87173.74.27.19.26183.84.379193.74.16.88.75203.83.756.57.95213.83.756.257.65223.753.6567.27233.73.96.58243.553.6578.5253.64.16.88.75263.654.256.89.21273.73.656.58.27283.753.755.757.67293.83.855.87.93303.74.256.89.26113.94.16.57.89123.946.258.151问题建立牙膏销售量与价格、广告投入之间的模型预测在不同价格和广告费用下的牙膏销售量9.260.556.804.253.70307.930.055.803.853.80298.510.256.754.003.7527.38-0.055.503.803.851销售量(百万支)价格差(元)广告费用(百万元)其它厂家价格(元)本公司价格(元)销售周期问题建立牙膏销售量与价格、广告投入之间的模型预测在不同价格基本模型y~公司牙膏销售量x1~其它厂家与本公司价格差x2~公司广告费用x2yx1yx1,x2~解释变量(回归变量,自变量)y~被解释变量(因变量)0,1
,2,3~回归系数~随机误差(均值为零的正态分布随机变量)基本模型y~公司牙膏销售量x1~其它厂家与本公司价格差x2多元线性回归一个被解释变量y,多个解释变量x=(x1,x2,…xp).模型:
y=1x1+2x2+…+pxp+,即y=x+,~N(0,2)现有n组观测数据,求并检验模型的有效性。参数估计:设Y和X分别为相应n组观察值的n1向量和np矩阵,参数估计x2yX=~n3数据矩阵,第1列为全1向量注意:线性回归可以建非线性函数模型多元线性回归一个被解释变量y,多个解释变量x=(x1,x2,多元线性回归y=x+的方差分析误差平方和分解:SST=SSE+SSR总误差平方和SST:代表直接用y的均值来估计y时的误差(即i=0时)残差平方和SSE:代表用回归模型不能解释的那部分误差回归平方和SSR:代表用回归模型可以解释的那部分误差好的模型就是要使得SSE尽可能小,SSR尽可能大。R2统计量:R2=SSR/SST表明模型能解释的信息比例.R2越接近1,说明模型越显著。模型的显著性检验
H0:=0,H1:0(F检验)当F统计量很大(相应P值很小),拒绝H0参数i的显著性检验:若其置信区间不包含0点,则显著多元线性回归y=x+的方差分析误差平方和分解:假设检验P值判别法F值临界值F1-值P值临界值法:F>F1-,拒绝原假设H0P值法:P<,拒绝原假设H0P值法更灵活(统计软件用)假设检验P值判别法F值临界值F1-值P值临界值法:F>例子:P值判别法的解释已知高中男生身高服从N(,0.12),现随机取25名某校男生,计算得平均身高1.74cm,问是否认为显著大于1.7?(显著性水平=0.05)H0:=1.7(cm),H1:>1.7方法一(临界值法):当H0真,平均身高~N(1.7,0.022),临界值约1.733<1.74,拒绝H0.方法二(P值法):P(平均身高>1.74)=0.023小于,拒绝H0.如果变为0.01,用方法二P值>,则接受原假设。但用方法一法就必须重新计算临界值,比较麻烦。例子:P值判别法的解释已知高中男生身高服从N(,0.12)MATLAB统计工具箱
模型求解[b,bint,r,rint,stats]=regress(y,x,alpha)
输入
x=~n4数据矩阵,第1列为全1向量alpha(置信水平,0.05)
b~的估计值bint~的置信区间r~残差向量y-xb
rint~r的置信区间Stats~检验统计量
R2,F,P,2y~n维数据向量输出
由数据y,x1,x2估计参数参数估计值参数置信区间17.3244[5.728228.9206]1.3070[0.68291.9311]-3.6956[-7.49890.1077]0.3486[0.03790.6594]R2=0.9054F=82.9409P=0.00002=0.04900123MATLAB统计工具箱模型求解[b,bint,r,rin结果分析y的90.54%可由模型确定参数参数估计值置信区间17.3244[5.728228.9206]1.3070[0.68291.9311]-3.6956[-7.49890.1077]0.3486[0.03790.6594]R2=0.9054,F=82.9409,p=0.00002=0.04900123F远超过F检验的临界值p远小于=0.05
2的置信区间包含零点(右端点距零点很近)x2对因变量y的影响不太显著但由于x22项显著可将x2保留在模型中模型从整体上看成立F0.95(3,26)=2.97结果分析y的90.54%可由模型确定参数参数估计值置信区间销售量预测价格差x1=其它厂家价格x3-本公司价格x4估计x3调整x4控制价格差x1=0.2元,投入广告费x2=6.5百万元销售量预测区间为[7.8230,8.7636](置信度95%)上限用作库存管理的目标值下限用来把握公司的现金流若估计x3=3.9,设定x4=3.7,则可以95%的把握知道销售额在7.82303.729(百万元)以上控制x1通过x1,x2预测y(百万支)预测置信区间销售量预测价格差x1=其它厂家价格x3-本公司价格x4估计Matlab程序%将数据写在Excel文件jye326.xls中data=xlsread('jye326.xls','Sheet1','A1:C30')X1=data(:,2);X2=data(:,1);Y=data(:,3);X=[ones(30,1),X1,X2,X2.^2];[b,bint,r,rint,stats]=regress(Y,X)%以下作预测x0=[1;0.2;6.5;6.5^2];xb=x0'*bd=tinv(1-0.05/2,30-3-1)*sqrt(stats(4)*(1+x0'*inv(X'*X)*x0))[xb-d,xb+d]Matlab程序%将数据写在Excel文件jye326.xlSPSS软件SPSS软件SPSS软件复制数据进SPSS表,定义变量x2,x1,y增加一行:x2=6.5,x1=0.2转换计算变量:x3=x2*x2分析回归线性选因变量y,自变量x1,x2,x3“保存”按钮,“预测区间”选“单值”选“确定”执行。SPSS软件复制数据进SPSS表,定义变量x2,x1,y改进模型1去掉x2项
参数参数估计值置信区间6.0767[5.34766.8057]1.5250[0.91232.1376]0.0472[0.02770.0667]R2=0.8909,F=110.2,p=0.0000,2=0.0544012模型显著,参数显著,但R2有所下降,2变大改进模型1去掉x2项参数参数估计值置信区间6.0767[5改进模型2参数参数估计值置信区间29.1133[13.701344.5252]11.1342[1.977820.2906]-7.6080[-12.6932-2.5228]0.6712[0.25381.0887]-1.4777[-2.8518-0.1037]R2=0.9209,F=72.7771,p=0.0000,2=0.042630124考虑x1和x2的交互作用模型显著、参数显著,且R2上升,2下降改进模型2参数参数估计值置信区间29.1133[13.701模型销售量预测比较(百万支)区间[7.8230,8.7636]区间[7.8953,8.7592](百万支)控制价格差x1=0.2元,投入广告费x2=6.5百万元预测区间长度更短(精度更高)略有增加原始模型改进模型2模型销售量预测比较(百万支)区间[7.8230,8.763x2=6.5x1=0.2x1x1x2x2模型与x1,x2关系的比较没道理解释性好精度高x2=6.5x1=0.2x1x1x2x2模型与x1,更完整的模型:完全二次多项式MATLAB中有命令rstool(X,Y)直接求解注意格式与regress区别:X,Y次序相反,且这里X无须加第一列1%接前面Matlab程序X=[X1,X2],rstool(X,Y)更完整的模型:完全二次多项式MATLAB中有命令rstool更完整的模型:完全二次多项式x1x2从输出Export可得更完整的模型:完全二次多项式x1x2从输出Export可小结回归模型无机理分析,直接从数据建模;可根据实际问题选择合适的变量(与被解释变量相关性大,数据易取得)建模;可选择间接变量建模,以简化模型;可考虑2次项和交叉项,以改进拟合度;回归模型需经过检验\改进\优化;Matlab命令regress和rstool;可以用多元线性回归建非线性函数模型.小结回归模型无机理分析,直接从数据建模;习题3.1下列表格列出了某城市18位35岁~44岁经理的年平均收入(千元),风险偏好度和人寿保险额(千元)的数据,其中风险偏好度是根据发给每个经理的问卷调查表综合评估得到的,它的数值越大,就越偏爱高风险。研究人员想研究此年龄段中的经理所投保的人寿保险额与年均收入及风险偏好度之间的关系。研究者预计,经理的年均收入和人寿保险额之间存在着二次关系,并有把握地认为风险偏好度对人寿保险额有线性效应,但对风险偏好度对人寿保险额是否有二次效应以及两个自变量是否对人寿保险额有交互效应,心中没底。请你通过表中的数据来建立一个合适的回归模型,验证上面的看法,并给出进一步的分析。习题3.1下列表格列出了某城市18位35岁~44岁经理的年序号yx1x2119666.290726340.9645325272.9961048445.0106512657.204461426.852574938.122484935.8406926675.7969104937.40851110554.3762129846.1867137746.1304141430.3663155639.06051624579.38011713352.76681813355.9166序号yx1x2119666.290726340.9645324.4教学评估(逐步回归)学生评价老师指标Y:对教师的总体评价X1:内容合理性X2:讲课逻辑性X3:答疑有效性X4:交流有助性X5:教材帮助性X6:考试公正性12位教师,15门课程X1~X6不是每个对Y都有显著影响X1~X6有强相关性指标能否简化?简单有效的模型给老师提出建议4.4教学评估(逐步回归)学生评价老师指标X1~X6不逐步回归目标:用尽量少的解释变量达到尽量好的效果思路:确定初始解释变量集合从集合外解释变量引入一个对因变量影响显著性最大的检验集合中解释变量的显著性移出对因变量影响不显著的回到2),直至无法有新变量引入或移出Matlab实现:stepwise逐步回归目标:用尽量少的解释变量达到尽量好的效果Matlab实现:stepwise%数据复制到jye352.xlsdata=xlsread('jye352.xls','Sheet1','A1:G15');X=data(:,1:6);Y=data(:,7);corrcoef([X,Y])stepwise(X,Y)%一直执行nextstep%蓝色为inmodel变量,红色为非inmodel变量Matlab实现:stepwise%数据复制到jye352均方
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年崇左市殡葬管理服务系统事业单位人员招聘考试备考试题及答案详解
- 2026年大兴安岭市国家电网系统事业单位人员招聘考试备考试题及答案详解
- 2026年北京市普仁医院医护人员招聘笔试模拟试题及答案解析
- 攀枝花市卫生健康委员会攀枝花市妇幼保健院2026年春季引才考核笔试模拟试题及答案解析
- 2026 增肌期糍粑课件
- 2026年福建泉州东园镇中心卫生院招聘工作人员考试模拟试题及答案解析
- 2026 增肌期烤鱼课件
- 2026年本溪市社区工作者招聘考试备考试题及答案详解
- 医院感染防控预案
- 2026年安阳市劳动保障监查系统事业单位人员招聘考试备考试题及答案详解
- 第四章 《金瓶梅》
- 传感器技术与应用-说课
- GB/T 3452.4-2020液压气动用O形橡胶密封圈第4部分:抗挤压环(挡环)
- GB/T 13816-1992焊接接头脉动拉伸疲劳试验方法
- 2022年养老护理员理论考试题库(600题)
- 碳捕集、利用与封存技术课件
- 翰威特-绩效管理理论与操作实务
- 新生儿听力筛查(共29张)课件
- 《消防安全技术实务》课本完整版
- (精心整理)数学史知识点及答案
- 王家岭煤矿初设说明书201204
评论
0/150
提交评论