(交通运输规划与管理专业论文)铁路客流调查采样技术及其应用研究.pdf_第1页
(交通运输规划与管理专业论文)铁路客流调查采样技术及其应用研究.pdf_第2页
(交通运输规划与管理专业论文)铁路客流调查采样技术及其应用研究.pdf_第3页
(交通运输规划与管理专业论文)铁路客流调查采样技术及其应用研究.pdf_第4页
(交通运输规划与管理专业论文)铁路客流调查采样技术及其应用研究.pdf_第5页
已阅读5页,还剩67页未读 继续免费阅读

(交通运输规划与管理专业论文)铁路客流调查采样技术及其应用研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

l , 啻 本学位论 授权北京交通 提供阅览服务 同意学校向国 ( 保密的 学位论文 签字日期 中图分类号: u d c :6 5 6 2 r e s e a r 作者姓名: 导师姓名: 学位类别: 学科专业: 致谢 本论文的完成离不开我的导师刘军教授的悉心指导,刘老师高尚的师德和人 品、严谨的治学态度、渊博的专业知识以及对学科前沿把握的敏锐性和准确度, 都使我受益匪浅。在传授大量专业知识的同时,刘老师也教给了我进行学术研究 的方法和为人的道理,这些都将对我以后的工作和生活产生深远的影响,再次衷 心地向刘老师表达我的感激之情和崇高的敬意。 马敏书老师悉心指导我完成了实验室的科研工作,本论文从选题、定题,一 直到论文的反复修改、润色,马老师始终认真负责地给予我深刻而细致地指导, 精心点拨帮助我开拓研究思路,在此向马老师致以诚挚的谢意。 实验室的每一位老师李海鹰老师、李春燕老师、贺振欢老师、蒋熙老师、 苗建瑞老师、王莹老师,都在学习和科研中给予了我许多帮助,并在生活上给予 了我很大的关心和鼓励,在此表示衷心的感谢。 此外,感谢实验室里所有师兄、师姐、师弟、师妹在学习和生活中给我的关 心和帮助,使我在一个充满快乐的团队中度过了研究生两年。 感谢宿舍的舍友朱丽颖、王静,在生活点滴中给我的关心、鼓励和支持。 最后,要感谢我的父母和亲友,他们无私的关爱与鼓励使我在学校顺利完成 了我的学业。 中文摘要 随着我国铁路运能的提高,客运市场逐步转变为买方市场。高效、准确地获 取客运市场需求信息,是铁路运输企业提高社会效益和经济效益的前提,而客流 调查是获取完整、准确的客运市场需求信息不可或缺的手段。 本文针对铁路客流调查的采样技术进行研究,重点解决其中的采样频度、采 样数量以及对采样信息完备程度评价的量化方法,从而使客流调查的采样在“准”、 “全”、“好 三方面有所改进,为铁路运输企业的运营决策工作提供更好的参考 依据。 在采样频度方面,通过对客流量随时间变化规律的分析,引入分层抽样思想, 运用最小层内方差法将内部差异较大的总体划分为内部差异较小的次级总体,从 而确定采样时间和间隔。 在确定采样频度的前提下,提出一种基于小样本逐渐逼近的方法,建立样本 量与特征值离散程度的关系,从而为最小样本量的确定提供依据。 在采样信息完备程度的评价方面,受到信息熵思想的启发,提出基于信息熵 的采样信息完备程度的评价指标和方法,并以此评价问卷中的量表设计和出行意 愿调查方法,为客流调查问卷设计提供参考依据。 最后,将采样技术应用于成灌铁路客流调查中,通过对调查结果的单一因素 分析,得到客流结构的若干规律,并进一步采用动态k - m e a n s 聚类算法,将成灌 铁路客运市场细分为三个子市场,最后针对性地提出成灌铁路在票种票制方面的 营销建议。 关键词:铁路,客流调查,采样 分类号:u 2 9 3 1 + 3 i ti sw e l l k n o w nt h a tc h i n ah a sb e e nd e v e l o p i n gi t sr a i l w a yc o n s t r u c t i o n h e n c e ,u n d e r t h i so v e r a l lb a c k g r o u n d ,t h ee f f i c i e n ta n da c c u r a t ei n f o r m a t i o na b o u tp a s s e n g e r si s b e y o n da l ld o u b tn e e d e dt oi m p r o v i n gr a i l w a yt r a n s p o r t a t i o ne n t e r p r i s e ss o c i a la n d e c o n o m i ce f f e c t t h ea p p r o a c hf o ro b t a i n i n gt h i si n f o r m a t i o ni sb yd o i n gp a s s e n g e rf l o w i n v e s t i g a t i o n t h i st h e s i sa i m st op o i n to u ta l li n t e g r a t e ds a m p l i n gt e c h n i q u e ,t oc o n d u c tt h es a m p l e f r e q u e n c ea n dt h es a m p l ep o p u l a t i o ni np a s s e n g e rf l o wi n v e s t i g a t i o n ,a sw e l la st h e a s s e s s m e n ta b o u tt h ep e r f e c t i o nd e g r e eo ft h ei n f o r m a t i o n ,s oa st oi m p r o v et h eq u a l i t y o fi n v e s t i g a t i o nb yt h r e ea s p e c t s 一“a c c u r a t e ,“c o m p l e t e ,a n d p r a c t i c a l ”f u r t h e rm o r e , t h eh i g h q u a l i t yd a t ai sa l s os u p p o s e dt op r o v i d er e f e r e n c ef r a m ef o rd e c i s i o nm a k i n g i ns a m p l ef r e q e n c ea s p e c t ,t h i st h e s i si n t r o d u c e sag r o u ps a m p l i n gm e t h o d ,w h i c hi sl e d b ya n a l y z i n gt h ed i s c i p l i n eo np a s s e n g e rv o l u m e t i m ev a r i a t i o n b yt h em i n i m u ml a y e r v a r i a n c e ,t h el a r g e ri n t e r n a ld i f f e r e n c e sc a l lb ed i v i d e di n t os m a l l e rs u b t o t a li n t e r n a l d i f f e r e n c e s ,s ot h a tt h es a m p l i n gt i m ea n di n t e r v a lh a sb e e na c q u i r e d o nt h ep r e m i s et h a tt h es a m p l ef r e q u e n c ei sg i v e n ,t h i st h e s i sr a i s e sam e t h o dw h i c hi s b a s e do ns m a l l s a m p l ea p p r o a c h i n gm e t h o d ,b yd o i n gs a m p l ea n a l y s i so ne a c hf a c t o r s t h e n , t h i st h e s i sf i n d st h er e l e v a n c eb e t w e e nt h ee s t a b l i s h e ds a m p l ea n dd i s p e r s i o n d e g r e e ,p r o v i d i n gb a s i sf o rf i x i n gt h em i n i m u ms a m p l ep o p u l a t i o n i nt h ea s s e s s m e n to fp e r f e c t i o n d e g r e eo fi n f r o m a t i o n , t h i st h e s i s i s i n s p i r e db y c o m e n t r o p y , a n dt h e nr a i s e sa ne v a l u a t i o nm e t h o d o l o g ya n dc r i t i s m u s i n gt h et a b l ea n d c h a r ts h o w ni n t h i sp a p e r , t h er a i s e de v a l u a t i o nm e t h o d o l o g yp r o v i d e sf o u n d a t i o n sf o r q u e s t i o n a i r ed e s i g n i n g a tt h ee n d ,t h es a m p l i n gm e h t o di nt h i st h e s i si s a p p l i e di nt h ei n v e s t i g a t i o no f c h e n g - g u a nr a i l w a ys u r v e y b ya n a l y s i s i n gw i t hs i n g a lf a c t o r , s o m er e g u l a rp a t t e r n a b o u tp a s s e n g e rf l o ws t r u c t r ei so b t a i n e d o nt h i sb a s i s ,k - m e a n sc l u s t e r i n ga l g o r i t h mi s u s e dt oa n a l y z et h ec o n c l u s i o no ft h ep a s s e n g e rs u r v e y , t h ec h e n g g u a nr a i l w a ym a r k e t i ss e g e m e n t e di n t ot h r e es u b m a r k e ts e g m e n t s f i n a l l y , s o m em a r k e t i n ga d v i c ei sg i v e n p o i n t e d l yi nd e s i g n i n gt i c k e t k e y w o r d s :r a i l w a y ;p a s s e n g e rf l o wi n v e s t i g a t i o n ;s a m p l i n g c l a s s n 0 :u 2 9 3 1 + 3 a b s t r a c t i v 1 引言1 1 1 问题的提出1 1 2 国内外研究现状一2 1 2 1 采样频度确定方法的研究现状2 1 2 2 采样数量确定方法的研究现状3 1 2 3 采样信息完备程度评价的研究现状4 1 3 论文的研究重点及技术路线4 1 3 1 研究重点4 1 3 2 技术路线5 2 客流调查采样方法研究7 2 1 采样的基本理论与方法7 2 1 1 数据质量7 2 1 2 抽样方法8 2 2采样频度确定方法。1 0 2 2 1 客流量数据的统计分组1 0 2 2 2 基于分层抽样法的采样频度设计1 3 2 2 3 实证分析1 4 2 3最小采样数量确定方法1 6 2 3 1 影响样本量的因素分析1 6 2 3 2 基于小样本趋势逼近的最小样本量确定方法1 8 2 3 3 实证分析19 3 基于采样信息完备程度评价的问卷设计2 4 3 1采样信息完备程度评价指标及方法研究2 4 3 1 1 信息熵的提出2 4 3 1 2 基于信息熵的评价指标及方法设计2 5 3 2量表设计2 6 3 2 1 量表的基本类型2 6 i 量塞銮适厶堂亟堂焦i 佥塞 目苤 3 2 2 影响信息熵的量表特征分析2 7 3 2 3 信息熵在量表设计中的应用31 3 3出行意愿调查方法设计3l 4 3 3 1 既有调查方法及其对比分析3 1 3 3 2s p 调查方法设计3 6 成灌铁路客流调查及营销建议4 0 4 1客流结构的初步分析4 0 4 1 1 旅客自然属性分析4 0 4 1 2 旅客出行习惯分析4 1 4 1 3 旅客出行意愿选择分析一4 5 4 1 4 小结4 6 4 2成灌铁路客运市场细分4 6 4 2 1 市场细分的方法及技术4 7 4 2 2 铁路客运市场细分方法4 8 4 2 3 成灌铁路客运市场细分4 9 4 3成灌铁路票种票制营销建议5 5 5结束语5 7 5 1论文的主要工作5 7 5 2创新点5 7 5 3有待进一步研究的问题5 8 参考文献5 9 附:录a 61 附录b 6 2 作者简历6 3 独创性声明6 4 学位论文数据集6 5 1 引言 1 1问题的提出 随着我国铁路的大规模建设,铁路运能将大幅度提高,客运市场逐步转变为 买方市场。在这种情况下,如何更好地设计铁路运输产品、为出行者提供更优的 服务,并争取更大的运输市场份额成为铁路运输企业提高社会和经济效益的关键, 而这些工作的前提是充分了解客运市场需求。因此,如何高效、准确地获取客运 市场需求信息,对铁路运输企业来说尤为重要。 一般来说,获取客运市场需求信息有两种途径,一种是通过既有客运量数据 ( 如售票记录、二手资料等) ,另一种是通过客流调查。既有客运量数据获取成本 相对较低,因此在实际中应用较多,然而这种做法也存在着一些缺陷,主要表现 在:既有客运量数据体现的是过去的客流信息,虽然可以从中获取一定的规律, 但并不能完全代表现在的水平,而且从内容上考虑,既有客运量数据往往无法反 映旅客与出行紧密相关的群体特征( 如出行目的、出行习惯等) 。客流调查方法的 成本相对要高些,但其时效性更高,能够更好地反映现实的情况以及未来的发展 趋势,内容上也更为丰富。此外,在运能提高的情况下,一方面,以往被抑制的 客运需求可以得到释放,另一方面,还可能诱增出新的客运需求,因此,通过既 有客运量数据获得的信息有可能不能反映真实的客运需求,对于获取完整、准确 的客运市场需求信息而言,客流调查是一种不可或缺的手段。 目前关于市场调查的理论方法在铁路以外的其它领域已有相对成熟的应用, 但铁路客运市场的客流总量巨大,且结构非常复杂,适应铁路客运市场特点、可 直接支撑铁路客流调查的理论方法还相对薄弱,尤其是针对某些问题还缺少定量 化的方法指导,如客流调查地点、时间、数量以及方法( 包括对问卷合理性的评 价) 的确定等。从统计学角度,上述问题可以归结为采样技术。基于此,本文针 对铁路客流调查的采样技术进行研究,重点解决其中的采样频度、采样数量以及 对问卷合理性评价的量化方法,从而使客流调查的采样在“准”、“全 、“好 三 方面有所改进,在一定程度上丰富客流调查理论和方法,为铁路运输企业的运营 决策工作提供更好的参考依据。 1 2国内外研究现状 如前所述,采样是客流调查中的一类重点问题。有关采样,在不同学科的研 究领域已给出多种解释:如在信号处理领域,采样是把时间上连续的模拟信号变 成一系列时间上离散的抽样序列的过程;在统计学领域,采样又被称作抽样,就 是按照某种原则从所研究的总体中提取出一部分,作为样本进行观察研究,并运 用数理统计的原理,以样本的数量特征为代表,对总体做出数量上的推断分析, 以达到认识总体的一种统计研究办法。 本文主要针对采样频度、采样数量和采样信息完备程度的评价进行研究,因 此就这几个问题的国内外研究现状综述如下。 1 2 1采样频度确定方法的研究现状 采样频度的确定包括采样时间和间隔的确定两方面内容,最初对采样频度确 定方法的研究出现在信号处理领域,在该领域,采样频度( 也称为采样速度或者 采样率) 定义了每秒从连续信号中提取并组成离散信号的采样数,它用赫兹( h z ) 表示,采样频度的倒数是采样周期,即采样的时间间隔。 采样定理( 又称香农采样定理、奈奎斯特采样定理) 是信息论中的一个重要 基本结论,它给出了采样频度的确定方法,e t w h i t t a k e r 、c l a u d ee l w o o ds h a n n o n 与h a r r yn y q u i s t 都对该定理做出了重要贡献。采样定理指出,如果对一个频带限 制在( o ,厶) 内的时间连续信号册( d ,如果以z 1 ( 2 f ) 秒的时f o j f b j 隔对它进行 等间隔( 均匀) 抽样,则m ( 力将被所得到的抽样值完全决定。 在采样定理的基础上,各研究领域又针对其研究对象的特点,延伸出相应的 研究方法。 在交通领域,交通流数据的存档是指在交通流数据总体中抽取适当的数据进 行存档的过程,可视为一种特殊的采样,其计算存档最佳集成度的方法可视为采 样频度的确定方法。g a j e w s k i 等介绍了互验算法和f 检验算法来计算最佳集成度, 其基本思路是:对于不同集成度的数据序列进行统计分析检验,寻找既能最好地 代表原始数据,又能在统计误差允许的范围内不丢失原始数据信息的数据序列。 这两种最优化方法基于集成数据序列和原始数据序列的相似性设计,直观且容易 运用,然而在所确定的数据序列中包含了不需要的信息( 如错误和噪音) ,因此相 对粗略【1 1 。 在统计学领域,对抽样算法及其采样频度的研究也有一定涉及。文献 2 】介绍 了一种新的寻找最好划分频度的抽样算法s s ( s a m p l i n gt h es p l i t t i n gp o i n t s ,s s ) , 2 仅对样本数据进行排序,减少了传统分类算法中对所有数据进行排序所消耗的时 间代价;文献 3 】依据限制条件和数据分析结果的需要缩减数据属性;文献 4 1 在对 已有的基于密度偏差采样算法改进的基础上,提出了一种基于密度偏差采样的聚 类算法,并实验证明,随着信息量、数据维数的增加,该算法聚类的正确率以及 对数据的处理速度都要较传统的聚类算法有所提高。 综上,不同领域、各种传统和新兴的采样频度确定方法,均以对现有数据的 研究为前提,有针对性地提出符合数据本身特征规律的采样方法。而目前在铁路 客流调查方面,还尚未有可以应用的针对客流数据的采样频度确定方法。鉴于此, 可以在研究客流量时序规律的基础上,引入传统采样思想,对客流调查中的采样 频度进行研究。 1 2 2采样数量确定方法的研究现状 采样数量又称样本容量,在统计学中,样本容量的确定方法已经发展得比较 成熟,主要以数理统计推导为基础,根据预先指定的精度,选择适当的公式来计 算样本容量。 在统计学方法的基础上,市场调查领域应用广泛的样本容量确定方法有两类: 置信区间法和假设检验法【5 】。置信区间法是运用标准差公式对总体均值或比率求出 置信区间,然后决定样本容量;而假设检验法中,首先以犯第一类错误的概率为 限制,在原假设风下计算总体均值或比率的一个临界值,然后以犯第二类错误的 概率为限制,在各择假设h 下再计算一个临界值,最后利用两个临界值相等来决 定样本容量。这两种计算方法的前提均是了解调查总体的均值,而在客流调查中, 由于客流总体数量巨大,且结构非常复杂,获得客流总体的均值是无法实现的, 因此传统的置信区间法和假设检验法不适用于铁路客流调查样本量的确定。 此外,生物遗传和医学研究领域对样本量的确定也有一定涉及,主要通过建 立回归模型来实现。英国遗传学家高尔顿( g a l t o n ) 最先提出回归【6 】这个术语,指 出生物后代有恢复或回归到其上代原有特性的倾向。这种思想逐渐形成了今天的 回归模型思想,应用于医学研究的样本量确定当中,研究人员根据大量的统计数 据,找出变量之间在数量变化方面的统计规律,即回归关系,进而通过建立数学 方程,研究因变量与自变量之间的变动关系。目前,在样本量确定方面,针对不 同关系得到的回归模型大致有线性回归模型 7 1 、l o g i s t i c 回归模型【7 1 0 1 、广义线性 回归模型1 1 】以及c o x 比例风险回归模型【9 】【1 2 】,这些模型在生物遗传和医学领域均 取得了不错的效果。 相比较置信区间法和假设检验法,回归思想不需要事先知道调查总体,在调 3 查总体难以获得的情况下具有明显的优越性,因此,值得借鉴用于铁路客流调查 样本量的确定中。 1 2 3 采样信息完备程度评价的研究现状 关于采样信息完备程度评价的研究目前尚不多见,在对调查内容进行评价的 研究中,研究者往往更加侧重对采样信息数据质量的可靠性分析。 可靠性分析【l 习有两种计量指标,信度和效度。信度分析是在问卷调查后,对 问卷本身随机误差的测量,检验受访者对问题的回答与受访者对该问题真实看法 间的差异。经典信度观是以真分数理论( t r u es c o r e ) 为基础,真分数理论又称为 经典理论或经典测量理论,该理论认为,真实值或真分数是指在没有任何测量误 差的情况下,调查对象某潜在特质的真实水平。在对信度分析进行研究的过程中, 主要产生了以下几种经典信度系数估计公式:重测信度系数、复本信度系数、内 部一致性信度系数、评价者信度系数【1 4 】。这些方法计算简单,故而应用广泛,然 而也存在着明显的不足,如精度不高、随机误差笼统单一、参数估计对样本依赖 性太大等。 效度分析是对调查问卷能否正确测量出所要测量的特质的程度的一种分析方 法。对效度的分析十分复杂,研究者一般从三个方面进行判断:一是观察问卷内 容切合主题的程度;二是测量调查结果与有关标准之间的相关程度;三是从实证 角度分析其结构效度。实际应用中,效度分析还主要以定性研究为主。 1 3 论文的研究重点及技术路线 1 3 1研究重点 本文研究铁路客流调查采样技术及其应用,旨在给出一套采样技术,指导在 铁路客流调查中采样频度、采样数量的确定以及对采样信息完备程度的评价,并 将这种技术应用于成灌铁路客流调查中。主要包括以下重点: 1 采样技术及其应用研究。解决客流调查如何采样主要围绕三方面内容: ( 1 ) 采样频度的确定。通过对客流量随时间变化规律的分析,引入分层抽样 思想,运用最小层内方差法,将内部差异较大的总体划分为内部差异较小的次级 总体,从而确定采样时间和间隔。 ( 2 ) 采样数量的确定。在确定采样频度的前提下,通过对影响样本量的因素 分析,提出一种基于小样本逐渐逼近的方法,建立样本量与特征值离散程度的关 4 系,从而为最小样本量的确定提供依据。 ( 3 ) 采样信息完备程度的评价。受到熵的思想的启发,提出基于信息熵的采 样信息完备程度评价指标和方法,并以此评价问卷中的量表设计和出行意愿调查 方法,为客流调查问卷设计提供依据。 2 成灌铁路客流调查及营销建议。基于第一部分采样技术的研究,对成灌铁 路进行客流调查,并对调查结果做如下三方面研究: ( 1 ) 客流结构分析。对成灌铁路客流调查结果做初步分析,从中总结得到关 于客流结构的若干规律。 ( 2 ) 客运市场细分。在前文分析的基础上,针对影响旅客出行意愿选择的因 素,对客运市场进行细分。 ( 3 ) 票种票制营销建议。根据客流结构的规律和客运市场细分结果,针对性 地提出成灌铁路在票种票制方面的营销建议。 1 3 2技术路线 本文的技术路线图如1 1 所示。 , 北京交通大学硕士学位论文 引言 o 。 客流量随时间 变化规律分析 信息熵理论 采 分层抽样思想 样 士 技 采样频度 1r 术 时问 。j 影响样本量的 采样信息完备程度 间隔 7 l因素分析 的评价指标与方法 及 其 小样本逐步逼近 士士 应 样本量与特征值离 出行意愿 i 用 散程度的关系 量表设计l 调查方法 i 研 i 究 土土: 基于采样信息完备程度 i 采样方法 i 评价的问卷设计 l l 一 一一一一一一一一一j r 一一一一一一:一一一 一一- 1 :i i i 虎灌11 l、rl 。7 1 “。9 i i ;铁路i 客流结构分析客运市场细分i i 客流! l :调查: i i i 反i i i 营销! ,ri i 矗议: 票种票制营销建议 i i i i i 图1 1 技术路线图 6 2 客流调查采样方法研究 客流调查的总体数量巨大,且结构复杂,采样是快速而有效地方法。本章研 究客流调查采样方法,主要围绕采样频度和最小采样数量的确定两方面展开。 2 1采样的基本理论与方法 好的采样是从总体中抽取部分样本代替总体,而能保证质量不变。因此在确 定采样频度和最小采样数量前,先对数据质量和抽样方法的基本理论进行研究。 2 1 1数据质量 数据质型1 5 j 是统计工作的基础。随着信息技术的推广应用,社会各界对统计 数据的需求越来越广泛,对统计数据质量提出更高的要求,赋与其更新、更全面 的内涵。 由于统计是对某一事物现象总体的估算而不是精算,这种估算的准确性如何, 成为研究人员关注的焦点。早期人们的观念里,准确性基本等同于统计数据质量, 统计误差越小越准确,数据质量就越高。在2 0 世纪5 0 年代以前,国际统计界基 本上是以提高数据准确性为出发点,从数理统计和采样技术角度,大量研究如何 缩小统计误差、控制数据质量。因此,这一时期的数理统计和采样技术理论方法 得到较大的发展。随着人们质量观念的变化,质量不再单纯指产品或服务的使用 性能,还包括产品或服务满足用户需求的程度,它是一个包含丰富内涵、具有多 维因素的综合性概念。相应地,对统计数据质量概念的认识也从狭义向广义转变, 要求从统计数据提供者、生产者和用户等多个角度来衡量数据质量,准确性已不 再是衡量统计数据质量的唯一标准,因为从用户使用角度,即使准确再高的统计 数据,如果时效性差,或者不为用户所关心,仍达不到高质量的标准。为此,各 国统计机构和有关国际组织从满足用户需要的角度出发,确定了统计数据质量的 概念,简单地说,数据质量是指统计信息对用户需求的满足程度。具体包括如下 几个方面【1 6 】: ( 1 ) 适用性:是指收集的统计信息是否有用,是否符合用户的需求。在做统 计分析之前,首先必须了解用户的需求,获得有用的统计信息。 ( 2 ) 准确性:是指统计估算值与目标特征值即“真值 之间的差异程度。统 计误差越小,准确性就越高。实际上所谓的“真值是不可知的,一般通过分析 7 采样误差、范围误差、计数误差、加工整理差错、模型假设误差等影响数据准确 性的各个因素,测算统计估算值的变动系数、标准差、均方差、曲线配合吻合度、 假设检验、偏差等,将统计误差控制在一个可接受的置信区间内。 ( 3 ) 可比性:是指同一项目的统计数据在时间上和空间上可比程度。这要求 统计的概念和方法在时间上保持相对稳定,对于不同数据使用统一的统计制度方 法和标准分类,保证统计数据的口径范围、计算方法在时间上一致衔接,在不同 范围之间可比。 ( 4 ) 客观性:是指在统计数据收集和:j n - r 整理过程中遵守客观性原则。客观 地获得统计数据,客观地选择采样方法和统计方法。 ( 5 ) 有效性:是指应降低统计工作的生产费用,提高效率。尽量采取各种有 效措施,提高统计的工作效率,尽量减少费用投入。 2 1 2抽样方法 在统计学中,采样又称为抽样,基本的方法有以下几种: ( 1 ) 简单随机抽样 简单随机抽样也称为单纯随机抽样,是指从总体个单位中任意抽取n 个单 位作为样本,使每个可能的样本被抽中的概率相等的一种抽样方式。它一般是指 从总体中逐个无放回抽取雄个抽样单位构成样本。每次抽取都是等概率的( 对所 有未入样的单位来说) ,这也等价于从总体中一次取得刀个单位,只要从总体的 个单位中一次抽取,1 个单位的全部c 嚣种取法的可能样本中,每种被抽中的概率相 等。 简单随机抽样在理论上最容易处理,而且当总体单位数不太大时,实施起 来并不困难。但在实际中,若相当大时,简单随机抽样就不是很容易办到的。 首先它要求有一个包含全部个单位的抽样框,其次用这种抽样得到的样本单位 较为分散,不容易实施。 当数据之间差异大时,分析结果很可能会表明数据随某些变量值( 尤其是与 所要分析问题相关的变量值) 的水平不同显示某种分布规律,那么我们按这些变 量进行分层随机抽样得到样本的代表性则会更好些;否则,不仅样本代表性不足, 样本估计值也很容易会高于或低于实际值。 简单随机抽样是所有其他抽样方法的基础,但在实际实施应用中却有一定的 困难,这主要是编制抽样框及抽取的样本可能过于分散等原因。 ( 2 ) 分层抽样 分层抽样,又称类型抽样或分类抽样。其组织形式是先将总体的个单位分 8 成互不交叉、互不重复的后部分,我们称之为层,而后在各层中按随机或其他原则 抽取,n :,n 。个样本单位入样,最后再由各层抽取的样本单位构成一个容量 七 为尢= ? i 的总的样本。设总体有个单位,即兀 = x ,e ,瓦) ,按某 i f f i l 一分层的标志将其分成后层( 组) ,第i 层兀m 有m 个单位,f - - i ,2 , 膏 七 后,兀= u 兀m ,n = e n ,兀m = 誓。,誓:,”,) 。 i f f i li = 1 从第f ( i = l ,j | ) 层抽取传个单位,构成第i 层的子样本,即片n = 七 ( 乃,乃:,虼) 。所有子样本并成总的样本,即j ,= u 欺,) = ( 以,儿,以) , i = 1 k 刀= 乏:吩。分层的原则是将彼此相似的单位归入一层( 组) ,所以又称为类型抽样。 i f l 分层抽样适用于总体内部有不同类型单位集团的总体。一般情况下,层内的 偏差比较小,层问的差异比较大,估计时先对层内进行估计,然后再综合成总体 目标量的估计量。 分层的作用主要有三点:一是为了工作的方便和研究目的的需要;二是为了 提高抽样的精度;三是为了在一定精度的要求下,减少样本的单位数以节约调查 费用。因此,分层抽样是应用上最为普遍的抽样技术之一。 按照各层之间的抽样比是否相同,分层抽样还可分为等比例分层抽样与非等 比例分层抽样两种。 实际上,分层抽样是科学分组与抽样原理的有机结合,前者是划分出性质比 较接近的层,以减少标志值之间的变异程度;后者是按照抽样原理抽选样本。因 此,分层抽样一般比简单随机抽样和等距抽样更为精确,能够通过对较少的样本 进行调查,得到比较准确的推断结果,特别是当总体数目较大、内部结构复杂时, 分层抽样常能取得令人满意的效果。 通常数据中含有分类变量时,如性别、收入、婚姻状况等,我们会采用分层 抽样,得到的样本在类别的结构上与源数据是保持一致的,如果建立的是分类模 型还能提高模型的精确度。选择分类变量时,要充分利用那些能决定被调查变量 数值差异的变量。 ( 3 ) 系统抽样 系统抽样也称为机械抽样、系统随机抽样,其原理为:首先将总体的全部单 元按某一已知变量排队,接着依简单随机抽样方法从总体中抽取第一个样本点( 所 谓随机起点) ,然后按某种固定的顺序和规律依次抽取其余样本点,最终构成样本。 系统抽样的具体操作方法为:设总体中的个单元按某种顺序( 通常是按某 种规律排列,但也可以是随机排列的) 编号为l ,2 ,首先抽取一个或一组起 9 始单元的编号,然后按某种确定的规则选取其他单元的编号,直到满n 个为止旧。 在工程实践中,系统抽样是一种被广泛采用的抽样方法。系统抽样比简单随 机抽样易于操作,只是抽样误差的估计较为复杂,需要对抽样总体的特征有充分 的了解。作为实践中最常用的抽样方法之一,系统抽样有显著优点和缺点。 系统抽样的优点主要体现在两个方面。第一,简便易行,容易确定样本单元。 系统抽样要的仅是总体单元的顺序排列,一旦随机确定了一个( 或少数几个) 起 始单元,整个样本就自然确定了。系统抽样还较易保留抽样过程的原始记录,便 于监督和检查。第二,样本单元在总体中分布比较均匀,代表性强,有利于提高 估计精度。如果调查者对总体的结构有一定了解,采用有序系统抽样就可以有效 地提高估计的精度。 系统抽样的缺点也主要体现在两个方面。第一,如果单元的排列存在周期性 的变化,而抽样者对此缺乏了解或缺乏处理经验,抽取出样本的代表性就可能很 差。第二,系统抽样的方差估计较为复杂,一般系统抽样没有设计意义下的无偏 估计量,并且在很多实际应用中所采用的系统抽样都不是严格的概率抽样,这给 系统抽样方差的估计带来一定的困难。 2 2采样频度确定方法 本节在保证数据质量不变的前提下,先对客流量数据进行统计分组,进而采 用统计学中的抽样理论对数据进行采样时间和周期设计,确定客流调查中的采样 频度。 2 2 1客流量数据的统计分组 由常识知道,客流量变化具有周期性。根据旅客运输种类( 长短途、列车等 级等) 的不同,客流量体现出不同的周期规律,对于同一类型的旅客运输,也可 以描述出其在不同周期内的变化规律,如北京至乌鲁木齐的铁路客流量变化周期 有周、月、季度、年等,最小周期是一周;北京至天津的城际客流量周期有天、 周、月、季度、年等,最小周期是一天。对客流量数据进行统计分组,研究其周 期内的变化规律,提高客流数据在可比性、适用性等方面的质量,是采样频度确 定的基础和前提。 客流数据的总体巨大,为方便研究,通常以某个长度时间段内的客流量代替 每个客流个体作为研究对象。由于调查期间成灌铁路尚未开通运行,本文以成都 至都江堰长途班车始发站的客流量为对象进行研究,此班车单程运行时间约5 0 分 1 0 钟,每天7 :0 0 1 9 :3 0 滚动发车,因此客流量最小周期可视为一天。 为了对最小周期内客流量随时间变化的规律进行统计分析,需要以特定长度 的时间段对周期进行分组,将原始客流数据转化为一定时间段内的客流量数据。 如何分组取决于周期内客流量波动的剧烈程度,如果时间段过长,可能造成某些 关于波动情况的信息流失,反之,如果时间段过短,则会造成过多的统计数据, 增加运算量。为此,本文对数据采用不同长度时间段( 1 0 分钟、3 0 分钟、1 小时、 2 小时) 进行分组,绘出一天内客流量的时间序列图对比如下: 图2 1 客流量时间序列图( 段长:1 0 分钟) f i g u r e2 一ls e q u e n c ec h a r to f p a s s e n g e rf l o w ( t i m e s l i c e :l o m i n ) 图2 2 客流量时间序列图( 段长:3 0 分钟) f i g u r e2 - 2s e q u e n c ec h a r to f p a s s e n g e rf l o w ( t i m e s l i c e :3 0 r a i n ) 图2 3 客流量时间序列图( 段长:l d , 时) f i g u r e2 - 3s e q u e n c ec h a r to f p a s s e n g e rf l o w ( t i m e s l i c e :l h o u r ) 图2 4 客流量时间序列图( 段长:2 d , 时) f i g u r e2 - 4s e q u e n c ec h a r to f p a s s e n g e rf l o w ( t i m e s l i c e :2 h o u r ) 由图2 - 1 至图2 - 4 可以看出,不同段长的时间序列图可以不同程度地反映客流 量的变化情况。通过比较认为,图2 2 ( 段长为3 0 分钟) 能够较好地概括一天内 客流量的变化和分布规律,同时也能较好地反映图2 1 中的客流量波动细节信息, 而图2 3 和2 - 4 则明显滤掉了部分客流量波动的拐点。此外,图2 2 较图2 1 减少 了2 3 的数据量,提高了统计效率。因此,本文后面章节所做的采样频度确定,以 时间段长为3 0 分钟的客流量为依据。 1 2 2 2 2基于分层抽样法的采样频度设计 统计理论中分层抽样法的特点是经过分层将一个内部差异较大的总体划分为 内部差异较小的多个次级总体,以达到提高抽样的经济效益和估计精度的目的。 对于一个总体,其方差是客观存在且无法改变的,但如果对总体单元进行分 层,即分成若干子总体,使每一个子总体的方差变小,这样只需在子总体中抽取 少量样本单元,就能很好地代表子总体的特征,从而在样本量一定时增大样本的 效用,提高对整个总体估计的精度。 分层抽样的优点主要包括以下几点【1 5 】: ( 1 ) 分层抽样的估计精度较高; ( 2 ) 分层抽样不仅能对总体指标进行推算,而且能对各层指标进行推算; ( 3 ) 层内抽样方法可以不同,便于抽样工作的组织。 基于以上分析,本文引用分层抽样的思想,将内部差异较大的客流总体划分 为内部差异较小的次级总体,从而确定客流调查的采样频度。由2 2 1 节可知,客 流量波动情况在周期内体现出不同的剧烈程度,为此对客流调查的分层抽样设计 如下: 1 确定抽样总体:一个周期内的总客流量; 2 以层内方差最小为原则,将周期内客流量分为若干层, 式如下: , s 。2 - ( 一) 2 ( - 1 ) f = l 其中:h 表示“第h 层”; - 表示第h 层的单位总数; i 表示“层内单位号”; 层内方差的计算公 ( 2 1 ) 匕,一表示第h 层第f 个单位的客流量值; e 一表示第h 层的客流总量,计算公式为: k = 芝,= m i ( 2 2 ) i = 1 3 精度分析:结合抽样技术理论,给出客流量分层的层间方差计算公式如下: 霹= 窆 ( i 一而2 ( l 一1 ) ( 2 - 3 ) h = l 其中,l 为总层数。 当层间方差小于层内方差( 或平均层内方差) 时,即 霹 s n ,则方法m 获得的信息量大,问卷设计更为合理,采样完备程度较 方法高; 若 s 。 综上,量表段数与信息熵值的关系是:当量表被选择的均匀度相同时,量表 段数越多,信息熵值越大。 2 量表被选择的均匀度与信息熵值的关系 实际调查中,有的量表被选择的结果较为集中,有的较为均匀,因此针对量 表被选择的均匀度做信息熵值比较。以调查旅客对成都至都江堰长途班车运行时 间的满意度为例: 卷d :特别满意,很满意,比较满意,一般,比较不满意,很不满意,特 别不满意 卷e :特别满意,比较满意,一般,比较不满意,特别不满意 获得6 0 份有效问卷,调查结果统计如表3 - 6 和3 7 所示。 表3 - 6 运行时间满意度卷d ( 7 段量表) t a b l e3 - 6s a t i s f a c t i o nd e g r e eo nt i m ec o s to fp a p r ed ( s i z eo f7 ) 注:d 7 一一特别满意,d l 一一特别不满意 表3 7 运行时间满意度卷e ( 5 段量表) t a b l e3 - 7s a t i s f a c t i o nd e g r e eo nt i m ec o s to fp a p r ee ( s i z eo f5 ) 注:e 5 一一特别满意,e l 一一特别不满意 将表3 - 6 至表3 7 分别代入式( 3 - 4 ) ,获得信息熵值分布如图3 2 所示。 5 上4 石 f弋弋毳 1 4 6 l,蓼 1 4 4 。 t 一 1 4 2 艮一

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论