(统计学专业论文)基于数据挖掘的网络调查系统研究.pdf_第1页
(统计学专业论文)基于数据挖掘的网络调查系统研究.pdf_第2页
(统计学专业论文)基于数据挖掘的网络调查系统研究.pdf_第3页
(统计学专业论文)基于数据挖掘的网络调查系统研究.pdf_第4页
(统计学专业论文)基于数据挖掘的网络调查系统研究.pdf_第5页
已阅读5页,还剩89页未读 继续免费阅读

(统计学专业论文)基于数据挖掘的网络调查系统研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

江苏大学硕士学位论文 摘要 在众多的社会学研究方法中,调查是一种运用最多的从某一主题收集数据的 方法。随着组织、大学和个人对互联网的广泛使用,基于互联网的网络调查方法 逐渐变得流行。相对传统的调查方法,网络调查使得整个调查过程更加容易,而 且问卷信息的分发可以在短时间之内完成,数据也可在较低的成本下获取并直接 在计算机上得到处理。本文主要讨论了网络调查数据问题及由无回答造成的遗漏 数据的补齐算法,在此基础上构建了网络调查系统,并运用该系统进行实证研究。 本文结合抽样调查理论,分析了网络调查的数据问题来源与类型,对数据问 题进行了统计计量,并以此为基础讨论了网络调查数据预处理的对象及其方法。 本文着重以数据挖掘中决策树分类理论和粗糙集理论为指导,全面深入的讨论了 基于i d 3 算法的遗漏数据补齐算法和基于粗糙集的r o u s t i d s a 算法,分析了两种 算法在网络调查遗漏数据补齐方面的不足,进而提出了基于粗糙集的红相似矩阵遗 漏数据补齐算法( 简称k - s m 算法) ,该算法是对r o u s t i d s a 算法的改进,考虑了 决策属性的遗漏及其补齐,有效地解决了补齐后引起的决策冲突问题。 以上述研究为基础,结合网络调查的特点和调查者对网络调查系统的需求, 设计并开发了一套通用的网络调查系统( w w w n e t s u r v e y c n ,n e t s u r v e y 系统) 。该 系统能够全面实现对问卷的创建、管理、发布和描述性统计量分析等功能,同时 重点实现了基于i d 3 算法的遗漏数据补齐算法和k - s m 算法。 本文运用n e t s u r v e y 系统进行的实证研究分两步进行。第一步主要考察网络调 查方法与传统调查方法对被访者的影响;第二步主要考察n e t s u r v e y 系统中两种算 法的数据预处理效果。实证结果表明:1 ) 网络调查在项目无回答方面,效果明显 优于传统的印刷调查;2 ) 各种题型( 填空题、单选题、多选题) 以及不同性质( 行 为问题和态度问题) 的题目,两种方法对被访者来说没有本质上的区别,即不管 通过哪种调查方法接受调查,被访者都能反应其相同的意愿;3 ) 对长短填空题的 回答数据分析表明,题目样式的微小变化,不管是网络调查还是传统的印刷调查, 对被访者的影响是明显的;4 ) 基于i d 3 算法的遗漏数据补齐算法相对于k - s m 算 法的补齐效果较劣,并且前者的时间复杂度较高。 江苏大学硕士学位论文 我国对网络调查的研究还处于起步阶段,而且大多是描述性的定性研究。本 文的研究工作囊括了从定性分析到定量的实证研究,以期该研究能对我国网络调 查的应用和发展起到积极推动作用。 关键词:网络调查,i d 3 算法,k - t l | 4 0 , 矩阵,数据预处理,印刷调查 i i 江苏大学硕士学位论文 a b s t r a c t a m o n gt h en u m e r o u si n v e s t i g a t i o na p p r o a c h e so fs o c i o l o g y , s u r v e yi st h em o s t p o p u l a rm e t h o dt h a tu s e di nc o l l e c t i n gd a t af o rac e r t a i ns u b j e c t w i t ht h ew i d e l yu s eo f i n t e r n e ta m o n go r g a n i z a t i o n s ,c o l l e g e sa n di n d i v i d u a l s ,w e bs u r v e yb e c o m em o r e p r o s p e ra n dp r e v a l e n tt h a ne v e rb e f o r e i nc o m p a r i s o nw i t ht r a d i t i o n a lr e s e a r c hm e t h o d , w e bs u r v e ym a k e st h ew h o l ep r o c e s se a s i e r m o r e o v e r , t h ed i s t r i b u t i o no fq u e s t i o n n a i r e i n f o r m a t i o nc a l lb ef i n i s h e di ns h o r tt i m e ,a n dd a t aw i l lb ea c h i e v e di nl o wc o s ta n da l s o c a nb et r e a t e dd i r e c t l yo nc o m p u t e r t h ep a p e rm a i n l yd i s c u s s e dt h ec a s eo fd a t ai nw e b s u r v e ya n dt h er e c r u i t m e na l g o r i t h mf o rm i s s i n gd a t ad u et on o n r e s p o n s e ,b a s e do n w h i c hw e bs u r v e ys y s t e mw a sa c c o m p l i s h e da n dc o r r e s p o n d i n gd e m o n s t r a t i o ns t u d y w a sc a r r i e do u t c o m b i n e dw i t ht h et h e o r yo fs p o tc h e c k ,t h es o u r c ea n dt y p eo fd a t ai s s u ei nw e b s u r v e yw e r ea n a l y z e d ,a n dt h ei s s u ew a sa l s oq u a n t i f i e du s i n gs t a t i s t i ct h e o r y c o n s e q u e n t l y , t h ep r e t r e a t m e n tt a r g e ta n di t sm e t h o df o rd a t ai nw e bs u r v e yw e r e p r i m a r i l yd i s c u s s e d f u r t h e r m o r e ,u n d e rt h eg u i d a n c eo fd e c i s i o nt r e ec l a s s i f y i n gt h e o r y a n dr o u g hs e t st h e o r yi nd a t am i n i n g , t h ef i l la l g o r i t h mf o rm i s s i n gd a t ab a s i n go ni d 3 a l g o r i t h ma n dt h er o u s t i d s aa l g o r i t h mo nt h eb a s i so fr o u g hs e t sw e r es t u d i e d c o m p r e h e n s i v e l ya n dp r o f o u n d l y a l s o ,t h er e c r u i t m e nd e f e c tf o rm i s s i n gd a t ad u r i n g t h ec o u r s eo fw e bs u r v e yf o rb o t ho fa l g o r i t h m sw a sa n a l y z e d ,a n dt h ek - s i m i l a rm a t r i x r e c r u i t m e na l g o r i t h m ( k - s ma l g o r i t h m ) f o rm i s s i n gd a t ab a s i n go nr o u g hs e t sw a s b r o u g h to u ta c c o r d i n g l yi nt h ep a p e r t h ea l g o r i t h mi s a l li m p r o v e m e n tf o rt h e r o u s t i d s aa l g o r i t h m i tt a k e st h em i s s i n ga n dr e c r u i t m e no fd e c i s i o np r o p e r t yi n t o a c c o u n t ,a n de f f e c t i v e l yr e s o l v e st h ed e c i s i o nc o n f l i c ta f t e rt h er e e r u i t m e n o nt h eb a s i so ft h ea b o v e m e n t i o n e d a n a l y s i s a n dc o m b i n e dw i t l lt h e c h a r a c t e r i s t i c so fw e bs u r v e ya n dt h ed e m a n do fi n v e s t i g a t o rf o rw e bs u r v e ys y s t e m ,a n u n i v e r s a lw e bs u r v e ys y s t e mw a sd e v e l o p e db yu s i n ga d v a n c e dd e s i g n i n ga n d e x p l o i t i n g t o o l s t h es y s t e m ( h t t p :w w w n e t s u r v e y e n ) c a n t o t a l l y r e a l i z et h e e s t a b l i s h i n g ,m a n a g i n ga n dr e l e a s i n go fq u e s t i o n n a i r e ,a n dt h ed e s c r i p t i o no fs t a t i s t i c a n a l y s i s ,a n ds of o r t h a d d i t i o n a l l y , t h er e c r u i t m e na l g o r i t h mf o rm i s s i n gd a t ab a s i n go n i d 3a l g o r i t h ma n dk - s ma l g o r i t h mw e r ep r i n c i p a l l ya c t u a l i z e d i i i 江苏大学硕士学位论文 f i n a l l y , t h ed e m o n s t r a t i o nr e s e a r c hc a r r i e do u tu s i n gt h en e t s u r v e ys y s t e mh a dt w o s t e p s t h ee f f e c to fw e bs u r v e ym e t h o da n dt r a d i t i o n a lm e t h o do ni n t e r v i e w e ew a s s t u d i e di nt h ef i r s ts t e p ,a n da l s ot h et w om e t h o d sw e r ep u ti n t op r a c t i c e t h er e s u l to f t w om e t h o d sf o rd a t ap r e t r e a t m e n ti nw e bs u r v e ys y s t e mw a ss t u d i e di nt h es e c o n ds t e p r e s u l t ss h o wt h a tw e bs u r v e yi ss u p e r i o ri nn o n r e s p o n s er a t et op r i n ts u r v e y o nt h e o t h e rh a n d ,f o ri n t e r v i e w e e ,t h e r ei sn od i f f e r e n c ei nt w om e t h o d sw h e nf a c i n gd i f f e r e n t q u e s t i o nt y p e ( i n c l u d i n ge n t r yb o x ,s i n g l ec h o i c es u b j e c ta n dm u l t i p l e c h o i c es u b j e c t ) a n du n c o n g e n i a ls u b j e c t ( b e h a v i o ra n da t t i t u d es u b j e c t s ) t h a ti s ,i n t e r v i e w e ec a n e x p r e s ss a m ei d e aw h i c h e v e rm e t h o dw a su s e d a l s o ,a n a l y t i c a lr e s u l t so fr e s p o n s ef o r e n t r yb o xs u b j e c ti n d i c a t et h a tt h ei n f l u e n c ef o ri n t e r v i e w e ei so b v i o u sw h e nt h es t y l eo f s u b j e c th a sl i t t l ev a r i a t i o nf o rb o t ho fs u r v e ym e t h o d s f u r t h e r m o r e ,t h er e c r u i t m e n r e s u l tf o rm i s s i n gd a t ab a s i n go ni d 3a l g o r i t h mi si n f e r i o rt ot h a to fk - s m ,a n dt h et i m e c o m p l e x i t yi si nam o r eh i g hl e v e lf o rt h ef o r m e r t h ew e b s u r v e yr e s e a r c hi nc h i n a i ss t i l li nt h es t a g eo fb e g i n n i n g ,a n dm o s to ft h e m a r ed e s c r i p t i v ea n dq u a l i t a t i v es t u d i e s t h ep a p e rc o v e r sb o t ho fq u a l i t a t i v ea n a l y s i sa n d q u a n t i t a t i v ed e m o n s t r a t i o ns t u d y , a n da u t h o re x p e c ti tw i l lp l a ya na c t i v er o l eo nt h e a p p l i c a t i o na n dd e v e l o p m e n to f w e bs u r v e yi nc h i n a k e yw o r d s :w e bs u r v e y ,i d 3a l g o r i t h m ,k - s i m i l a rm a t r i x ,d a t ap r e t r e a t m e n t ,p r i n t s u r v e y i v 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定, 同意学位保留并向国家有关部门或机构送交论文的复印件和电子 版,允许论文被查阅和借阅。本人授权江苏大学可以将本学位论文 的全部内容或部分内容编入有关数据库进行检索,可以采用影印、 缩印或扫描等复制手段保存和汇编本学位论文。 本学位论文属于 保密口,在年解密后适用本授权书。 不保密彭 学位做作者繇子耳蠹辱 指剥币躲 节协刖勺日 如曰年 , 只f 、e l , 彳邪胆 独创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独 立进行研究工作所取得的成果。除文中已注明引用的内容以外,本论 文不包含任何其他个人或集体已经发表或撰写过的作品成果。对本文 的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本 人完全意识到本声明的法律结果由本人承担。 学位论文作者签名1彤争 日期:妒7 年l z 月q 日 江苏大学硕士学位论文 1 1 研究背景及意义 第1 章绪论 在众多的社会学研究方法中,调查几乎是一种运用最多的从某一主题收集数据 的方法。随着组织、大学和个人对互联网的广泛应用,基于互联网的网络调查应 用逐渐繁荣和广泛。 网络调查相对传统的调查方式具有不可比拟的优势,它不受时空限制,具有开 放性、自由性、平等性、广泛性和直接性n ,别,同时调查组织简单、便捷,调查费 用低等特点蚴,不少人认为网络调查大有替代传统统计调查之势,将成为主流的调 查方式与信息时代的数据收集方法n 刊;但网络调查本身也存在很多的不足,一方 面,网络调查系统需要专业人员构建,涉及众多学科领域且工作量大;另一方面, 网络调查数据量大,数据质量层次不一,从而有研究者怀疑网络调查结果的真实 性口3 。显然我们必须面对一个新的调查方式的研究领域,不管网络调查方法未来的 走向以及对社会调查的贡献如何,我们都有必要对这一新生的并且影响不断扩大 的方法进行研究和讨论,使其能够更好的服务于社会的各行各业。 鉴于以上认识,在国家统计局2 0 0 6 年重点项目和江苏大学2 0 0 6 年人文社科 基金青年项目的资助下,本文对网络调查系统、网络调查数据问题及处理方法以 及网络调查与传统调查的差异等方面进行研究和讨论,为网络调查在我国的发展 作出了自己的努力。 1 2 网络调查的历史及国内外研究现状 最早的网络调查可以追溯n 1 9 9 4 年佐治亚理工学院的g v uc e n t c r 进行的 关于互联网的使用情况、用户情况及人口统计状况的调查。但是在9 5 年之前,国 外使用网络问卷调查法的机构和研究并不多见。但到了9 0 年代中期之后,使用网 络问卷调查法的专业调查机构开始变得越来越多。1 9 9 7 年,“欧洲民意和市场调 查协会”( e s o m r ) 关于市场调查行业短期发展趋势的调查结果显示,在未来5 年内,影响市场调查行业的6 个关键因素之中,首要一条就是“对调查技术的需要 江苏大学硕士学位论文 将更迫切”,这些调查技术包括:互联网( 在线) 调查、自动数据收集、数据库 管理、市场建模、创造性( 交互式) 的广告测试等。在1 9 9 8 年,英国“全国统计 局政府办公室社会调查处 ( o n s ) 所实施的一项针对英国2 0 2 所商业调查机构的 调查结果显示,自2 0 世纪8 0 年代以来,英国专业调查机构使用各种基于计算机的 调查技术的比例呈逐年上升趋势,尤其是1 9 9 2 年之后,网络调查法( 英国称之为 c o m p u t e r - a s s i s t e dw e bi n t e r v i e w i n g ,c a w i ) 开始被应用于数据收集。至19 9 6 年, 已经有1 9 2 的调查机构开始使用网络调查。在美国,2 0 0 3 年,p i o n e e r 市场研究中 心发表的调查数据显示,在美国的专业调查机构中,利用互联网来收集调查数据 的比例在逐年上升。调查结果显示,约四分之三( 7 2 5 ) 的受访者表示,其所在 的调查机构正在使用互联网来收集数据。其中3 9 。2 的对象表示,网络调查法目前 是所在调查机构唯一的数据收集方式;3 3 3 的对象表示,除了网络调查法以外, 他们还同时使用其它调查方法,女f 1 c a t i 、i v r 等。研究资料还表明,在问到各种 调查研究方法的未来发展趋势时,3 8 4 的受访者认为,c a t i 将是未来数年中美国 调查机构在收集数据时所使用的主要方法;2 5 5 的对象认为,各种基于互联网的 调查方式( 如网络调查法和网络访谈法) 将是调查研究机构未来数年中最主要的 数据收集方式。另外,认为混合调查法、印刷问卷调查法和交互语音调查法将是 未来数年中调查机构所使用的主要数据收集方法的比例分别是:9 1 、7 o 和 4 5 t 引。 在网络调查领域颇有成果的美国学者m i c kp c o u p e r ( 密西根大学社会研究所 的教授,美国g p s ( g e n e r a lp o p u l a t i o ns u r v e y ) 的调查方法专家组成员) ,f 1 2 0 世 纪9 0 年代起,开始关注电子问卷的设计与应用【9 1 ,并于9 7 年主编出版了第一本有关 电子问卷设计与应用的著作:( c o m p u t e ra s s i s t e ds u r v e yi n f o r m a t i o nc o l l e c t i o n ) ) 。 同时,也发表了大量的有关电子问卷设计的论文。从文献资料来看,国外在网络 调查领域所开展的研究中,实证性的研究占了很大的比重,且多为调查性研究 t o - 1 5 。应用统计方法对所得到的数据进行定量分析,从数据质量角度来定量地比 较传统问卷调查和网络调查的差异,成为目前国外研究的一个热点【1 6 1 。 在国内,1 9 9 9 年1 0 月1 6 日,北京零点专业市场调查公司与爱特信搜狐网络公司 正式携手,创立了搜狐一零点网上调查公司,共同拓展网上调查业务。这标志着 中国调查业步入“网络时代 。近年来随着互联网在我国应用的迅速发展,网络 2 江苏大学硕士学位论文 调查也逐步的开始发展起来。根据电子科技大学方佳n a t l 6 1 、北京林业大学李锐【1 7 】 等对我国网络调查研究的论文进行整理和分析看出,自1 9 9 4 年以来,我国学者对 网络调查的研究主要集中在以下几个方面:( 1 ) 网络调查的优势和缺陷, ( 2 ) 网络调查的方式( 方法) ,( 3 ) 网络调查的改善和提高,( 4 ) 网络调查的行业应用。 但是从研究本身来看,方面,我国对网络调查的研究还不够热烈,并且研究者 比较分散,还没有形成一个持久且稳定的研究队伍;另一方面,研究的深度不够, 几乎全部是描述性研究,是对已有的观点和看法的综合和整理,很少有实践数据 来支撑。 在网络调查的实际应用方面,以中智库玛( w w w c o m r t o m o n ) 为代表的我国 网络调查应用在很多领域已经取得了实质性的进展,主要成功的案例有t c l 集团员 工满意度调查等。专业的网络调查主要以北京大学教育技术系网络调查研究中心 与唯思瑞( w i s e r e a l ) 公司合作开发的国内第一个专业网络问卷调查系统 ( h t t p :w w w w e b s u r v e y o n ) 为代表,该系统主要面向教育领域,已经成功实施了 “北京大学本科教学总体状况调查”、“2 0 0 5 年中国高校信息化调查 等,从调 查过程与结果来看,效果显著。 1 3 本文的主要工作和特色 1 本文主要工作 据c n n i c 第2 0 次我国互联网统计报告,截至2 0 0 7 年6 月3 0 日,我国网民 激增至1 6 2 亿【l8 1 。随着计算机网络技术的日臻成熟以及其众多优点,网络调查必 将成为我国统计调查的主要方式之一,同时也是各行各业实施市场策略的重要手 段。本文面对网络调查在我国企事业单位的重大需求,通过统计学、计算机科学、 数据仓库与数据挖掘、人工智能、机器学习等多学科交叉性研究,对网络调查进 行研究和讨论,必将加速整个网络调查事业的发展,为有效、准确的通过互联网 研究人类一般行为起到积极作用。另外,互联网为信息的传播提供了前所未有的 低成本、快捷的信息流通渠道和方便的信息反馈渠道,而这些正是网络调查的优 第1 9 次及以前的“中国互联网络发展状况统计调查”将网民定义为:每周上网不少于一个小时的6 周岁及 以上中国公民。“每周上网一小时”的统计口径是为了在互联网起步阶段统计出更具有实质意义的活跃网民数。 国际上对网民定义采用较多的是“半年内用过互联网的人”。随着互联网的发展和普及,目前我国上网人群已 绝大多数是活跃网民,“每周上网一小时”和“半年内用过互联网”这两个统计口径之间调查出来的数据已非 常接近( 差距在3 以内) 。为了能跟国际接轨,c n n i c 此次将网民的统计口径从“每周上网一小时”调整为 “半年内用过互联网” 3 江苏大学硕士学位论文 势所在。为此,我们应该在理论和实践上做好充分的研究和准备,使网络调查在 实践中不断规范和完善。本文的研究从以下几个方面进行: 1 ) 网络调查数据收集系统构建。运用先进的设计与开发工具,开发了一套通 用的网络调查系统。该系统能够实现对问卷的管理,同时能够进行描述性统计量 分析。 2 ) 网络调查数据预处理。利用数据库技术、统计学、数据挖掘的相关理论和 方法,根据网络调查自身的特点,分析网络调查的误差来源及遗漏数据处理方法, 并在此基础上,着重以数据挖掘理论和方法为指导,全面深入分析和讨论遗漏数 据的补齐算法。 3 ) 结合并参考国外对网络调查的实证研究,以特定调查为对象,考察网络调 查与传统调查( 印刷调查) 的差异。 2 本文的研究思路、方法和技术路线 统计学的观点是本文的基本观点,综合利用信息科学、计算机科学、人工智 能、数据库技术与统计基本理论与方法,研究网络调查中数据资料的采集、处理 与知识发现的理论、技术和方法。 在网络调查数据收集系统构建阶段,利用成熟的面向对象方法和相适应的辅 助工具进行需求分析;在需求分析的基础上,按网络调查业务系统总目标对网络 调查信息系统进行规划和方案设计;在开发方案的指导下,统筹规划、分步实施, 遵循开发规律,做到开发一个,见效一个,紧密跟踪国际先进技术,提高系统实 用性,首先实现典型子系统的开发和应用,其次,按典型子系统的模式,实现其 它各子系统,并按子系统完成的先后次序,对各子系统进行验收,最后对整个系 统进行综合测试和发布,同时,结合数据挖掘的理论和算法,实现对应的数据预 处理模块。 在完成网络调查数据收集系统的基础上,考察网络调查与传统调查在数据收 集方面的差异,并对得到的数据通过网络调查的数据预处理子系统进行处理,考 察网络调查数据预处理效果,即考察数据预处理对后续知识发现的影响。 3 本论文的内容和组织 第一章主要介绍本文的研究背景及意义、发展历史及研究现状、论文的主要 工作和特色。 4 江苏大学硕士学位论文 第二章主要介绍使用到的一些理论和方法,是后续系统工作的依据。重点从 抽样调查、网络调查基本概念及特征、网络调查数据问题来源及统计计量几个方 面进行讨论,为第三章的数据预处理提供理论基础。 第三章主要介绍数据预处理的基本概念与方法、网络调查数据问题分类与处 理方法、每种方法所对应的处理对象;重点研究了在网络调查中由无回答造成的 数据遗漏问题,通过对数据挖掘理论和方法的应用,本章讨论基于i d 3 算法的遗 漏数据补齐算法和基于粗糙集理论的r o u s t i d s a 算法,分析了两者存在的不足, 在此基础上提出了基于粗糙集的k - s m 算法,理论上该算法具有明显的数据补齐效 果。 第四章主要介绍网络调查系统( n e t s u r v e y 系统) 的实现。该系统主要运用第 三章的理论和算法,运用u m l 设计系统,n e t 开发工具实现网络调查系统,同时 该系统在具备网络调查问卷管理、描述性统计量分析的基础上,实现了数据的预 处理。 第五章主要通过调查实施,从三个方面考察n e t s u r e y 系统的应用效果:第一, n e t s u r v e y 系统在问卷生成、管理和描述性统计量分析方面的能力;第二,对 n e t s u r v e y 系统数据预处理算法作比较分析,考察两种算法的优劣;第三,重点对 网络调查和普通印刷调查两种调查方法对被访者的影响进行了实证比较,考察这 两种调查方法在无回答、问卷题目样式、行为与态度问题方面被访者的影响,从 而考察两种方法的差异。 第六章是对本研究工作的总结,并提出一些后续研究的期望。 5 江苏大学硕士学位论文 第2 章网络调查及其相关理论 2 1 调查及抽样调查 纵观文献资料,对调查没有明确的定义,一般的,对于不同的社会研究目的, 对调查的定义也不相同。l e s s l e r ( 1 9 9 2 ) 对调查的定义为【1 9 】:调查主要是借助某 种媒介,通过对某一代表个人、社会机构或团体的总体科学研究,从而来达到研 究人类群体的一般或特殊行为目的的一种手段,并对这一群体进行总体行为的数 量描述。调查包括普查和抽样调查。普查是对总体的每个成员进行考察,而抽样 调查则是只研究总体的一个科学样本。 对抽样调查的讨论最早可以追溯到1 8 9 5 年的国际统计学会( i s i ) 会议上, a n d e r sk i a e r 提倡在社会调查中应当更多的使用“代表抽样 而不是全面调查。在 后来的的论文中,a n d e r sk i a e r 表达了对“少量细心的观察的偏爱,这一偏爱被 当作抽样调查相对于全面调查的主要优点。在后期的研究中,除对抽样方法和理 论的研究外,大多统计学家对抽样调查的质量进行了广泛的讨论,即关注抽样调 查误差的分类、统计影响和对抽样误差的控制。 2 2 网络调查的概念、类型及特点 2 2 1 网络调查的含义 一般的,网络调查有两类含义 2 0 2 1 1 ,第一类为以互联网为手段进行的调查,在 这类含义下,网络调查是指根据客户的要求,通过网络技术获取研究所需要的数 据,并进行统计分析的过程或者对网民使用网络状况的调查分析过程。另外,该 类调查还涉及到“利用计算机为工具和利用能接触到计算机的人群来研究人类的 一般行为” 2 2 , 2 3 1 。第二类为测量互联网使用情况的调查,在此类含义下,网络调 查是指测量互联网使用情况或受众情况,如我国互联网信息中心每年两次进行的 我国互联网使用情况调查,该类调查的目的是测量网站的流量和网站使用者( 也 叫做用户、受众,国内俗称网民) 的数量、结构和行为。另外,该类调查也注重 网络广告方面的监测与调查,内容包括网络广告的发布量、网络广告被点击情况 6 江苏大学硕士学位论文 等。这类调查的商业价值与研究价值并重,因此其性质和重要性如同电视的收视 率、广播的收听率、报纸与杂志的阅读率一样。 2 2 2 网络调查的类型和特点 1 网络调查的类型 目前网络调查主要有三种方式【2 4 。2 6 】:一是视讯会议。它是基于w e b 的计算机辅 助访问,将分散在不同地域的被调查者通过互联网视讯会议功能虚拟地组织起来, 在主持人的引导下讨论调查问题的调查方法。二是主动浏览访问。这种方法是使 用程序设计语言设计问卷【2 5 1 ,然后在高访问率的网站或者具有较高访问量的网页 上设置该调查问卷链接,访问者按照个人兴趣,选择是否参与的一种调查方式。 三是电子邮件。该方法以较完整的e m a i l 地址清单作为样本框,然后对样本框里的 每一个电子邮件地址发放e - m a i l 调查表或者网络调查问卷的链接,被调查者收到邮 件后可通过电子邮件把已填好的调查表返回给调查方,或者直接进入问卷链接地 址而参与问卷的调查方法。一般的,后两种调查方法是最常用的网络调查方式。 2 网络调查的特点【2 7 。2 1 网络调查的及时性。网络上的信息传输速度非常快,一份调查问卷通过i n t e m e t 可以立即传送到世界各地,在短短时间之内就可获得大量的反馈信息,并且能马 上通过统计分析产生结果,这就保证了调查机构调查信息的及时性,这是传统调 查方式所不能比拟的。 网络调查的客观性和可靠性。与传统调查方式相比,一方面,网站访问者一般 都是对网络调查有一定兴趣,他们无须面对调查人员,可在一种轻松而从容的气 氛中回答问题,不受调查人员或其它外在因素的干预或误导,这很大程度上就保 证了网络调查结果的客观性和真实性。另一方面网络调查省去了传统调查的数据 录入环节,从而减少了数据录入过程中易产生遗漏、编误等问题。在自动统计软 件配合完善的情况下,可以在短时间内完成标准化的统计分析工作,保证了网络 调查结果的可靠性。 网络调查的低成本性和高效率性。在网上进行调查,无论是调查者还是被调查 者,只需拥有一台计算机,一个互联网接口就可以进行网络沟通交流。调查者在 网站上发出网络调查问卷,提供相关信息,然后利用计算机对访问者反馈回来的 7 江苏大学硕士学位论文 信息迅速整理和分析,是十分便捷的。其次,网络调查又不受天气、距离限制, 不需印刷调查问卷,调查过程中最繁重、最关键的信息采集和录入工作分布到众 多网络用户的终端上完成,可以无人执守和不间断地接受调查表,这大大地减少 调查机构的人力、物力的耗费;并且,通过网络进行的信息交换,节省了传统调 查如邮寄、面谈等耗费的大量时间,一般完成相同数量的信息量的收集,在网络 条件下比传统条件下要花费更少时间。 网络调查的广泛性。网络调查借助网络优势,广泛联系各网站联合进行调查, 调查问卷填答可以在任何有网络连接的场所填答问卷,不仅增加信息传播的效率, 也提高了调查问卷的效率。 网络调查的即时管理性。调查问卷一旦完成,调查者将问卷输入网络,问卷的 网络管理即时开始,调查者可以随时的了解到网络数据收集、处理和分析情况, 发现问题,随时修改问卷。 网络调查相对保密性。网络调查中,被访者是在独立条件下通过网络进行回答 问题,不仅不用面对调查员,而且可以不提供本人资料,这相对提高对被调查者 资料的保密性,从而相对比传统调查方式容易获得某些敏感的信息。 网络调查的趣味性。在设计网络调查问卷上可附加多种形式的多媒体背景资 料,图文音像并茂,趣味效果倍增。这是网络调查独一无二的优点,是传统调查 方式所无法比拟的。 2 3 网络调查非抽样误差的种类与计量 网络调查的结果是用于研究总体进行数量上的描述或者对总体不同部分相互 关系的分析性描述,也可以是对社会经济过程性质的解释性描述。当这种描述与 事实产生误差时,便产生了调查误差。 调查误差的分类方法有多种,在早期的一些研究资料中,主要有代表性的有 根据调查过程来分类【3 3 1 ,或者是根据识别这些误差所需要的信息来划分,也有将 误差分为可以通过重新作调查过程和不能重新作调查过程来确定。本文主要将误 差划分为抽样误差和非抽样误差。抽样误差是由于在设计调查时有意识的只研究 总体的一部分,因此结果中出现了误差,这种误差要针对实际问题进行分析,它 本身并不是数据或调查产生错误,而是一种刻意的安排,尽管这种安排会对调查 8 江苏大学硕士学位论文 结果产生影响。非抽样误差的产生原因很广,包括了除抽样误差以外的全部引起 调查误差的所有因素。一般的,一个完整地网络调查,其主要流程如图2 1 所示。 a b c 兰兰竺竺:竺兰 。 图2 - 1 网络调查的一般流程 f i g u r e2 - 1r e g u l a rp r o c e d u r eo fw e bs u r v e y 对应的a 、b 、c 、d 个阶段中,每个阶段产生分别产生抽样框误差、抽样误 差、无回答误差和计量误差,其中抽样误差是网络调查的特点决定的,我们尽量 避免。其余的三类误差是非抽样误差,对该类误差的讨论,是本文的主要内容。 2 3 1 抽样框误差及计量 1 抽样框误差 抽样框是指能够代表全部调查对象( 目标总体) 并可从中抽取样本的名录框 架。理想的抽样框应该由目标总体所决定并和目标总体完全一致。当作为研究对 象全体的目标总体与抽样总体( 样本框) 不一致的时候,抽样框就是“不完善的 抽样框 。用不完善的抽样框估计总体必然产生抽样框误差,降低估计效率。按 照j u d i t ht l e s s l e r 等在( ( n o n s a m p l i n ge r r o ri ns u r v e y s ) ) 中的观点【1 9 】,抽样框误差 是网络调查中的普遍现象,其主要来源于:抽样框丢失目标总体单位( 涵盖不全) 和包括非目标总体单位( 涵盖过) 。根据c n n i c 第2 0 次报告【l8 1 ,我国目前网民 主要构成如图2 2 所示,这种情况下,对于通常的民意调查,就算在非网民中剔除 1 8 岁以下的未成年人,网民所形成的抽样框也会遗漏绝大多数的目标总体单位, 9 江苏大学硕士学位论文 出现严重的“涵盖不全 问题;而同时,由于网民中还有相当部分的1 8 岁以下的 未成年人,又会由于抽样框中包含了非目标总体单位而出现“涵盖过 的问题。 m 民年龄结构 州7 嚣t 一7 i 翟鬟”? := + = _ = = := = = = = = = = = 竺= := = = = = = = n 一= _ ? = ,“:= ,:一一一。- ? := = _ o v = zn := i i = ? ? _ :_ :? = ,= = = 1 ( n ( w w w cn n i c c n ,2 0 0 7 。0 6 图2 - 2 我国网民年龄构成 f i g u r e2 - 2a g e s t r u c t u r eo f c h n e s en e f i z e n s 2 抽样框误差的统计计量 结合文献 1 5 、 1 9 】、 3 3 4 0 等对抽样框误差的讨论,本文总结并阐述如下。 1 ) 遗漏元素的误差计量 ( 1 ) 遗漏元素对总体单位标志总量的误差估计 假设每个元素对应一个独立的抽样框,并有: 他= 至( 胁+ 吒) ( 2 - 1 ) 胁、 7 这里,他是与抽样框联系的总体元素的数量,矾f 是与抽样单位正确联系的抽 样框单位的数量,脚表示抽样框的第h 组中第i 个抽样单位。舻j ,l 。由 此整个目标总体和总体总量y 分别为: n = n o + 儿( 2 - 2 ) 】,= y o + y a = 巧+ 巧 ( 2 3 ) 其中,虼表示与抽样框联系的第a 个目标总体单位的观测值,场表示遗漏元 素的观测值。这时,净误差或绝对误差和相对误差分别为: a b ( y o ) = 匕一】,= 一】,o ( 2 - 4 ) c o m ( y o ) = 了a b ( y a ) = 事 ( 2 - 5 ) l o 江苏大学硕士学位论文 ( 2 ) 遗漏元素对总体单位均值的误差估计 根据以上论述,假设r 表示均值比率,表示遗漏元素的比率,则: r :一g o ( 2 6 ) l w o :n o n ( 2 7 ) 由此,绝对误差( 净误差) 为: 彳b ( 弘) = 磊一歹= 等( 五岳) = 州五一y o ) ( 2 8 ) 相对误差为: :犁n o:型 协9 , 删( 五) = 孚= 半 ( 2 9 ) 考察上式,如果被丢失的目标总体单位的标志值均值较小,则由于丢失目标 总体单位而产生的相对误差较小;反之,由于丢失目标总体单位而产生的相对误 差会较大,即相对影响较大。 2 ) 抽样框涵盖非目标总体的误差计量 抽样框涵盖非目标总体是常见的一种抽样框问题,一些学者将这种问题称之 为“过覆盖”,将包含在抽样框中的非目标总体称之为“虚单位、“异常单位 。 当抽样框中包含有“虚单位”时,就会对总体的标志总量y 过高的估计,除非 通过可能的途径发现这些“虚单位 。利用前面的讨论,我们得到: m = 肘o + ( 胸+ m ) = m o + 胍 ( 2 - 1 0 ) 这里,g o 是抽样框中非目标总体元素的总数,g o j 表示与目标元素正确联系的抽 样框单位的数量,g f 表示与抽样单位不正确联系的抽样框单位的数量,尬是抽 样框中目标元素的总数,假设抽样框问题只存在过覆盖,不存在遗漏目标元素等 其他的问题,此时有必爿帆 ( 1 ) 过覆盖对目标总体单位标志总量的误差估计 设巧是第,个单位的观测值,但包含一些非目标元素。抽样框总体的标志总 量为: m 圩= 巧= ,;+ 矸 ( 2 1 1 ) 户1 江苏大学硕士学位论文 其中: m 0 蟊= 髟 ( 2 1 2 ) j = l a b ( y :) = 髟一y t = 】; ( 2 1 3 ) 相对误差为: c o m ( y :) = 竿= 半= 詈 协 从中可以看出,净误差总是正值。 ( 2 ) 过覆盖对目标总体单位均值的误差估计 设q = 鲁表示抽样框中非目标元素占抽样框中全部元素的比率,r = 事表示 非目标元素均值与目标元素均值的比率。这样有均值估计的误差: 净误差:么曰( 乃) = 百m 0l - - 7 一z ) = q o ( 霉一z ) ( 2 一1 5 ) 差:一。驴学咧肛q m 。,协 从上式可以看出,对非目标元素对调查的影响的测量,要同时对9 和r 进行 测定后才能得到。 在网络调查中,“过覆盖”问题是频发的。由于对抽样框的控制很难,特别 是在开放问

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论