（语言学及应用语言学专业论文）语音研究中的数据有效性分析.pdf

上传人：伐*** IP属地：宁夏上传时间：2019-12-07 格式：PDF 页数：53 大小：1.41MB 积分：0 举报 版权申诉

已阅读5页，还剩48页未读，继续免费阅读

（语言学及应用语言学专业论文）语音研究中的数据有效性分析.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

中文摘茧摘要本文的目的是研究语音研究中的数据的有效性。数据是结论的基础，数据的有效性鄂可操干鐾性是进一步分掇和做出芷确缝论的麓要基础。在浯塞残究中，我们睽使怒豹常常是原始数据，这裁意味麓，在浅枢将其应用刭骚究中之祷，登矮确定这照数据麓有效性。笔者认为导致数据失效的原因羔要有三个：数据抽样，极端值和样本容量。本文试图通过使闱统计学手段来分析语音研究中的数据有效性。同时，拟采用实验语音学的方法，利用实例来对以上分析结果进行验诞。关键词：有效佼统计学语音抽样极端值样本容爨英文摘纂 a b s t r a c t 啦sd i s s e r t a t i o nf o c u s e so nt h ed a t av a l i d i t yo f c h i 珏e s e v u l g a t es p e e c hs o u n d 。 ar e l i a b l ec o n c l u s i o ni sb a s e do i lr e l i a b l ed a t a 1 1 l ce f f e e t i v e n e s sa n do p e r a t i v e o f t h ed a t ai st h em o s ti m p o r t a n tc h a n n e lt od om o l ea n a l y s e sa n dt od r a wac o r r e c t c o n c l u s i o n 糖l a n g u a g er e s e a r c h e s ，t h ed a t aw eu s e da r eo f t e no r i g i n a lo n e i tm e a n s w em u s ta s c e r t a i nt h e i rv a l i d i t yb e f o r ew ea p p l yt h e mi n t oo u rr e s e a r c h 1t h i n kt h e r e a r et h r e ep o s s i b l er e a s o n sl e a d i n gt oi n v a l i dd a t a 砀er e a s o n s a r es a m p l i n g o u t l i e r a n de x t r e m ev a l u ea n dt l l es a m p l es i z e s oi 姆t ou s es o m es t a t i s t i cm e t h o d st o a n a l y z e t h ev a l i d i t yo f d a t ao f s p e e c hs o u n d i nt h em e a n t i m e ip l a nt ou s es o m e m e t h o d so f e x p e r i m e n t a lp h o n e t i c s ，t h r o u g has a m p l et op r o v em yc o n c l u s i o n s 。 k e yw o r d s ：v a l i d i t y s t a t i s t i c s s p e e c hs o u n ds a m p l i n g e x t r e m ev a l u e s a m p l es i z e i l 南开大学学位论文电子版授权使用协议 ( 请将此协议书装订于论文首页) 论文谗浙气昂数撕扯。f 好竹系本人在南开大学工作和学习期间龟作完成的作品，并已遁过论文答辩。本人系本作品的唯一作者( 第一作者) ，即著作权人。现本人同意将本作品收录于“南开大学博硕士学位论文全文数据库”。本人承诺：已提交的学位论文电子版与印刷版论文的内容一致，如因不同而引起学术声誉上的损失由本人自负。本人完全了解直五盘堂匿整焦差王堡壅：焦星堂位监塞数篮垄壶蓬。同意南开大学图书馆在下述范围内免费使用本人作品的电子版：本作品呈交当年，在校园网上提供论文目录检索、文摘浏览以及论文全文部分浏览服务( 论文前1 6 页) 。公开级学位论文全文电子版于提交1 年后，在校园网上允许读者浏览并下载全文注：本协议书对于“非公开学位论文”在保密期限过后同样适用。院系所名称：= 主学院唧至奄作者签名：j o 字学号：靠，。70 3 , 日期：坷年岁月z 牛日南开大学学位论文版权使用授权书本大竞众了解藤舞大学关于收集、保存、使用学位论文的援定+ 疑意如下蛋壤凑骞：按照学校要求撬交学位论文韵印嗣本和电予版本；学校有权保存学位论文的印制本和电子版，并采用影印、缩印、扫撼、数字化或其它筝段保存论文；学校有权提供目录检索敷及搓獒本学短论文全文或者都势魏鞠夔驻务；学棱骞校按有关援定商萤家有关部门或者机构送变论文的复印件和电子版；在不以赢利为目的的前提下，学校可以适当复制论文的部分或全部内容用予学术活动。学位论文柞者签名弘驾矿畦年月l f i 鑫经指导教师同意，本学位论文属于保密，在年解密后适用本授权书。指导教师签名：学位论文份者签名：舶、字鳃密时间：年月日各密级的最长保密年限及书写格式规定如下： 1” 4 。p ” 1 走邦5 竽? ( 最长毒警，霹多于5 年) i= 。 j+ = 秘密i o 筝t | i 醺长l 尊簪_ | 可少予l o 年) ? 。| ，；i _ j i 1一!j ! 桃密参2 0 年( 摄长2 0 譬，霉乡霉：2 0 年) rj 叠，。：“ 。二一一。，一= _ 一一i 。_ 一。! 曼j 。二南开大学学位论文原创性声明本人郑重声明：所量交的学位论文，是本人在导烬攒昌下，进行研究工作所取得的成果。除文中已经注明弓l 用的内容外，本学位论文的研究成果不包含任何他人创作的、已公开发表或者没有公开发表的律品的肉容。对本论文所涉及的骈究工律做出贡献豹冀也个人和集体，均已在文中以唆确方式标骥。本学位论文原剑性声骧酶法律责任由本人承担。学位论文作者签名：年月日第一章撮逑第一章壤述繁一繁阉耀翡鬟出数莛熬鸯效瞧努辑，怒绫毒分辑孛熬令爨不霹少熬部分。对于获得一个有力的结论，数据及对其科学分析至关霪要。如果使用数据之 l 蓼，不麓磕定其弯效装，裂基予这些数擦襞褥终论懿霹嚣囊及蠢力度器霹藐地加以商榷；而如果仅仅分析数据的有效性，而不对其内部隐含的规律性进行进一步弱科学探索，援仅鼹数据蕨爱跌豹特点骰爨攀、素黢豹麴镳蓉维，那么这凝数据所蕴涵的太部分商用信息将被忽视，我们收集的这些数据的很大部分徐壤也就是嶷淡失7 。作者拟针对语音研究中数据有效性分析的需要和意义，结台观察和吏验，使惩统计学手段傲如一些探索。第二节数据有效性分析初论 1 2 1 数措有效性分析的观念绫诗攀是一个攀稀体系豹慧名称，毽旗自然技术方瑟鹣统诗学( 数莲统计) 和社会经济方面的统计学( 社会经济统计学) 。语音研究中，我们需要使用的统谤穷法震予数理统诗学部分。数瑾统诗是磐莓遴瑟羧撵毅祭、整璇，诗冀、分析和推理判断的科举和工具。数理统计学的内容包括两个方面：一是对原始数据佟壤搔投熬接述+ 铡懿，穗援数攥壹接谤算其乎辫篷、审篷、众数、耱；猴羞、方嫠等等，可以称_ 乏为描述性统计学。二燎进行统计推理：统计推理是个复杂麴过程，箕涉及蘧橇麴榉、参数蘩诗、鬏设硷验、方差分爨、穗关势瓣鼗霾归分析等等，可以称之为推断性统计学。谶言学上最有用的统计筝段，还是统攘理部分。但不磐是接述性统诗擘还是捺凝性绕诗学，蔟基礁帮疲该莛蠢效的数据。饭何一种统计方法的基础都是：攀先对数据详细的、严格的审查。合格的统计实际工作袭总是毙洋细察霉数握，然后方提出慧錾统计量农娱设梭验。这样，对数据的进一步分析，将基铲对原始数据的清楚认识上。之后再判断、选撵使用一融姆懿数据处璞彝假设检验方法，方霹使硪究互终达到事半功绩戆第一章概述效果。要提蔫数据泌骞效性，罴要对数据遴撂撵索性公爨。 1 2 。2 语言麟究中的数据鸯效燃分掇对人类语音系统驰共燃及个性约研究霹戬遥过褥静途径进幸亍：一糖是定性的方法，另一种是定摄的方法。在囊然科学硪究镁域，人们阜就使用统计方法对数据进行定量分析。然而，虽然语言研究也离不开数据，而且人们对语富学的研究由来已久，但在语富学的一系列学科的研究中，传统上( 尤其炬生成语法) 常常镬溺豹蹩定瞧研究( 鼙“ 誊瑟帮控”) 静方法，褥禳少使孀定豢的、推理的分辑方法；鼹使锼鼹了，也仅仅是“食缕性”妁，靼将统计公式羹接套建在语言学中，面没有对数掇进行更准确、更有效的分析。在语言举研究中收集到的数据很多怒原始数据，其中的规律是隐的，若不经分析和总结，这魏数据狠难体琉价值，穰难有篪垂掌意义。所以，必须对爨始数摄进行处理帮搬工。在这个懿毽秘掇王过程孛，淡粕霹鞋搜用邋合懿统计学手段。譬如在实验语音学中，考察某种语言的声调格局时，我们需要对某两懿发音人所发的菜类特定向子的首音节音长进行实验研究，然后甜实验数据进行一系列释举势掇，最终簧褥到一个定搜鹊缝论譬蛰这结论为：慧褥说栗，箕中一类发密人所发的这类特定句子的首啻节的音长叱努一类发誊人痰发的要长) 。通常的作法是：根据经验和对数据的直观观察，或鬻直接使用相威统计公式，即可做出一个定性的结论。一般而言，除去其在语言学研究囱身中的重要意义不谈，帮使辩僚语音合成等等这样的径会应用箍言，这粪定住豹络瓷氆是不充分的或蠹甚楚是没有意义黪( 特别蜷，对予逶啻含戒，我魍樊嚣要戆楚这耆长具体长多少、这个结论的可靠性究竟有多大) 。尤其是，如果没有第一阶段的对数据有效性和可靠性的探索分析，对于这类的要求，传统的简单统计推理分析就显得远远不够了。就时，对语言研究中的数据，采用更加科学的统计学方法，进行接理戆帮有效戆分撰裁笼为霪要了。近魑年来，一些语言学家开始将统计学知识应用予谗塞终辑锻究中。如剑桥就将统计学家a n t h o n yw o o d s 和语言学家a r t h u rh u g h e s ，p a u lf l e t c h e r 合著的 s t a t i s t i c s i n l a n g u a g es t u d i e s ) ) 定为语言学系列敦材之一。在围内，研究语言的论著串，林连书静藏用语言攀实验磷究方法( 2 0 0 1 ) 帮张翌国静汉语骈究粲一章概涟基本数理统计方法( 2 0 0 2 ) 就是两本关予语言研究中数掇分析的专著。假总的说寒，关予统计学瓣专萋数虿羧数，然惑入艇对予语言枣熬统诗方法鹃磅究还是不足的。而且，即使关于语言中统计方法的研究的专著，其对语言研究中的统诗方法懿硬究壤仅仅谬黎在奔缓穗麓擎农瘸戆塞乎主。在对语富疆究枣豹数据有效性分析这个研究领域，国内尚属空自，国外也没有专述。即，语言研究中对数据的处理，基本上逐停壁在楚单罗捌窝羟缡残壹搂套建统诗公式土。 1 2 3 名词解释筏销毙全文串燕要静名词勰释鲡下： 1 抽样( s a m p l i n g ) ：从统计总体中，任意抽出一部分单位作为样本，并以其结果搀算总髂豹相应攒标。 2 极端值( e x t r e m ev a l u e ) ：亦称离群值戚边远饿，即在观测值中远远偏离数攒主体帮分靛令爨篷，这魏氇不筑鼹蔽骰定靛獠攀分布。 3 样本容凝( s a m p l es i z e ) ：样本中个体的数目，叫做样本的容量。第三节本文麓目的、内容、方法本文敬曩的是研究汉语语言磺究孛蛉数据的有效性。研究黪内容包攒：诿音研究中韵数据特点和使用目的；导致语音研究中数据失效的主要原因，并针对不同的原因。分别从数掇抽样、样本窑爨和极端值三个角度出发，进稃绫诗学上的处联。本文以数据有效性为切入点，使用统计学手段对语害学研究中的数据傲一垡推理和搽索性分析。使粥的方法定要是缀计学的方法。先对语音研究中的数据特点有所把握，然后针对各个失效原因，采用不同的实例，使用统计学方法、 s p s s 统计软件进行分柝楚瑷。第篡章鼓搬抽样导致数据失效的分析第二章数据抽样导致数据失效的分析第一节数据抽样及奠可靛罨致的淡差蠹榉壤率接撵) 露戮分蔑等壤率擒撵靼不等概率接徉。等概率抽样又可分为简单随机抽样、分层等概率抽样、等概率整群抽样、等概率系统撼榉裒等攘率多羚段麴榉( 霹遴紫蘑游熬簿萃蕤税撼徉、分爱掇群、整群抽样、系统抽样和多阶段抽样) ，不等概率抽样也同样可以分为简单不等概率羧样、分屡不等摄率麴梯、不等概率整群撞襻、不等壤攀系统懿样嚣多貔段不等概率抽样。抽样调套戆误麓，是撵零懿菜一轰诗傻与总髂对应参数豹真篷戆差距，这个麓距的大小直接关系到该估计值对总体参数估计的准确稷度( 赵俊康，2 0 0 2 ) 。从壤论上，缀撂形成误差驰原爨，霹以将擞榉调查孛豹总谖差分戈糖榉谡熬霹非抽样性误差两部分，我们可以通过控制这两类误涟来提离数据的有效性。抽样谡麓，又称随机误差，伴隧着抽捞调查焉产生。怒由榉本与总体的睫机麓异产生的，是光法避免的，通常所计葬的抽样误差就怒这部分随机误激。抽样误差，叉称系统误蓑，主要是受人为陵素的影响丽产生的，从理论上看，这部分误麓是可以避免的。根据误差理论，测定抽样误差的指标是均方误麓m s e ( m e a ns q u a r ee r r o r ) ，其窜叟为 m s r ( 1 ；) = e ( 0 目) 2 = v ( 0 ) _ 序其中， i ；为总体参数的估计爨，v ( 巷) 二：e 【鸯”e ( 毒) f ，为佑计量h 的方差，啦此表示抽样误差或隧机误差。 b 二| ( ) 一氆，为 # 抽样落差或系统健误麓。抽样误麓和非抽样误麓这二者之间呈现此消彼长的关系，一般情况下同时减少两类误差是缀困难豹。这蒇不褥不考虑掰种误骜对箍样调查结采酌影确。一般来说，抽样误差可以事先计算并加以控制，而非抽样误差的计量和控制则相对院较困难。在菜些场合，菲翻祥误差对抽样缝巢豹影嫡有可麓超过攒祥误差。两人们在进行抽样估计时，总是假定不存在非抽样误麓，但完全消除非抽样误麓是不可麓静。下图直观地表涿这两种误差的存在对抽样调查结果的凇确性的影响方式( 杨清，1 9 9 8 ) ：第：掌数攥抽样导致数据失效浆特糖圈圈回囹图2 1 两种误差对抽样谔蠢结粜准确性的影响方式图a 表明，样本估计值分布集中，随机误差少，估计糙确度麓，分布的中心与总体真德重合，表明不存在编差( 卵系统性误差) ，敏总谖差小，估计的准确较高：图b 寝明，样本估计馕分布不集中，随机误麓太，傲计精度低，由于分布静巾心与总体静真谴重合，放不存在偏差绒系统後误差，缳由于随机误差大，故总误差亦较大，估计的凇确度低：图c 袭明，桴零估计俊分布较集中，髓机误麓，j 、，髓分布的中心偏离总俸粪德，存在系统散误差或偏差，储计的精确度虽然高，但由于系统性误麓的存在，使总误差增大，故估计的准确度较低，但若这个分布鹣镶蔫獠度较小，静系统往误麓较，j 、，穗于其储计精度较高，所l 冀，尽锗是存在系统性误差的估计，由于总误熬可能亦坡小，这个估计仍是可取的。这个系统憋漠差或偏差鬟底多大燕霹取静，可设法妖理论土给密个蠡静判断标准；图d 表明，样本估计值的分布较分散，随机误差大，且估计值的分布偏离巾心，存在系统镶误差，敬较大瓣涟瓿误差纛系统往诿藏静存在，镬息误差很大，估计的准确度很低。缢上巍耪蒋瑟麓观建攥述了箍掇误差耪系统整误差对獭徉蓓势准礁程度豹影响，有以下关于上述四种情况的分布图：墅2 2 睫撬误差摹瑶系统睦误差慰箍撑售计准确毪程度熬澎睫第二常数握抽样导系效糖失技的替楫从理论上讲，在偏差( 或系统性误差) 存在的情况下，干扰估计的准确威的量是德差b 对慈体标准差器豹魄率b 咎。铡翔，镳差黠予鑫诗戆误差菠潮大于l 。9 6 0 的概率的影响见下凌：胁左尼溉皋右尾概率总和 o c , o 0 2 3 8 o ，0 2 6 2o0 5 0 0 n 。艇e 。鼹勰 e 。8 器4 e 。q 5 0 2 罄1 0o 8 1 9 7昏、0 3 1 40 ，游i l o o o l 甜o ，仍9 2o0 5 辐 1 0 00 咄0 1 6 豁o 1 7 d o 1 mo o3 2 2 8o 3 2 3 l 蓑2 i 偏麓橇率袋执上表可以看出，对于估计的误罄薄围大予1 9 6 0 的概率，若存在偏差，且偏差小于i i o 的标壤蓑，那么偏差螅影响也缀小；獭偏差等予标准麓的 1 1 0 对，总的概率怒o 0 5 1 1 ，而不是在无偏估计情况下的0 0 5 ；糟偏差谶一步扩大到等于标准熬时，则总的概率为0 1 7 ，偏差的干扰就比较严熏。所以，翔斯一个有偏差影确的估计是哥戳按受的蠢豹标准怒b 0 , o 1 0 ，这可以作为抽样实践中的一条工作规则。但是，农抽样调盎实践中，导致产生偏麓( 或系统性误麓) 的原爨是多种多样豹，其中只有在使麓有偏静估计量时方可在数学上摅到比例b o 的上限，而在其他大多数存在系统性误差干扰的情况下，贝难以找到一个可靠静b o 静上限。茵就，育赫簧迸一步分耩锫释产垒系统往潺差豹原因和处理办法。 2 1 i 抽释浚差抽样调焱是利翅所攮取戮懿榉零计算瓢爨鳃群本统圣爨来接凝总体统诗量。样本指标是一个随机交蠹，它岛被估计的总体指标之间，总是存在着装种离茇，这种离差就是抽样误簸，这秽误差是霞有的，不可避免的。统计学上可以从三个方面来考察抽样误差：l 、抽样平均误差；2 、极限误差；3 、可冀性及其袭示方法。分析诞明，抽样调查具有一是蛉可靠性，剥用可 6 第= 章数搬抽样导致数据失效的分柝靠性理论对抽样误麓大小避行控制，就会褥到趋近总体的结论。由于我髓进髫语塞职究戆重点是发援语音援德，数豢分撰莛终兔手毅。悉统计学中关于抽样误差的部分过于繁复。在此不作为本文阐述的羹点。 2 。，2 攮样误差 2 1 2 1 非抽样误差的来源抽样谴查静每一步郝怒# 撼榉误差熬漤在来源，簌熬榉设诗、逶过撵零攘选、资料搜集到对资料进行编辑、编码、汇兑和制表全过程都可能产生非抽样误麓。如：在调查设计酚段嚣要确定要使惩舱一些概念窝定义，蓑其孛一揍概念和定义下得不恰溺，结聚没有把一些单位包括在调查范嗣内，有些概念购定义褰易弓越误解等糍可能产生严重戆抽样谈差：奁羧定逞焱表戆，一些目爨懿提i 蠢使人填错地方；样本抽选时没有严格遵守随机原则：对现场调查工作的有关搬示没鸯根好地表达或传达，如调查任务没有翳释清楚会使瑷场工非人爨餐行蕊事，辫释过多r 可能使他们遴感不解，如果指示本身意思不明确，就w 能引起各种备样的误解，调套人员选褥不合邋或没考缀过适巍的培训，健( 她) 就研能遗漏一些单彼，或把一些边缘单位慧复两次减多次，有些情况下也可能在调查中掺杂一些自己的想法和意见并传染给被调嶷人员，调查人员的言行举止搬可匏会使被谲赢入员戆戮反感黼拒绝撼供回答等等；被调查人员有自融的想法，这些想法可能与调畿人员的懑圈不间，这种情况下，回答者可能根据皇己躺意识更改应该缭出携潮答，尤其魏果德( 她) 讯为调豢的数播将用于对自已不利的非统计目的，那更会如此，等等。这些都不可避免会引起q # 抽样谈差。 2 。1 2 2 菲抽释误差韵分类为了便于对非抽样误差进行有效的控制，必须澍它进杼分类。在菲稳样误差瀚分类上，壹1 9 0 2 年k 皮尔逊蓄次讨论菲捕梯误差这个概念以来，一赢没有一个统一的分类：裁萌被调查入受理解。口) 提高调蠢人员专蝮素质。口) 在条件允评的情况下尽可能选择合适的被调蠢人员。口) 对参与调查的人员予阻物质域精神上的奖励，以防止不回答螅传染。第三章样本窖量分析第三章样本容量分析第一节样本容量的概念及不合理的样本容量可能导致的误蓑 3 1 1 样本密量的概念统计擎审，祥奉串个体豹数嚣，朝徽群零静容豢。在擒群调查中，弦设肖样本x 。，x 2 ”，x 其容量r l 的确定，是经常要遇到的问题。容量r l 太小，估计问题不那么耱臻，硷验阉题不梯么可靠；容羹n 太大，又会遥躐人力貔力翡滚费。只有选择合适的样本容量，才能比较经济准确地对总体参数进行估计，对有关假设逡幸亍群擎检验。 3 1 2 不合璁的样本容量可能导致的误差在组织抽样调麓时，应当确定多大规模的样本，燎一个非常重要的问题。抽样数曙过多会造成人力、财力和对闻姻浪费；抽样数恩过少义会使调查结果骶能发生较大的误差。黼任何撩祥方式帮必须获得一个规模有限、尽可能反映总体特镊、接近憨俸情况的样本。统计研究者张鞠友认为( 张国发，2003 ) ，样本单位数取决予以下几个因豢：l 、总体各单位之间标志的差异程度。拔调查总体各浆位之间标志的楚异程度o2 或p ( 1 - p ) 越丈，需瑟抽取调查豹样本单位数也越多，反之亦然。2 、容许误蓑的大小。容许误差越小，抽样误差也就越小，抽样调查的结果的把握程度就越大。所需样本单位数应趣多，反之亦然。3 、箍样方法。在褶同静条侔下，举重复抽样比重炭抽样所需样本单位数少。4 、抽样方式。在一定的样本规模条件下，分豢撼徉、有关标淼等疆捅样宽篱摹随辊糖样、整群箍稃掰需豹稃本荜位数要少一些第二节语音研究中样本容赞的确定许多语音研究实践中需要对研究对象避行调誊、实验和溺萋，激期获得事实资料和数据。但是，由予语音本嶷的自然属性，不可能对研究对象总体中的每个个体郝逐一谶行研究。通常的做法是：按照蘸梳静缀羽，执研究对象瀚总体中抽取一部分加以研究，并根据获得的数据，对总体对象进行估计和推断，第曼鬻样本容量分析以达到了解总体的目的，这就是随机抽样。磷究审采用熬撵豹方法，蚕仪霹鞋带省大力甥力，缨短羹辩戆整理分橇舞间，从而提高研究工作的经济性和时效性；同时，由于样本数目相对较少，可以对样零避霉深入懿分攒磅究，以提蹇炎粒分摄懿准礁靛。更重要戆是，峦子许多语音研究的对象是人，一些实验、测擞可能会影响研究对象的心理和行为，挞撵鹣方法霹尽爨避免对磺究对象总体黪“污染”秘伤寒。但在现行的语音研究中，由予抽样存在着许多不足，从而影响了抽样的作鼹秘整个臻究毂结果。具体表现在戬下忍令方覆： 1 ) 一些研究，没有随机抽样，仅通过随意选取的方式对语音材料进行的实验，就将媸论总结失一般规簿； 2 ) 许多研究者认为样本越大越好，如槊可能激好是不抽样，赢接对总体进程研究误差才最小； 3 ) 一螓研究萤已考虑别样本大小等因索对结聚的影响，但对统计书中的复杂解释望两生畏； 4 ) 一黪研究没有考虑羽具体抽样技术对结果的影响抽样的一般稷序为：援定总体：根据研究谍题，对研究对数的整体做出鹈确的定义；选取样率：估计所需样本的数囊，并采用适当方法抽取，使其具有代表憔：统计推断：根据样本的统计数据，估计总体的有关参数，其中，选取能代寝总体虢样本怒至关重鼗的样本太小，箕局限佳会增大，僵不象一蠛人认为的那样一样奉越大越好，最好不抽样筒对总体进行研究。因为这样不仅有哥链伤害憨棒，丽艇由子大量的又参与资料静收集与处理，操作诶麓和数据加工嫦方面的误差会剧增，从而影响了研究的准确性和可靠憔，形成j p 抽襻误差( n o n s a m p l i n ge r r o r ) 。鞠反，抽样资辩通常峦专泣研究入员处理，不仅能消除q # 抽样谈差的影响，而凰可以对样本进行更细致、更深入的分析与测试，麸慈提高研究鹃霞蠢。 i 。0 6 8 。2 7p a 3 1 ，7 3 b 1 + 58 6 。6 4p s l3 3 6 b a 2 09 5 4 5p - 4 5 5 b ；z 2 59 8 7 6 p = 2 6 3 ) 。据禧疆艨示，玄嬲都是极大离群擅，分烈是2 6 3 ，2 6 8 ，2 7 4 。又据描述统计数据表有：x + 3 s 一1 5 7 i 5 + 3 3 5 = 2 6 2 1 5 敲戳上三个稷端值都可以会去。以下即可利用处理过的数据进行下一步正式的统计攫理了。第五章一个例子第五章一个例子瑷爨实验浯誊学黪一令铡子寒谈疆语瓷研究中数据裔效後分析静避程及意义。实驶目的：估计一个高平人喉塞诲的平均时长。实验方法： 1 发寄词表设计：奁孀统计学方法控制透宣样本容量前，檄据中国社会科学院语害职究鼹绽撰瓣方言调查宰表及由蘑嵩平罐鹣入称代淫( 矜翳， 2 0 0 5 ，特刊，见附录1 ) 一文中所归纳的啻系，设计2l 对字( 周以估计单字调喉塞音音长) 和相成的21 对词( 用以估计讲流中喉塞音音长) ，每对字和词中，前一个包括一个喉塞音尾字，后个包括与其韵母和同的舒声字，且这擅字、逶游是鬻耀抟。( 冤瓣袋2 2 选择发音人：女，纛十六岁，其父母均为毫乎人。本人一妻艇淫疫寒乎，不会讲普通话 3 语音材料录音：请发音人先熟悉发音词表，每个字、词读一遍，进行秉音备糯 4 。实验仪爨：鹰嚣大学秀发戆谬啻分辑较静“桌上遴啻王俸室” ( m i n i s p e e c hl a b ) 具体分析：首兔，程避彳亍具俸实验之前，为涟行数据肖效髋控带9 ，应该先进行数据抽撵瓣键纯，狱减少实验结暴熬系统误莲农箨系统误麓。东本铡牵，这主簧体现在两个方蘑：发鸯词袭的设计及发老人的选择。设计发啻词表蹬段，选择喉塞音例字和例词时，一定要遵循随机抽样的原则，使每组使用频率不同的例字和例匈有相同附概率被选入词表。对发音入的选择上，也应遵循相关语音学及统诗学骧爨。魏处不侉赘述。接下来，在邀霉正式数握采集之兹，威该先确定最键艇群本窖爨。蓠走，我们使用已设计好的词表的2l 对字，请发音人将每对字读一遍，得到21 个喉塞音及非喉塞脊数据。戳下为稻应字、词豹基频围；曼至曼= 土塑王篓e = - i _ = i i 弋= 一 1 2 _ - - - - _ _ _ _ - - - ”_ - - - - _ _ _ _ - - - 二- w w - - * - - h - - - - - _ _ - 二。m ，。，j 二一，一 251。，。，。，、，。，。一，矗：烂轴邕：麓b = 。 2 # l ，。，。，。，。，。，一，0 ：2 = = 3 = = = 奠一 j _ _ _ hhh 霸一：- 卫丹封啊肼- i q 飘刀t _ i h n 。_ 、一 h1 h 删q 1 _ _ 第五章一个倒早篡匕三二二二三二二二三二二5 = 二= 三二二三三二 2 日- w - - - w - - - - - - - - - * - - - - - - - ：- m - w - ”- - - - u * - - - 一 s m j j 4 q 一 1 二! 二s ：=二兰墨= = i 0 舅l 二雄“h “- “s 1 【2 二二二二豳匝茧堕药匾亟匠西匿匿正二二= 二二= 二= 2e；。，。，。，。，一i 。_ v 、“、一、t 2 # 6 蝴- _ _ m 一【一未苎熬曼! 曼点查壁篓蹩! 笺：茎苎曼! 曼曼一 z 5 l 。，。，。，。，。，：i 羔3= = l 。jj “j 从基频爨中可以壹观遮器出，无论是肇字谖巾还楚双字调中，喉塞毒瓣考长一般短于相威的舒声韵：而这种长短对立在双字调中表现更为明显。整至篓二2 型兰鞋下统诗出这些音长熬兵俸数字，如下( 鼙位：m s ) ：单字调双字调单字调双字调 f 喉塞膏尾舒声喉寒音尾舒声嗾塞音尾舒声喉塞裔尾箭声八爸a 丸爸麓铁街铁裁j 街 2 6 03 6 02 3 l o3 4 03 5 01 4 03 9 0 拨把拔草把筝缓熟绞农知遵 3 4 0 3 3 0 1 8 0 1 8 0 3 0 0 3 2 0l l o2 8 0 发他头发他们窟太宽摩太原 2 7 01 9 02 1 01 9 02 9 02 9 03 8 02 1 0 落螺落后海螺尺迟米尺迟到 4 3 04 3 02 8 0 5 2 02 8 0 3 3 02 8 01 9 0 寨灾书桌火柴笔比铅笔陇赛 3 2 5 03 3 0l 豹2 s 。3 柏3 7 01 3 0 落赝落谖所长羯鞭臻球考嚣 2 7 0 3 2 01 7 0 1 8 03 1 03 4 0 1 5 03 4 0 百败兰百败嫩滴地滴水张地 2 9 03 8 03 2 02 3 0 3 0 02 8 01 6 0 3 4 0 白拜白菜拜年木路红术小路 3 3 03 4 01 9 0 4 9 04 l o3 l o2 7 04 4 0 麦卖小麦卖书福挟福气扶手 4 e 03 9 02 2 e3 0 e3 0 03 3 0 嚣o2 2 0 别解黪利解敷瘫妒瘫疯妒灰 3 6 02 8 03 1 01 5 03 8 0 3 5 02 8 03 4 0 灭鞋消灭穿鞋 4 2 0 3 5 0 2 6 0 3 5 0 分类列避表5 i 啬长数据表第五章一个例子攀字谲：曦塞音2 6 03 4 02 7 04 3 03 0 02 7 0 2 9 0 3 3 0 4 0 03 6 0 4 2 03 4 03 0 0 2 9 02 8 02 8 03 l o3 0 0 4 1 03 0 03 8 0 爨声3 6 03 3 01 9 04 3 02 5 03 2 0 3 8 03 4 03 8 02 8 0 3 5 03 5 03 2 0 2 9 03 3 03 4 03 4 02 8 03 】03 3 03 5 0 双字调：喉塞音2 0 01 8 02 1 0 2 8 03 3 01 7 03 2 01 9 02 2 03 1 0 2 6 01 4 01 1 03 8 02 8 03 7 01 5 01 6 02 7 08 02 8 0 舒声3 1 01 8 01 9 05 2 0 1 6 01 8 02 3 0 4 9 03 0 01 5 0 3 5 03 9 0 2 8 02 1 01 9 01 3 03 4 03 4 04 4 02 2 03 4 0 要进行样本容量的最优化，可以采用以上样本容罱分析中的公式( 4 ) 进行计算：先计簿已考数攒懿两个绞诗特征毽；擎字调喉塞啻耍= 3 2 6 。6 7s = 5 3 4 1 7 舒声字i = 3 2 6 1 9s = 5 0 1 4 7 蹶字调喉豢音】l i = 2 3 2 8 6 8 - - 8 4 2 1 1 舒声字耳= 2 8 2 。8 6 8 - - - - 1 1 3 4 0 8 翔s 弋警o 来确定磺褒懿糖确凌：对于单字调喉塞音，取置信度为9 5 ( 即显著水平为0 0 5 ) ，若我们只有2 1 个样本，即n = 2 1 ，若取b = 2 ，则精确度a = 0 4 3o 。若隳达n a = 0 1a ，餮信度为9 5 ，若取b = 2 ，受j n = 4 0 0 。其继珏释德嚣类钕。霹以爱出，由予双字调的舒声字的标准燕最大，那么崧相同蛇置债水平下，臻取得与其他童种情况相同的精确度，其样本容墩必然比其他三种情况耍大。本镄取精确畿为a = 0 4 3o ，羹 l 霄戳整弼这个容嚣为2 l 静样本。以下对这烂音长数搂进程分攒： 1 单字调：将喉塞音及舒声字音长分别输入s p s s 统计较件中，褥到一些基本统计数据：第五章一个例子 s t d ， n m i n i m u mh a x i m u mh e a nd e v i a t i o n 荤骧2 l 2 6 03 e3 弱6 75 3 。4 1 7 单舒 2 l1 9 0 4 3 03 2 6 1 95 0 。1 4 7 v a l i dn ( 1 l s 娴s e ) 2 1 袭5 。2 数据箍遽统诗袭此袭内容为数据的一般描述性特征。如，单字调喉塞嵌共肖21 个数据，其中音长值最小为2 6 0 m s ，最大值为4 3 0 m s ，均值为3 2 6 6 7 m s ，标准差为5 3 。4 1 7 ：葡理，单字调舒声音共有21 个，其中鬻长值最小为1 9 0 m s ，最大值也是4 3 0 m s ，平蝣篷秀3 2 6 。1 9 m s ，标准差为5 0 。1 4 7 。这表筏，这令发音久新发静这2i 对鼙字调喉塞啬和相应的舒声字鬻，乎均啻长基本无差别( 3 2 6 。6 7 m s 秘3 2 6 。1 9 m s ) ，而且两组数据的离散程度也相近( 5 3 4 1 7 和5 0 1 4 7 ) 。如果不对数播进行有效性分析，直接使用它们用以估计这个发音人的发音特征： g r o u ps t a t i s 蛙c s l 嚷塞蛰n h e a ns t c l 。d e v i a t i o ns t d e r r o rm e a n i 单字膏 l2 13 2 6 6 75 3 4 1 7 1 1 6 s 6 l 02 1 3 2 6 。转5 0 。1 4 7i 0 。9 4 3 表5 3 分类数据基本描述表 z n d e l 地n e k m ts a m p l e s t e s t l - r h e a s 磁 f i x5 q i i t r o f v a r i a n c e s t - t e s t f o r 翻蝈虢v o f h e a n s s i g - h e a ns t d e r r o r9 5 c o n f l d e n c e 蠹谴e 咐i o f f s 鞫 t群 ( 2 髓j i e d ) x f f e r e n c ed i f 怕t h e0 i f f e r e n c e b r u p p e r 单譬音歉lv a r i a n c e s s 撺3 2 e0 3 04 09 7 6 锵 1 5 9 8 8- 3 1 8 3 7 3 2 7 9 0 a s s u m e d e q u a tv a r i a n c e s 0 3 0舯29 7 6触1 5 蝴- 3 1 8 4 13 2 7 9 4 n o ta s s u m e d 袭5 4 啦骏表获表率胃浚看接，t = 0 0 3 0 ，p - - - - 0 。9 7 6 淹( 一g 0 5 ) ，攀我稻褥崮瀚结论是单字啻孛喉塞蛮字与餐声字拳长没旁曼萋不嗣。但是，如果分析之前先对数据进行有效性分析呢? 此例中，我们可以对投瑟僚进行讨论：使f b s p s s1 1 s 统计软件骰出这2 1 对数据的相美图表，如下： c a s e s v a l i d m i s s i n gt o t a i np e r c e n t辩 p e c e n t瓣轴黼嗽单喉2 l i 0 0 0 o0 2 l1 0 0 0 蕈箭2 1l 。o 8 o o 2 l1 0 0 o d 酋；c 一懈 s 谊鼬s 皤e r r o r 单堠m e a n3 2 6 辩 l i 。6 s 6 9 5 o 翻e n i b b 凹v a l f o r m e a nl o w e r b o u m 3 0 2 3 s l 睁p e r8 棚 3 5 0 辩 s t d r n m e 4m e a 幽鹞 m e d l a n 3 0 0 o o v a e a n c e 2 牺。3 3 3 s t d d e v f a 咖5 3 4 1 7 秘衲i m u m2 6 。 m a x i m u m 4 3 0 r a n g e 1 7 0 i n t e r q u a r l er a n g e毒曼 s k e w n e s s 7 4 05 0 1 k u r t o s i s、7 亭i9 7 2 单舒m e a n3 2 & l g i o 朔3 9 5 c o n f i d e n c e 黼e r v a l f o r m e a n l o w e r b o u n d 3 0 3 筠通，p e f 嘲n d 3 4 9 麓 5 t m m e dm e a n3 2 7 9 6 m e d i a n3 3 0 o o v a d a n c e2 5 1 4 。7 6 2 s t d d 朗- 偌d o n5 0 1 4 7 m i n i m u mi 鲐 m a x i m u m 帕0 r a n g e 2 4 0 i n l r q u a r t j i er a n g e 5 0 。 s k e w n e s s一7 4 55 0 1 珀h t 。s 活 2 i 糖7。孽2 表5 6 描述统计数据袭第五章一个例子 h - 潮m m z 巩o 弧口”帅端日咖釉革暧图5 1 单字调喉塞音耀数据直方圈摹堠s t e m a n d l e a fp t o t f r e q u e n c y s t e m 叠l e a f 7 0 02 6 7 7 8 8 9 9 8 0 0 3 0 0 0 0 1 3 4 4 2 ，o e 3 6 8 4 0 04 0 1 2 3 s t e mw i d t h ： 1 0 0 e a c hl e a f ：1c a s e ( s ) 图5 2 单宇调嗽塞音尾数据茎叶图匿5 3 单字调喉塞赘尾数据箱豳 3 3 第五章一个例平 h t 曲。g m m 摹母醋5 ，4 擎字调舒声数据直方辫攀好s t e m - a n d - l e a fp l o t f r e q u e n c y s t e m l e a f 2 0 0e x t r e m e s( = = 4 3 0 ) s t e mw i d t h ：1 0 0 e a c hl e a f ：lc a s e ( s ) 图5 5 单字调舒声数据茎时嘲闰5 6 鼙字谲薷声鼗据籍强一一苎薹兰= 尘塑量其中，最羹琴的是茎时豳( 单喉s t e m - a n d l e a fp l o t 窥单舒s t e m - a n d l e a f p l o t ) 。图中可戳看出，喉塞音的2 1 个数据分布于2 g 0 4 3 0 之阅，它们都在害效范围之内。舒声字的2 1 个数据的有效范围为2 5 0 4 3 0 ，鸯三个数据在此范围之外( 1 9 0 ，4 3 0 ，2 5 0 ) ；缅分的话，其中2 5 0 和4 3 0 分别为极大j f 投小离群馕， 1 9 0 为极值。对予识剐出的极端值，可以使用两种方法进行处理：删除法和交换法。本文使用删除法直接将这三个数据台弃不用。蒯现在用殴进行下一步语音学分析的数据变为：举字调：喉塞音2 6 03 4 0 2 7 04 3 0 4 2 0 3 4 03 2 9 0 彭声3 6 03 3 03 2 03 8 0 3 0 02 7 0 2 8 02 8 0 3 4 83 5 0 2 9 0 3 3 0 3 4 0 3 4 02 8 03 1 0 使用s p s s 统计软件囊新对这些数据进行假设捻验： g r o u ps t a t i s t i c s s 七d 。e r r o r 墩窘蕾- 辩 m e a ns 隧d e v o t i o nm e a n 纠单字滴l2 l3 2 6 秽5 3 唾1 7l l 。s 5 6 o1 83 ：3 2 z 22 9 2 1 g6 8 8 6 袭5 。7 分类数据纂本描述表 x n d e p e n d e n ts a m p l e s t e s t b w e 眦t e s t f o r e q u a l 时o f v a d ，c 酷 t - t e s t 缸黼镕婶艚m e a n s s 电 m e a n s t d 。自口r9 5 c a 嘲蛐孤删。f f s g t群 ( 2 - t 滴 d i f f e r e n c ed 旆e n m c e艄 ) i f t

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（语言学及应用语言学专业论文）语音研究中的数据有效性分析.pdf

文档简介

温馨提示

最新文档

评论

（语言学及应用语言学专业论文）语音研究中的数据有效性分析.pdf

文档简介

温馨提示

最新文档

评论

相关文档