基于数理统计方法的红楼梦研究.docx_第1页
基于数理统计方法的红楼梦研究.docx_第2页
基于数理统计方法的红楼梦研究.docx_第3页
基于数理统计方法的红楼梦研究.docx_第4页
基于数理统计方法的红楼梦研究.docx_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计方法在红楼梦前80回与后40回分析的运用高健(南京师范大学统计(金融)系,南京)摘要本文在数据的基础上通过统计方法对红楼梦前80回与后40回作了比较分析。在写作风格方面,运用两个独立样本的假设检验得出前80回与后40回在写作风格上有着较大的差异。在人物方面,通过K-S检验方法,这几个主要人物人在前后的出场规律有着巨大差异。在情景分析方面,运用聚类分析,得出在前80回中主要情感色彩是“欢快”的,都大多数情感色彩“沉重”的回合集中在后40回。关键字 两个独立样本的假设检验 K-S检验方法 聚类分析(一)引言红楼梦是我国四大名著之首,而且有很多悬而未决的问题,把统计学的定量分析方法引入红学研究是很自然的。华裔学者陈炳藻教授(见1,2)在美国威斯康星大学召开的“首届国际红楼梦研讨会”上曾发表了通过统计学方法算出相关用词的相关程度,发现前80回与后40回均为曹雪芹一人所作我国华东师范大学陈大康教授得出了迥异的结论(1987,3),它将红楼梦分成3组,通过分析各组之间用词句式,作出推论:后40回非曹雪芹所作(但含有少量残稿)复旦大学李贤平教授的也通过对于虚词运用多元统分析(主成份分析、典型相关分析、聚类分析等),提出了新观点(1987,4):红楼梦前80回是曹雪芹根据石头记增删而成;而后40回则是曹家亲友搜集整理原稿加工补写而成。东南大学韦博成通过运用各回合对于情景的关注程度(2009,5),分析前80回和后40回合的不同。以上几位学者对于前80回和后40回的不同之处分析主要集中在写作之人写作手法的不同,没有考虑到红楼梦这部巨作本身的故事也决定了其前后两部分的不同。本文基于前面几位学者,不仅从写作风格方面做了简要分析,同时从故事的本身进行的不同异同分析。在分析写作风格方面,通过多元分析中的两个独立样本的建设检验对于使用虚词的规律进行分析,从霍特林统计量的值我们看出,写作风格有着较大的不同。在人物的出场率方面,通过K-S检验方法,比较人物在前后的出场规律的不同,分析前80回和后40回在故事情节上的变化。在情景方面,运用有别于5中使用的方法,从另一个角度分析通过对每回合情景指标出现频率的不同,通过聚类的方法来对各回合进行分析。本文第二部分是通过计算机对红楼梦中的字词进行统计,为第三部分做数据准备。第三部分是分析红楼梦的写作风格,人物出场规律和情景。(二)数据准备红楼梦正文总共有874592个字,如果采用人工统计方法不仅工作量大,而且容易出错。而计算机有着计算速度快而且精确这两个特点,采用计算机进行统计是一个自然结果。李瑞芳(2009,6)等通过Java编程对于红楼梦中的字进行统计,其中包括了这样一个结论:频次在700以上的共有189个字,这189个字一共用了498630次,这些字覆盖了全560887的内容,在4401个单字中,这189个字是频次最高的一群,依频次自高向低排出,这189个字是:了、不、的、一、来、道、人、是、说、我、这、你、去、也、着、玉、有、儿、宝、个、子、又、贾、里、们、见、只、得、那、太、便、好、在、笑、他、家、上、她、么、大、姐、头、听、就、出、回、知、要、日、下、都、心、二、事、老、过、还、话、起、自、如、看、没、叫、两、到、母、些、时、之、今、小、问、因、奶、等、凤、娘、可、什、呢、忙、想、夫、面、爷、才、中、王、打、此、进、罢、倒、样、吃、和、姑、正、后、无、几、黛、天、然、为、前、再、意、别、门、外、走、三、丫、袭、怎、妹、众、多、方、生、作、明、已、将、身、以、把、气、何、钗、给、亲、拿、手、与、年、十、坐、若、用、请、房、且、命、发、春、薛、政、原、妈、姨、花、所、处、先、准、平、己、瞧、边、住、管、琏、内、女、送、死、连、会、至、告、东、早、西、香、往、月、喜、却、安、能、放、分、当、未、从、带。本文中写作风格和情景分析的所用字词主要从这189个中选取,并且添加一些的重要的字词,再结合matlab编程统计处在每回合出现的频数。对于一些人物的分析,本文主要对于出场率较高的人物进行编程汇总。由于篇幅的原因,本文中对于这些数据的统计不再列出。(三)前80回和后40回的分析1.写作风格通过数据准备我们提炼出以下常用虚词:了、的、着、也、么、之、呢。将这些虚词出现的规律记为一个随机变量,且。前80回虚词规律记为,后40回记为。做假设检验, 作为一元情况下两样本t检验统计量的推广,用似然比方法可以求得霍特林统计量其中:,分别是对应的样本协方差矩阵。当原假设为真的时候,统计量对于实现给定的显著性水平,拒绝规则为:其中:计算可得:,所以拒绝原假设,认为它们的均值是不同的。通过上述的分析,认为前80回和后40回的作者在写作风格上发生了变化。而实际中一个人在一定时期对于虚词的用法是服从一定的规律的,这样的事实说明了在前80回和后40回中作者本身要么发生了重大变化,要么其后面的作品并非完全由自己完成。2.人物红楼梦中设计人物众多,光是女性就分成金陵十二钗正榜,副榜,又副榜,三副榜,.,八副榜,外副榜等等。如此众多的人物,在前80回和后40回中出现的规律随着自身的命运也出现了变化。如果把每个人物在各回合中出现的频率看成服从一种分布,那么我们就可以通过人物规律发生的变化进行分析。本文采用两个独立样本的K-S检验方法(7),要求假设; 提出的检验统计量是定理:设两个总体分布函数连续且相等,则其中为的分布函数,。由此可见,当足够大时,选择为统计量,对应的拒绝域为,是对应的分位数。考虑到秦可卿这个人物虽列位于正榜,但是犹豫特殊原因,使其在前几回就退出了这个舞台。其次,除了正榜中的女性之中,一些有地位的丫鬟如:袭人,晴雯,平儿等,在故事中也有着鲜明的个性特征,所以同时把她们计入考察的对象。再次,在这个“女儿王国中”,也能看到各色各样的男子,如主人公贾宝玉,其父贾政,贾琏等等一些有着省份地位的人。最后限于篇幅,本文对如下的人物80回前后的每回出现频率做了K-S检验,结果如下表:人名最极端差别K-S统计量渐近显著性(双侧)绝对值正负黛玉.175.088-.175.904.388宝钗.188.188-.050.968.306元春.088.000-.088.452.987探春.088.025-.088.452.987湘云.175.000-.175.904.388妙玉.225.225.0001.162.134迎春.300.000-.3001.549.016惜春.225.225-.0131.162.134熙凤.188.025-.188.968.306巧姐.313.313.0001.614.011李纨.050.038-.050.2581.000晴雯.200.000-.2001.033.236袭人.138.138-.087.710.694鸳鸯.100.100-.025.516.952平儿.075.038-.075.387.998紫鹃.338.338-.0131.743.005麝月.100.100-.038.516.952香菱.050.025-.050.2581.000宝玉.088.088-.075.452.987贾政.500.500-.0132.582.000贾琏.425.425-.0752.195.000贾赦.138.138.000.710.694(表1)从表1中,迎春,巧姐,紫鹃,贾政,贾琏这几个人在前80回和后40回出场规律有着极其的不同。迎春父亲贾赦欠了孙家五千两银子还不出,就把她嫁给孙家,实际上是拿她抵债。出嫁后不久,她就被孙绍祖虐待而死,正好对应了我们出场次数规律的不同。巧姐在红楼们中出现年纪较轻,但在后40回中,贾府落难之际受助于刘姥姥逃离劫难,归隐田园。紫鹃作为第一女主角的贴身丫鬟,也是唯一个人真正为黛玉考虑的人,在“紫鹃试玉”一回中更是表现出了对于主人的忠诚。即便是这样一个人物,在最后的回合中还是逃不过命运的安排。贾政,贾琏这对叔侄,如图1看出,在前80回中,除建造大观园时期他们两极少出现,大多数是在大观园中姑娘们的世外桃源生活。而后40回中由于贾政府出现危机,两个贾府起着支柱作用的男人此时必然会多次出现。图1但是,对于显著性不是很高的一些检验,我们不能肯定这些都是人物的出场规律是相同的。比如显著性相对较小的妙玉,惜春,从个图2可以知道,这两个人在前80回出场次数都不多,而且相对比较平稳。在红楼梦中妙玉只有四个性情相投的人,其中之一就包括了惜春。这两个人有着共同的语言,她们都特别的孤僻,她们对于世俗看的都很开,而命运却是同样的可悲。最后大观园被抄的时候,一个被“众贼劫持而去”,一个最后落发为尼,出现的回合频率多少也出于这些原因。图2而对于剩下的那些出场规律几乎没有发生变化的人物来讲,并不是说明他们命运没有发生变化,只是在一定程度上说明了他们在故事情节中的重要性。读过红楼梦的人都知道,在后面40回合中随着家族的没落,每个人的命运都发生了悲剧性的转换。3.情景韦博成(2009,5)运用Fisher精确条件检验和渐近正态检验对红楼梦中出现的情景做了分析,主要是通过统计的方法来检验80回前后对于不同景物的关注程度。本文将通过对每回合情景指标出现频率的不同,通过聚类的方法来对各回合进行分析。主要采用下表中的的情景指标:总数死喜笑哭乐花酒悲前80回464.00451.003,363.00270.00159.00780.00466.0096.00后40回392.00242.00580.00331.0053.00156.00143.0089.00(表2)对于上述指标,采用系统聚类(8)的方法进行分析。系统聚类方法的基本思想是:开始将n个样本各自作为一类,并规定样本之间的距离和类之间的距离,然后将距离最近的两类合并成一个新类,计算新类与其他类的聚类;重复进行两个最近类的合并,每次减少一类,知道所有的样品合并为一类。在本文中,将120个回合看成120个样本,样本中包括表2的各种指标,考虑到样本之间并没有真实的距离,采用皮尔逊相似作为距离的定义,并且采用不同的聚类法,得到下表:聚类方法组间连接组内连接最远邻接重心法中位数Ward最小方差前80回1类7677757580752类435505后40回1类262823203621280回1类95.00%96.25%93.75%93.75%100.00%93.75%2类5.00%3.75%6.25%6.25%0.00%6.25%后40回1类65.00%70.00%57.50%50.00%90.00%52.50%2类35.00%30.00%42.50%50.00%10.00%47.50%(表3)从表3发现,当运用系统聚类法将红楼梦120回合分成2类时,各种方法中1类时占了绝大多数的回合,而且2类主要集中出现在后40回中。从图4看出,“笑指标”在前80回中出现次数较多,后从81回开始该指标渐渐减少。而“哭指标”前80回出现频率不高,而后40回中该指标呈递增趋势。对应上述分析,我们看到“笑多哭少”的回合分成为1类的多,“哭多小少”分成为2类的多,所以可以认为1类是“欢快”的回合,而2类认为是“沉重”的回合。图4“大观园”是横穿在红楼梦中的一个主要线索(9),有着双重影像:在天上,他是虚无缥缈的太虚幻境;在人间,它是与浑浊男人世界相隔绝的女人国。在前80回中,主人公们居住在大观园中,大部分情境给我们描绘出了一幅世外桃源的生活情境。而对于2类集中于后40回中更是合情合理的。从第81回开始,自大观园被抄后,“四大家族“的开始没落,各个主人公开始了悲剧命运,显示了后40回中具有浓重的悲剧色彩。(四)结束语本文通过对于红楼梦中的写作风格,人物每回合出现频率,情景做了分析,研究了前80回合和后40回合之中的不同。事实上,作为一部文学巨著,红楼梦书中的值得研究的太多了,红学就是一门专门研究它的一门学科。本文中只是对于这本书做了小部分分析,其中还有很多问题,如前80回合和后40回合对待皇权的态度的不同,诗歌感情色彩的变化的分析,人称的变化分析等等,还有很多这样的题目值得去思考。同时本文中在红楼梦中的提出的三种统计方法,都很好的分析出了前80回合和后40回的区别。其实,对于红学中的其他问题这三种方法也能得到很好的运用,如运用聚类分析对虚词分析(1987,4),运用独立样本检验动词和名词的搭配(2009,5)以及运用K-S检验法检验动词,连词的分布等。由此可见,本文中提出的三种方法在红楼梦的研究中的运用范围具有一定的广泛性。参考文献1 陈炳藻,从词汇卜的统计论红楼梦的作者问题,“首届国际红楼梦研讨会”(1980,美国威斯康星大学)。2 贾洪卫,董坚,徐锐,计算机与“红学”研究综论(2003,可参见http:wwwTlsoftcorn中国人民人学统计数据库研究室)。3 陈大康,从数理语言学看后四十回的作者,红楼梦学刊,1(1987),293318。4 李贤

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论