统计分析《红楼梦》代词使用特色及作者辨析.doc_第1页
统计分析《红楼梦》代词使用特色及作者辨析.doc_第2页
统计分析《红楼梦》代词使用特色及作者辨析.doc_第3页
统计分析《红楼梦》代词使用特色及作者辨析.doc_第4页
统计分析《红楼梦》代词使用特色及作者辨析.doc_第5页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计分析红楼梦代词使用特色及作者辨析作者:卫晶淼 单位:吉林大学中文摘要:本文通过对红楼梦中代词的穷尽考察,简要分析其特色,并在获取数据经过筛选后,对部分代词在前八十回与后四十回中的使用频率分别做参数估计,并对结果进行比对、分析、阐述,进而得到结论:红楼梦前八十回与后四十回确非同一人所著。关键词:红楼梦 代词 统计学 参数估计 Systemic study on Dream of the Red Chamber Weijingmiao Jinlin UniversityAbstract: Dream of the Red Chamber has the title of “pearl of the artistic imperial crown of language” ,has been always praised by people. There are a lot of people who study it, but So far, there hasnt been any works that do systemic research on the grammar of Dream of the Red Chamber”, although some progress has been made. That is why it is necessary to make a systemic study on “Dream of the Red Chamber” and have an all-round analysis of its grammar with statistics. The purpose of this paper is also based on this point. Used point estimate and interval estimate to the both independent sample of the two part of “Dream of the Red Chamber”, it prove that “Dream of the Red Chamber” is not written by the only one writer.Key wards: Dream of the Red Chamber Pronoun function Statistics point estimate interval estimate红楼梦是我国古典小说的巅峰之作。自其问世以来,研究者甚众,研究领域甚广,从索引、考证到人物形象、艺术成就等诸多方面成果丰硕,而红楼梦的语言研究较之颇为清冷。普遍认为:用统计方法研究语法演变,值得仿效。而且此前已经有学者运用统计学方法,判定某些有争议的作品,作者谁属的问题。而代词系统可以说是比较能反映一种语言某个时期语法特点的一个方面,在研究近代汉语时,吕叔湘先生就是从“指代词”这一角度着手进行研究的。而且代词在文章中可替代性强,所以能够很好地反映出作者的语言习惯和叙事风格。因而本文以代词为突破口,用正态分布(或经验分布)描述作者使用代词的频率,正态分布的参数可以体现作者使用代词的风格,进而统计、分析红楼梦前八十回与后四十回语言特色的差异并且加以讨论,或者说验证前八十回与后四十回是否为一人所著。我在考察过程中,以人民文学出版社出版的红楼梦为准,逐个找出所要研究的代词,统计了每个章节各个代词出现的次数,然后算出其均值与方差,再对前八十回中一些有代表性的词汇做参数估计的区间估计,再以后四十回的均值与之比对,得出结论。 一、 数据地获得和预处理 通过字数统计,知红楼梦前八十回的总字数为550725字,后四十回为275019字。各词项在前八十回和后四十回出现的总次数如下:表1 前八十回词项出现次数统计值 词项我我家我们 吾咱咱们余出现次数5403218071614047词项侬俺你你们你家汝奴出现次数10443006871582词项尔他他们他家伊渠自己出现次数1345066155320503词项自家这此那 彼每各出现次数1252041034292978252397词项谁孰甚什么何如何何妨出现次数659230116656421417词项多少早晚怎么怎样怎出现次数105346431319表2 后四十回词项出现次数统计值 词项我我家我们 吾咱咱们余出现次数238015402302161词项侬俺你你们你家汝奴出现次数011707336631词项尔他他们他家伊渠自己出现次数3619802362770331词项自家这此那 彼每各出现次数5242233419851329185词项谁孰甚什么何如何何妨出现次数220214731191472词项多少早晚怎么怎样怎出现次数49144872824按照人称代词、指示代词、疑问代词分类后,用excel画出各个词项在其所属的类别中的比例的圆环图,可以比较直观的看到多数词在前八十回和后四十回中的比例是有很明显差异的,但是也有少数无明显差异的词汇。为下一步分析准备;用SPSS给每列数据画直方图,剔除不符合正态分布的,如:尔、吾、伊等等。再分析留下的数据,考虑每章长短不一,字数本有差异,算出其在一章中所占比例就可以消除这种差异;然后计算其比例的均值和方差,结果如下:表3 前八十回中词项比例的统计量词项我我们咱们你你们他他们均值0.0097270.0014140.0007160.0078180.0011930.0082190.001064方差0.0039970.0008990.0005450.0035410.0008610.0029640.000848词项自己这此那彼每各均值0.0009150.0093910.0019520.0012100.0004610.0007240.001195方差0.0005230.0023750.0014100.0004600.0005940.0006470.000647词项谁什么何如何多少怎么怎均值0.0020960.0010440.0003890.0001870.0011510.0053550.000148方差0.0011010.0008120.0003310.0001940.0007220.0016100.000174表4 后四十回中词项比例的统计量词项我我们咱们你你们他他们均值0.008690 0.001460 0.000771 0.006200 0.001200 0.007120 0.000850 方差0.002284 0.000815 0.000569 0.001982 0.000562 0.002767 0.000511 词项自己这此那彼每各均值0.001210 0.008720 0.001220 0.007120 0.000047 0.000115 0.000672 方差0.000612 0.001767 0.000783 0.001815 0.000088 0.000171 0.000532 词项谁什么何如何多少怎么怎均值0.000781 0.002648 0.000709 0.000178 0.000188 0.001761 0.001950 方差0.000495 0.001078 0.000619 0.000201 0.000177 0.000718 0.000740 小结: 数据预处理的过程,不仅仅是为下一步工作打下坚实的基础,从中我们也可以比较直观的看到:“吾”“余”“尔”“汝”“彼”使用频率远远小于“我”“你”“那”的使用频率,被其全面替代;疑问代词“奚、胡、恶、孰、焉、安”等,在红楼梦中已经很难看到了,即使在诗词歌赋中偶有闪现,也不能体现明清时期文学作品的语言特色;“怎”“此”“何”也以“怎么”“怎样”“如此”“因此”“彼此”“如何”“何妨”等形式出现较多,单用情况比较少;“咱们”“俺”“侬”等方言词汇亦时有出现,俚语俗语杂陈其间,不仅很好地刻画了人物形象,也让我们窥探到了明清语言文化的纷繁多样,同时也能够比较直观地看出红楼梦前后两部分语言特色确有不同。以下,我将用参数估计的方法来科学地验证。二、数据分析过程 通过对统计数据的点估计和区间估计,可以得到以下结果 (一) 以前八十回为原总体样本的比对结果: 以前八十回为原总体的样本,估计出的置信区间,和以后四十回为新总体的样本,估计出的均值比对,发现只有“我们、咱们、你们、多少”五个词项的新总体样本的点估计值落在了原总体样本以95%的置信度估计出的置信区间内,可以认为两个样本的均值没有明显差别,不能排除前八十回和后四十回来自同一样本的可能性,其他词项的新总体样本的点估计值均不能落在原总体样本以95%的置信度估计出的置信区间内,所以可以认为两个样本的均值有明显差别,排除前八十回和后四十回来自同一样本的可能性。具体比对结果由下表列出:表5 估计均值落在置信区间内的统计量词项我们咱们你们多少置信下限0.00120 0.00059 0.00103 0.00013 估计均值0.00141 0.00072 0.00119 0.00019 置信上限0.00172 0.00095 0.00138 0.00024 表6 估计均值小于置信下限的统计量词项自己那什么怎么怎估计均值0.00092 0.00536 0.00210 0.00115 0.00121 置信下限0.00101 0.00655 0.00231 0.00153 0.00172 置信上限0.00140 0.00770 0.00299 0.00199 0.00218 表7 估计均值大于置信上限的统计量词项我你他他们这此置信下限0.007970.005570.006240.000690.008160.00097置信上限0.009410.006820.007990.001010.009280.00146估计均值0.009730.007820.008220.001060.009390.00195词项彼每谁何如何置信下限0.000020.000060.000630.000510.00011置信上限0.000070.000170.000940.000900.00024估计均值0.000150.000460.001200.001040.00039小结:通过直观的图形展示和具体的参数估计,对红楼梦前八十回和后四十回代词的使用频率分析我们可以看出,“我、你、他、他们、自己、这、此、那、彼、每、谁、什么、何、如何、怎么、怎”这16个词项的在前八十回和后四十回中的使用频率的均值都存在明显差异,在95%的置信度下,可以排除其来自同一样本的可能性。虽然“我们、咱们、你们、多少”这4个词项在前八十回和后四十回中的使用频率的均值没有明显差异,但是由于“我们、你们、咱们”为人称代词“我、你、咱”的复数形式,而“我,你,咱”的可替代性强,“吾、俺、汝、尔、余、伊”等等通常都是可以表示单指的人称代词的,但是自宋代“我们,你们,咱们”等词汇开始出现后,至明清时期已经被广泛使用,成为复指代词的主流,同时“尔等、吾辈”等代词亦退出历史舞台,致使“我们、你们、咱们”的替代性就远不如其单指形式的人称代词强。而且此类代词与故事情节密切相关,虽然学术界已基本达成共识红楼梦的前八十回和后四十回系两人所著,但是故事情节是一脉相承的,其替代性又不强,所以前八十回和后四十回中的使用频率的均值没有明显差异也是合情合理的。(第三人称表示复制的“他们”,可以由“姑娘们、丫头们,奴才们”等,以“名词们”的形式代替,所以说替代性较强;与“我们、你们、咱们”还是有差别的。)疑问代词“多少”是问数量的,不像“谁”和“孰”,“什么”与“何”之类可互相替代的疑问代词那样有较强的可替代性,所以前八十回和后四十回中的使用频率的均值没有明显差异也是较为合理的。通过以上分析、阐述,可以看出:在置信度为95%时,“我、你、他、他们、自己、这、此、那、彼、每、谁、什么、何、如何、怎么、怎”这十六个代词的使用频率的均值在前八十回的样本与后四十回的样本中差异显著,能够排除其来自同一样本的可能性;虽然“我们”“咱们”“你们”“多少”这四个替代性较弱的代词,其使用频率的均值在前八十回与后四十回的样本中差异不显著,不能排除来自同一样本的可能性,但是鉴于前文所述因由,对结论的影响微乎其微。所以,由上文的分析可以得出结论:红楼梦前八十回与后四十回的作者确非一人。本文虽然得到了以上结论,但是,红楼梦地成书过程本身就十分复杂、争议不断;成书历时也相当长。所以如果能够运用多种统计方法,从更多角度突破分析(如:语法结构、句子长度等等),应该会得到更加精确的结论。本文的数据地获取工作虽然有计算机辅助,但还是有部分由本人手动完成,难免会出现错误、纰漏;加之研究角度有异,研究方法不同,所以研究结果难免会与前修时贤多少有些出入;敬请各位读者批评、指正。参考文献:1胡适.胡适红楼梦研究论述全编M.上海:上海古籍出版社.1988.2冯春田.近代汉语语法研究M.山东教育出版社.2000.3王力.古汉语常用字字典M.北京:商务印书馆.1996.4何乐士.杨伯峻.古汉语语

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论