




免费预览已结束,剩余11页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
红楼梦的文本分析摘要红楼梦作为中国古代优秀的章回体文言文小说,其中的人物关系错综复杂,所以研究红楼梦中的人物关系疏密度具有重要意义。本文以所选红楼梦文段中的人物作为特征项,通过分析人物出现的频率和出现位置的分布,来分析所选文段中人物的主次以及他们之间的关系疏密度。首先通过Matlab等软件进行编程获取所取的文段样本中的人物以及人物出现的频数和位置分布,再根据人物之间出现位置的绝对值距离与人物之间关系密切性近似成反比的关系来建立能够刻画人物之间关系疏密度的数学模型。通过我们所建立的数学模型计算出的人物之间关系疏密度的结果能够较好地符合所选文段中人物之间关系疏密度的实际情况,我们所得到的人物之间关系疏密度近似服从幂律分布,与现有的一些研究结论相符合。关键词 人物关系 疏密度 数理统计方法 绝对值距离 幂律分布 1、 问题重述文本分析是对文本信息进行挖掘,信息检索的一个基本问题,由于文本中一般含有大量的信息,如何从大量的文本中挖掘有用的信息,就需要选取合适的分析角度对文本进行分析。基于数理统计的方法对文本进行分析一直以来是一个热点。对于红楼梦的文本分析,目前已有很多人从不同的角度提出了分析方法。如运用聚类分析对虚词分析(1987,1),运用独立样本检验动词和名词的搭配(2009,2)以及运用K-S检验法检验动词,连词的分布等,但现有的分析主要集中在对写作之人写作手法和写作风格上的分析,或是对于情景的关注程度的分析,却没有人对小说三要素之一的人物进行过深入的分析。本文采用数理统计的方法主要对红楼梦里的人物主次和主要人物之间关系疏密度进行分析。2、 问题分析每个文本里包含了多个人物,每个人名出现的频率存在差异,每个人名可能多次出现,在整个文本里出现的位置也存在差异。要对人物进行分析就要统计每个人物在文本里出现的频率和出现的位置分布。可认为人物出现的频率与人物的重要程度是正相关,对于每个人物出现的位置分布,可认为两人物多次出现的位置邻近的越多,则两人物间关系越密切,反之,两人物的名字出现的位置邻近的越少,则两人物间的关系越疏远。可用绝对值距离来反映两人物的出现的位置的邻近程度,可认为绝对值距离与两人物的邻近程度近似成反比关系。因此两人之间关系疏密度可看成是两人多次出现的位置相互间的绝对值距离反比的累加。基于此来建立我们的数学模型。3、 模型假设1) 假设人物名字出现的频数与人物的主次成正相关,出现次数越多,越是主要人物。2) 假设人物A出现的各个位置附近人物B出现的次数较多且距离人物A出现的位置较近时,可认为人物A与人物B的关系较为密切(这里的关系指两人间的关联,而非带有感情色彩的关系);反之,可认为人物A与人物B的关系较为疏远。4、 符号说明:选取的文字去除停用词后的样本;:选取的文字去除停用词后的样本1;:选取的文字去除停用词后的样本2;:选取的文字去除停用词后的样本3;: 样本的总字数;:样本的总字数;:样本的总字数;:样本的总字数;:从样本中提取的人物;:从样本中提取的人物1;:从样本中提取的人物2; :从样本中提取的人物n;:人物出现位置的相对数值;:人物第1次出现的相对位置;:人物第2次出现的相对位置; :人物第m次出现的相对位置;:人物与人物关系疏密度;5、 模型建立与求解1 模型的建立记从红楼梦中选取的某段文字去除停用词后记为样本,所选的三段文字去除停用词后分别记为,对于样本,它的总字数为,三个样本的总字数分别记为,从样本中提取的某人物记为,提取的n个人物分别记为,人物某次出现的相对位置记为,m次出现的相对位置分别记为,的定义为上式中乘以100的原因是为避免“人物第m次出现的位置值/人物所在样本去除停用词后的总字数”的数值过小,在使用Matlab处理时会出现较大误差。人物()m次出现的相对位置组成的一维向量用表示。定义样本中人物与人物关系疏密度如下:;其中,如果,则令;的定义:将从样本中提取的所有人物出现的相对位置值从小到大排列,相邻的相对位置值之差(绝对值)的平均值作为。引入r的意义:由于可能出现特别小的情况,当特别小时,会特别大,为了避免过大而引起出现较大误差,故引入r,当时,令;r取所有人物出现的相对位置值从小到大排列后,相邻的相对位置值之差(绝对值)的平均值作为,可使上述误差大大降低,而且所得结果与事实符合的较好。模型的意义:当人物出现的各个位置附近人物出现的次数较多且距离人物出现的位置较近时,可认为人物与人物的关系较为密切;反之,可认为人物与人物的关系较为疏远。我们所定义的关系疏密度是一个能够综合反映人物出现的各个位置附近人物出现次数的多少和距离人物出现位置远近的量。观察,我们可以看到当有多个出现位置在出现位置附近时时,由累加效果可看出会相对较大,当出现的某个位置与出现的某个位置距离较近时,会比较大,同样会相对较大,因此能够反映人物与人物的关系疏密度。2 样本的选取我们选取红楼梦前四十回里的第二十回去除停用词后作为第一个样本,第四十一回到第八十回中的第六十回去除停用词后作为第二个样本,第八十一回到第一百二十回中的第一百回去除停用词后作为第三个样本。3 数据的获取获取方法1) 提取样本中的人物,我们使用中国科学院计算技术研究所的ICTCLAS 系统来完成,并经过一定的人工修正。2) 通过程序1(使用Matlab所编),我们可以统计每个人物在样本中出现的频数m和获得人物()m次出现的相对位置。3) 按上述1、2步骤分别对进行处理。获取结果1) 表一为从三个样本中提取的人物、人物出现的频数和频率(某人出现的频数比上所有人出现的频数之和)、样本的总字数。2) 表二为从三个样本中获取的人物出现的相对位置向量。4 数据的处理1) 对表一中三个样本中的人物和对应的频率画出散点分布图,并用曲线拟合,作图结果分别为图一、图二、图三。2) 通过使用excel软件利用表二中的相关数据计算得到三个样本中的r值,计算结果如下表:三个样本的数值0.5250.8740.8453) 通过程序2和程序3利用表二中的相关数据分别计算三个样本中的。计算所得结果记入表三。4) 利用上述步骤3所得的结果,画出主要人物与其他人物之间的关系疏密度的散点分布图,并用曲线拟合,作图结果分别为图四、图五、图六。图一上图中其他人物的序列如下表:123456789101112宝玉黛玉宝钗贾环袭人麝月莺儿李嬷嬷凤姐晴雯贾母赵姨娘552417151410877643图二上图中其他人物的序列如下表:123456789101112宝玉赵姨娘探春袭人蕊官蝉儿莺儿藕官豆官李纨晴雯黛玉242213966543332图三上图中其他人物的序列如下表:123456789101112薛蝌宝玉宝钗宝蟾贾母袭人探春王夫人黛玉薛姨妈薛蟠凤姐1915141111111096522图四上图中其他人物的序列如下表:1234567891011黛玉宝钗袭人麝月贾环晴雯莺儿李嬷嬷贾母凤姐赵姨娘1398981.670.564.841.132.832.526.625.310.9图五上图中其他人物的序列如下表:1234567891011赵姨娘探春蕊官袭人莺儿蝉儿藕官黛玉李纨晴雯豆官44.829.523.319.416.89.57.15.85.13.43.3图六上图中其他人物的序列如下表:12345678910宝钗袭人探春黛玉贾母王夫人宝蟾凤姐薛姨妈薛蟠3634.831.329.824.417.14.33.41.50.86、 参数估计与模型检验基于以上所作图的结果,我们可以得出结论:1) 所选红楼梦文段中的人物出现频率近似符合幂律分布,三个样本中排前三的主要人物如下表:宝玉黛玉宝钗宝玉赵姨娘探春薛蝌宝玉宝钗通过阅读所选文段与实际情况符合的较好。2) 三个样本中人物“宝玉”都是主要人物,与红楼梦以宝玉为主人公这一事实符合的较好。3) 由图四、五、六,可得红楼梦文本中的人物之间关系的疏密程度近似符合幂律分布,且基于样本一,人物“宝玉”与“黛玉”的关系较为密切。与所选文段实施情况一致。4) 基于样本二,人物“宝玉”与“赵姨娘”的关系较为密切,根据该章回的事实,该结果基本属实;基于样本三,人物“宝玉”与“宝钗”的关系较为密切,根据第一百回的事实情况,该结果基本正确。根据所取的样本文本中的事实情况,我们所估计的得到的的人物关系与样本中所体现的人物关系基本符合。7、 模型异同点分析根据所取的样本文本及所绘制的图,可以得出相同点和异同点如下:相同点:1)人物“宝玉”出现的频数最多,“宝玉”为样本中的最主要的人物;2) 在所取的样本中人物“宝玉”与人物“黛玉”,“宝钗”,“袭人”的关系较与其他人物相比较更为密切。不同点:1) 在不同的所取的样本中,主要人物不完全相同,排前三的主要人物如下表:宝玉黛玉宝钗宝玉赵姨娘探春薛蝌宝玉宝钗2) 在不同的所取的样本中,最主要人物“宝玉”关系最为密切的人物也不相同,在三个样本中和“宝玉”关系排前三的如下表:黛玉宝钗袭人赵姨娘探春蕊官宝钗袭人探春在不同的样本中其他人物与人物“宝玉”的关系程度也不同,在样本W1中“黛玉”的比重为139,而在样本W3中,“黛玉”的比重仅为29.8,可见相同的人物在不同的文本中与“宝玉”的关系也不相同。8、 模型评价模型优点:1)对红楼梦的人物关系的疏密程度作出了数学上的统计分析,对人物之间的关系非常清晰明白。2) 采用绝对值的反比例函数的方法近似刻画了人物之间的关系的疏密程度,对关系程度的刻画符合幂律分布,比较符合事实。模型缺点:1) 没有特别好的统计方法去统计不同人物的不同称谓,例如人物“林黛玉”的称谓就有“黛玉”,“林妹妹”,“颦颦”,“颦儿”,“潇湘妃子”等好几种称谓,没有做到完全的人物统计;2)绝对值的反比例函数取值是否合理,只能模糊估计,不能精确计算。表一人物频数频率人物频数频率人物频数频率宝玉550.32 宝玉240.24薛蝌190.17 黛玉240.14 赵姨娘220.22宝玉150.13 宝钗170.10 探春130.13宝钗140.12 贾环150.09 袭人90.09宝蟾110.10 袭人140.08 蕊官60.06贾母110.10 麝月100.06 蝉儿60.06袭人110.10 莺儿80.05 莺儿50.05探春100.09 李嬷嬷70.04 藕官40.04王夫人90.08 凤姐70.04 豆官30.03黛玉60.05 晴雯60.04 李纨30.03薛姨妈50.04 贾母40.02 晴雯30.03薛蟠20.02 赵姨娘30.02 黛玉20.02凤姐20.02 统计1701统计1001统计1151总字数 4337总字数 6194总字数 4793表二人物位置分布向量宝玉19 37 59 165 201 272 276 331 382 407 654 885 971 10071167 1192 1268 13121379139815051557 1622 1674170617241751183718921965226223122354 2622 2639280632373255328633243330336234363487 3529 3568360936473672369337833915400541274254黛玉10 23 63 99 128 556 855 2465331933403391 3480 3514354535913653367837263888394040264081 4196 4232宝钗3189 172 558 853193819572129216922442288 2333 24682618324132633631贾环1930 1951207820982132225423272600263527542787 2953 298730873211袭人139 145 225 335 423 488 9631070122513161324 1517 18571870麝月1364 139214151532159517091713174117841843莺儿1942 2042207021202138216223082797李嬷嬷 214 340 445 582 645 680 801凤姐810 8602855295829843103晴雯928 13401643168517641798贾母1290 129526093292赵姨娘2762 28142977人物位置分布向量宝玉140 184 317 597 640 694 717 730 785 8191275 1810 2055216733513357434843624443444644854487 4563 4687赵姨娘1032 1185133116421670168517601970203020732096 2330 2488263926632716282429283118 325344925552探春2794 2802285729483133327833023320340234493480 3693 4521袭人19 1092067232123452445268245835047蕊官486 552 687 79625362728蝉儿3507 36463699387139814167莺儿159 203 422 437 462藕官1659 253427303344豆官2556 26282745李纨69 28003140晴雯2441 26682786黛玉414 2058人物位置分布向量薛蝌1631 1660167616901737174817981810185818902194 2266 2319237924452479259126252663宝玉12 34283711 37163802391539283975404741214149 4308 445745334698宝钗394 10771422153527163353395439854110 41374290 4466 45774616宝蟾1744 1901192720462079208921502197229325502611贾母232 2719273927842901331638843900399846854734袭人3433 3449410741394282446844964584460147054719探春2735 3462356736493685376938704116 46074739王夫人257 27252773282229523346340439024000黛玉3827 39424027405240614083薛姨妈304 383 89113611516薛蟠185 309凤姐4759 4780表三宝玉黛玉宝钗贾环袭人麝月莺儿李嬷嬷凤姐晴雯贾母赵姨娘宝玉345.0 黛玉139.0 108.7 宝钗89.0 37.0 52.5 贾环64.8 16.1 39.6 57.7 袭人81.6 19.3 19.9 9.9 43.7 麝月70.5 6.3 10.9 10.8 21.0 45.7 莺儿32.8 6.4 26.9 33.1 6.8 7.8 31.0 李嬷嬷32.5 10.7 10.1 2.4 15.9 3.0 1.5 19.7 凤姐25.3 10.3 9.3 14.9 5.8 2.9 3.6 8.0 16.5 晴雯41.1 4.4 6.8 6.1 12.5 23.0 4.4 2.5 2.7 15.9 贾母26.6 6.5 6.6 6.7 8.4 5.1 2.0 1.1 1.9 3.3 7.2 赵姨娘10.9 3.4 3.5 11.5 1.1 1.1 3.8 0.4 6.0 0.6 1.1 6.0 宝玉赵姨娘探春袭人蕊官蝉儿莺儿藕官豆官李纨晴雯黛玉宝玉121.3 赵姨娘44.8 96.9 探春29.5 36.5 61.5 袭人19.4 27.0 8.9 20.3 蕊官23.3 14.0 6.1 5.6 13.5 蝉儿9.5 6.6 14.4 2.4 1.1 16.3 莺儿16.8 4.1 1.4 4.5 7.7 0.5 17.8 藕官7.1 17.4 11.8 4.9 3.8 1.9 0.6 5.9 豆官3.3 14.8 7.4 5.6 4.6 1.0 0.4 4.7 6.9 李纨5.1 8.6 9.0 4.2 2.1 1.1 1.9 2.0 2.2 3.9 晴雯3.4 14.6 7.9 6.1 4.1 1.0 0.4 4.2 5.4 2.3 5.4 黛玉5.8 6.9 1.0 2.5 2.2 0.3 4.1 0.6 0.4 0.4 0.4 2.4 薛蝌宝玉宝钗宝蟾贾母袭人探春王夫人黛玉薛姨妈薛蟠凤姐薛蝌119.5 宝玉7.4 59.4 宝钗14.2 36.0 37.7 宝蟾51.2 4.3 6.6 47.1 贾母12.9 24.4 19.0 6.7 30.9 袭人5.0 34.8 28.5 2.9 14.9 40.9 探春7.6 31.3 17.5 4.2 17.4 20.3 27.7 王夫人11.4 17.1 14.7 6.0 22.9 8.8 12.6 23.0 黛玉3.0 29.8 18.6 1.7 12.7 12.2 12.7 9.7 26.7 薛姨妈6.5 1.5 6.5 2.8 2.2 0.8 0.9 2.5 0.5 8.8 薛蟠1.0 0.8 1.3 0.6 1.9 0.3 0.3 1.8 0.2 2.8 3.1 凤姐0.7 3.4 2.4 0.4 4.0 5.9 3.7 0.6 0.8 0.1 0.0 4.7 9、 附录程序1clc;close all;fid = fopen(C:UserskaiDesktop1.txt,r);if fid = -1 disp(Can not open the file); return;endaLine=;dict= char(宝玉, 黛玉,宝钗,); % 字典freq = zeros(size(dict,1),1); %频率while (feof(fid) aLine = strcat(aLine,fgets(fid); % 如果运行结果显示乱码,请修改command和workspace的font end disp(aLine) for i = 1:size(dict,1) % deblank 使用的原因:词语长度不一, % dict生成时,会在短的词语后面加空格,查找的时候必须去掉,否则搜索不到 re = strfind(aLine,deblank(dict(i,:) % strfind,可以返回所有的待查找词语的位置 % re的长度表示了词语的个数 freq(i) = freq(i
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 先进暖通空调节能施工技术方案
- 木材品牌形象重塑策略分析报告
- 护理学付高考试题及答案
- 油品储运工异常处理考核试卷及答案
- 山石盆景工岗前考核试卷及答案
- 第一节 自然特征与农业教学设计-2025-2026学年初中地理人教版五四学制七年级下册-人教版五四学制2012
- 高中信息技术选修2教学设计-4.3 图形图像的加工3-粤教版
- 高中物理必修一知识点精准总结
- 乳化香精配制工主管竞选考核试卷及答案
- 飞机自动驾驶仪测试调整工技能比武考核试卷及答案
- 地下室混凝土收光合同5篇
- 专家讲座:小学数学新课程标准解读
- GB 45669.4-2025黄河流域工业用水定额第4部分:水泥
- 消化诊断内镜技术操作规范2023版
- 收割芦苇施工方案
- 湖北省公务员遴选考试题目及答案
- 医疗机构小儿推拿技术规范-公示稿
- 吊篮临时用电施工方案
- 2025-2030中国小麦加工行业市场发展分析及发展趋势与投资前景研究报告
- 肠系膜上动脉夹层护理查房
- 减盐减油知识课件
评论
0/150
提交评论