网络博客中话题选择的性别差异_第1页
网络博客中话题选择的性别差异_第2页
网络博客中话题选择的性别差异_第3页
网络博客中话题选择的性别差异_第4页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、网络博客中话题选择的性别差异王宇波(武汉大学 文学院,湖北 武汉,430072)wangyubo摘要:本文以国家语言资源监测与研究中心网络媒体语言分中心的男女各50万篇博客文本为研究基础,首先探讨了男女在话题选择上的不同倾向,进而通过正态验证、T检验和卡方验证等手段,从统计学角度证明了:博客文本中男女话题选择的差异非常大,具有显著性。关键词:网络媒体监测语料库;话题;性别差异;实证研究 The Gender Differences of Topic Selection Based on Web BlogsWang Yubo(Wuhan University, College of Chines

2、e Language and Literature, Hubei Wuhan, 430079)wangyuboAbstract: Based on 500,000 pieces web blogs of each gender from Network Media Language Branch of NationalLanguage Monitoring and ResearchCenter, the study firstly investigated male and females different tendencies on the selection of b

3、log topics. Then, by means of normal distribution tests, T-tests, chi square tests, and so on, the paper proved a fact from the angle of statistics that, in blog texts, the gender differences of topic selection were significant.Keywords: Network Media-Monitoring Corpora; Topics; Gender Differences;

4、Empirical Study 1引言关于男女话语选择差异的研究,欧美学界的研究关注比较早,Klein(1971)、Aries(1976,1982)、Myerhoff(1980)、Wardhaugh(1986)等研究认为男性谈话的焦点总是围绕政治、经济、竞争、体育、商业及逗乐,女性话题倾向于讨论自身、感情、家庭、孩子以及夫妻关系等。中国关于男女话语选择的差异研究起步较晚,多是国外研究成果的总结,很少做有针对性的大范围调查研究,确少专门针对国内男女话题选择的实际调查。并且,由于中外文化的差异,不同文化背景下的男女在话题选择上表现出的差异必定不同。因此,国外的研究结论不能充分反映中国男女话语选择的

5、差异。因此,本文通过对大规模具有性别属性的博客语料进行调查,比较男女性话题选择上的差异是十分必要的。2、话题分类及话题选择倾向根据网络博客文本特点,把博客主题大致分为27类,对男女各50万篇的博客文本进行文本分类处理进行文本分类的博客文本一共是1008755篇,其中男性博客500889篇,女性博客507866篇。,实现步骤如下:第一步:对所有文章进行繁简转化。第二步:用自动化所的分词软件对所有文章进行分词。第三步:用正则表达式和停用词表过滤已分好词的博客。第四步:对27个类的训练语料进行机器学习,统计出27个类的词频表。第五步:对27个类的词频表进行人工后干预,利用专家的领域知识加强出现频率不

6、高但区别度很高的专有名词权重。第六步:按照朴素贝叶斯算法判断每篇博客属于各个类别的后验概率,取后验概率最大的类别作为分类结果。得到各个话题的文本数。见表1。表1 男女各话题的文本数男性女性D值差IT数码383531748220871两性生理12510115体育运动28710471623994健康医疗27466160-3414军事国防16841391545历史文化56598394820哲学人生407216312441娱乐追星807118017-9946宗教信仰23612732088家庭生活126634208957-82323工作求职1935972963情感婚姻7065979207-8548政治体

7、育培训597314094-8121文学艺术649830723426旅游度假728910506-3217时尚消费1571337-1180星座占卜16372035-398杂谈15151111592535586汽车房产1204457747法律制度30982672831游戏网游73516996652电视影视15622105325090科学技术19532791674经济财经34916332858美容护肤1972118-1921美食佳肴25627315-47532.1男性话题选择倾向以男性各话题的文本数为标准,由高到底进行降序排列可以看出,对男性而言,杂谈是27个话题中文本数最多

8、的主题类别,占男性文本总数的30.25%,杂谈类是我们在进行文本分类时,无法把其归为其他26个话题类别范围之内的文本,其内容通常没有固定的主题,多为随感而发记录作者心情或发表对相关事件人物的简短的看法,文本通常比较简短,话语量小。其次是家庭生活,占男性文本总数的25.28%,感情婚姻占14.11%、IT数码占7.66%,谈论最少的话题是两性生理,仅占文本总数的0.025%。Klein(1971)、Aries(1976,1982)、Myerhoff(1980)、Wardhaugh(1986)、Wardhaugh(1998)、赵蓉晖(2003)等都认为,在日常闲聊时,男性倾向于讨论政治、法律、体育

9、、经济相关的话题,但是从上面的研究数据可以发现,男性在网络博客中最常讨论的话题和日常闲聊讨论的话题是有明显差异的。“杂谈、家庭生活、感情婚姻、IT数码、体育运动”是男性在博客中讨论最多的五个话题,约占男性被考察文本总数的83%,而其他22个话题仅占文本总数的17%,其中经济财经占0.7%、政治体制占0.27%、法律制度占0.62%。可见,话题的选择与场景有密切的联系,不同的场合,男性对话题的选择倾向有很大的变化。2.2女性话题选择倾向以女性各话题的文本数为标准,由高到底进行降序排列可以看出,27个话题中,家庭生活是女性谈论最多的主题,占女性文本总数的41.14%,其次是杂谈占22.83%,感情

10、婚姻占15.6%、娱乐追星占3.55%,谈论最少的是两性生理,仅10篇,约占全部文本数的0.002%。女性在网络博客中最常讨论的话题和日常闲聊讨论的话题没有明显差异的。对女性各话题文本数所占百分比分析后可以看出,男女博客话题选择的差异与国内外对日常闲聊情境下男女话题选择差异的研究成果不尽相同。主要表现在:以往研究认为,在闲聊时,女性才会倾向于选择与家庭生活,感情婚姻相关的话题,男性不会。但通过以上研究发现表明,在博客文本中,男性谈论家庭生活和感情婚姻相关的内容是最主要的几个话题之一,仅这两个主题的文本数就占文本总数的39%。男女最常探讨的前3个话题相同,即家庭生活、杂谈、感情婚姻,仅是顺序不同

11、,男性以没有主题内容的杂谈居首,女性以家庭生活为主题内容的话题居首。这也说明,在日常闲聊和网络博客两种不同的交际状态下,女男性对话题的选择是有区别。3、差异显著性检验-X2(卡方)检验以往研究都表明,在日常闲聊时,男女在话题选择上存在差异。本节将通过统计学的方法检验博客语料中男女话题选择的差异是否具有显著性,即话题选择的性别差异是否具有统计学上的意义。3.1差异显著性检验T检验是最常用的检验数据是否具有显著性差异的假设检验,其前提是数据必须符合正态分布。因此,在进行T检验之前要进行数据的正态验证。3.2正态验证由于两组话题选择数据是由27对配对数据组成,因此要对其进行正态验证,只需验证他们的差

12、值d是否符合正态分布关于成对T检验的前提详见第十二章第三节。本节将利用SPSS(17.0)软件来辅助验证男女话题选择两组数据的差值d是否符合正态分布。3.2.1 Kolmogorov-Smirnov 检验为了检验男女话题选择差值d是否符合态分布,我们应用非参数Kolmogorov-Smirnov 正态性检验方法,借助统计软件SPSS17.0,得到结果见表2所示。表2 单样本 Kolmogorov-Smirnov 检验One-Sample Kolmogorov-Smirnov Test差值dN27Normal Parametersa,bMean-259.2593Std. Deviation190

13、95.19102Most Extreme DifferencesAbsolute.269Positive.248Negative-.269Kolmogorov-Smirnov Z1.397Asymp. Sig. (2-tailed).040a. Test distribution is Normal.b. Calculated from data.从上表可知,“近似P值(双尾)”(Asymp. Sig.(2-tailed)为0.04,小于临界值0.05,故可认为差值d不服从正态分布。3.2.2散点图验证也可以通过绘制Q-Q图和P-P图来直观的判断差值d是否符合正态分布。由于P-P图是根据变量的

14、累积概率对应于所指定的理论分布累积概率绘制的散点图,用于直观地检测样本数据是否符合某一概率分布。如果被检验的数据符合正态分布,则代表样本数据的点应当基本在代表理论分布的对角线上。Q-Q图的结果与P-P图非常相似,只是P-P图是用分布的累计比,而Q-Q图用的是分布的分位数来做检验。和P-P图一样,如果数据为正态分布,则在Q-Q正态分布图中,数据点应基本在图中对角线上。从下面的两图我们发现,散点并不在对角线上,也说明差值d不符合正态分布。因此,我们不能对男女话题选择的两组数据进行T检验和其他类型的参数检验。3.3非参数检验-卡方验证由于差值d不符合正态性分布,不满足参数检验的前提,因此我们采用非参

15、数检验来验证男女话题选择是否具有显著性差异。非参数检验是不依赖总体分布的统计分析方法,是指在总体不服从正态分布且分布情况不明时,用来检验数据资料是否来自同一个总体假设的一类检验方法。当参数检验的应用条件不能满足,或有些分组数据一端或两端为不确定数值时,均要用非参数检验。卡方验证是一种非参数性验证,马广惠(2003:105)指出“当需要检验分类数据或分组数据的分布和这些理论上期望的分布是否一致时,X2是最有效的检验方法。”“是语言研究中最常用的一种非参数验证之一。”下面我们采用卡方验证中的独立性验证来检验博客文本中话题选择的性别差异是否具有显著性。借助统计软件SPSS17.0,得到卡方验证的结果

16、,见表3所示。表3 Chi-Square TestsValuedfAsymp. Sig. (2-sided)Pearson Chi-Square86702.647a26.000Likelihood Ratio92547.88726.000Linear-by-Linear Association138.7161.000N of Valid Cases1008772a. 0 cells (.0%) have expected count less than 5. The minimum expected count is 67.03.卡方检验的结果通过表3“Chi-Square Tests”中的“

17、Pearson Chi-Square”一栏对应的Value值和Asymp.Sig值可以查到,Value值86702.647即是x2值,Asymp.Sig值.000即是计算出的P值。当P值小于0.05,说明两者之间存在显著性差异。假若P值大于0.05,说明两者之间没有显著性差异。由于独立性验证中的自由度df=(r-1)*(K-1),即行的数目减1乘以列的数目减1,df=(27-1)*(3-1)=52。查卡方分布表,对应的自由度df=52,a=0.05的X2的临界值为67.50,由于检验统计值X2为86702.647,远远大于临界值,同时P值为0.000<0.05。因此通过检验统计值X2和P

18、值两者可以判定:博客文本中男女话题选择的差异非常大,具有显著性。4、结论通过上面的调查可以发现:博客文本中,男女对话题选择的差异具有显著性;在网络博客和日常闲聊两种不同的语境下,男性对话题的选择会有明显变化,日常闲聊中最常出现的“政治、两性、经济、体育”等话题,并不是博客文本中男性最常讨论的主题,相反,一直被学界认为在闲聊时男性极少谈论家庭、情感等话题,却成了男性在博客中最常见的几个话题之一。我们认为,这是由于博客具有的个人性、即时性、开放性、交换性等多重特征,使得博客明显不同于日常闲聊时的语境,因此,在日常闲聊和网络博客两种语境下,男性对话题的选择出现了明显的变化。当然,话题选择上的性别差异

19、不只限于成年人,在少年儿童中也同样存在,Brooks-Gunn & W·Matthews(1979)、Gookwin(1990)等分别考察过白人和黑人子女的日常话语状况,他们发现,白人男孩较多地谈论体育运动、交流各种信息,白人女孩却较多地谈论学校的事情、坦露内心思想;黑人男孩比较喜欢宣扬自己的“成就”,黑人女孩则更多地议论各自的外貌、打扮和相互之间的关系。参考文献:(1)贾玉新. 跨文化交际学M.上海:上海外语教育出版社,1997.(2)赵蓉晖. 语言与性别口语的社会语言学研究M.上海:上海外语教育出版社, 2003.(3)马广惠. 外国语言学及应用语言学统计方法 

20、M.西安: 西北农林科技大学出版社 ,2003.(4)Aries, E. 1976. Interaction patterns and themes of male, female, and mixed groups. Small Group Behaviour, 7, pp. 7-18.(5)Aries, E. 1982. Verbal and nonverbal behavior in single-sex and mix-sex groups. Psychologica

21、l Reports 51, 127-34.(6)Klein, J. 1971. The family in“traditional”working-class England. In M. Anderson(ed.) Sociology of the Family, Baltimore, Penguin.(7)Myerhoff, B. 1980. Number Our Day. New York, Simon & Schuster.(8)Brooks-Gunn, J. & Matthews, W. 1979. He and She: How Children Develop T

22、heir Sex-role Identity. Englewood Cliffs, NJ:Prentice-Hall.(9)Goodwin, M. H. 1990. He-Said-She-Said: Talk as Social Organization among Black Children. Bloomington, Indiana University Press.(10)Fasold, R.The Socialinguistics of LanguageM.北京:外语教学与研究出版社, 2000. (11)Wardhaugh, R.Introduction to Socialing

23、uisticsM. 北京:外语教学与研究出版社, 1998.References:(1)Jia yuxin.1997. Intercultural Communication studiesM. Shanghai: Shanghai Foreign Language Education Press.(2)Zhao ronghui. 2003. Language and GenderSociolinguistic Studies on Spoken LanguageM. Shanghai: Shanghai Foreign Language Education Press.(3)Ma guanghui. 2003. Statistical Methods of Foreign Linguistics and Applied LinguisticsM. Xian: Northwest A&F University Press.(4)Aries, E. 1976. Interaction patterns and themes of male, female, and mixed groups. Small Group Behaviour, 7, pp. 7-18.(5)Arie

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论