基于超大规模语料库2-gram串:词与短语区分的频率因素探究_第1页
基于超大规模语料库2-gram串:词与短语区分的频率因素探究_第2页
基于超大规模语料库2-gram串:词与短语区分的频率因素探究_第3页
基于超大规模语料库2-gram串:词与短语区分的频率因素探究_第4页
基于超大规模语料库2-gram串:词与短语区分的频率因素探究_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于超大规模语料库2-gram串:词与短语区分的频率因素探究一、绪论1.1研究背景与目的在汉语语言学研究领域,词和短语的区分始终是一项关键且极具挑战性的任务。词作为语言中能够独立运用的最小单位,是构建语句和表达意义的基础,而短语则是由两个或多个词组合而成的语法单位,其在语言表达中同样扮演着不可或缺的角色。准确区分词和短语,对于深入理解汉语的语法结构、语义表达以及语言的实际运用具有重要意义。例如,在中文信息处理中,分词是基础环节,若不能准确区分词和短语,将会严重影响信息处理的准确性和效率,导致文本分析、机器翻译等任务出现偏差。在语言教学中,无论是母语教学还是对外汉语教学,清晰辨别词和短语有助于学习者正确掌握词汇和语法知识,提高语言表达能力。然而,汉语中词和短语的区分并非易事。与英语等实行单词分写的语言不同,汉语的字并不实行分词连写,这使得词和短语在形式上缺乏明显的区分标志,从而增加了区分的难度。传统的区分标准,如“结构稳固、意义凝聚、音节长度适中”,虽然在一定程度上能够对部分词和短语进行区分,但在实际应用中存在诸多局限性,无法解决所有的区分难题。例如,对于一些结构和意义都较为模糊的语言单位,这些标准难以给出明确的判断。近年来,随着数学统计方法在语言学中的广泛应用,从“频率”角度对词和短语区分问题的研究逐渐增多。诸多研究表明,词的使用频率与人们对其“词感”之间存在一定的关联,即词的频率越高,人们对其“成词的感觉”往往越强。然而,目前这些研究大多存在局限性,主要集中在关于“词感”的讨论方面,且缺乏大规模数据统计的有力支持。因此,“频率”是否真正适合作为区分词和短语的一个标准,以及如何利用频率因素更有效地解决词和短语的区分问题,仍有待进一步深入探讨和研究。本研究旨在借助超大规模语料库中的2-gram串,深入考察频率因素在词和短语区分中的作用。通过对超大规模语料库中相邻两个词组成的2-gram串进行收集、预处理和统计分析,获取词和短语的频率分布数据,并绘制频率分布图和比较分析图。运用统计分析工具对所得数据进行深入挖掘,探究词和短语的出现频率差异及其背后可能的原因,进而总结规律,为汉语词和短语的区分提供新的思路和方法,推动汉语语言学研究的发展,同时也为中文信息处理、语言教学等相关领域提供有益的参考和借鉴。1.2研究现状1.2.1传统研究综述传统上,学者们主要从结构、意义、音节等方面对词和短语进行区分。在结构方面,通常认为词的结构更为稳固,组成词的语素之间结合紧密,一般不可拆分或替换;而短语的结构相对松散,组成短语的词之间结合较为灵活,可根据表达需要进行一定的调整。例如,“火车”是一个词,“火”与“车”紧密结合,不能随意拆开或替换其中的语素,若改为“火的车”则语义不通,且不符合语言习惯;而“白色的花”是一个短语,“白色”和“花”之间的结构较为松散,可以插入“的”字,也可以根据需要改变修饰成分,如“红色的花”“鲜艳的花”等。然而,这一标准并非绝对,存在一些特殊情况,如离合词,像“洗澡”“睡觉”等,它们在形式上看似词,但在使用中又可以插入其他成分,如“洗了个澡”“睡了一觉”,这使得单纯从结构稳固性来区分词和短语面临挑战。从意义角度来看,词的意义具有整体性和融合性,不是其组成语素意义的简单相加;而短语的意义则是组成它的各个词的意义之和。以“黑板”为例,它并非“黑”和“板”意义的简单组合,而是专指一种用于教学或书写的黑色平板,具有特定的、融合的意义,因此是词;“黑色的板”则是短语,其意义就是“黑色”和“板”这两个词意义的相加,描述的是颜色为黑色的板,意义相对较为直接和松散。但有些词和短语的意义界限并不清晰,如“骨肉”,既可以表示“骨头和肉”的字面意义(此时为短语),也可以比喻“亲人”(此时为词),这给基于意义的区分带来了困难。在音节方面,一般认为词的音节长度相对固定,尤其是双音节词在汉语中占比较大;而短语的音节组合较为灵活,可长可短。例如,“人民”“国家”等双音节词,音节固定;“美丽的中国”“伟大的人民群众”等短语,音节数量可根据表达需求而变化。然而,音节长度并非区分词和短语的可靠标准,因为存在大量单音节词和多音节词,同时也有双音节短语,如“吃饭”“喝水”等,所以仅依据音节难以准确区分词和短语。1.2.2“频率”相关研究综述随着语言学研究的发展,从“频率”角度探讨词和短语区分的研究逐渐涌现。一些研究指出,词的使用频率与人们对其“词感”之间存在关联。胡明扬提出,在汉语中,常用词的“词感”往往较强,而使用频率较低的词,人们对其“成词”的感觉相对较弱。梁源通过对部分词汇的频率分析,发现高频出现的词汇组合更容易被人们感知为词。吴为善从认知语言学的角度出发,认为高频词汇在大脑中的存储和提取更为便捷,因此人们对其“词感”更为强烈。然而,目前这些研究存在一定的局限性。一方面,“词感”这一概念具有较强的主观性,不同的人对同一语言单位的“词感”可能存在差异,这使得基于“词感”的研究结果缺乏客观性和一致性。例如,对于一些新出现的词汇或网络用语,不同人群对其是否成词的判断可能大相径庭。另一方面,以往的研究大多缺乏大规模数据统计的支持,多为举例式的考察,难以全面涵盖汉语中丰富多样的词汇和短语,无法充分验证“频率”作为区分词和短语标准的可行性。例如,某些研究仅选取了少量的词汇样本进行频率分析,难以代表整个汉语词汇系统的真实情况。此外,这些研究在数据收集和分析方法上也存在不足,没有充分考虑到语料库的规模、类型以及数据的代表性等因素,导致研究结果的可靠性受到质疑。1.3研究思路与方法本研究借助超大规模语料库,收集其中的2-gram串,通过一系列的预处理和统计分析,深入探究频率因素在词和短语区分中的作用。具体研究思路如下:首先,收集超大规模语料库,如互联网上的海量文本、新闻语料库、文学作品库等,确保语料库的规模足够大且具有广泛的代表性,能够涵盖汉语在不同领域、不同语境下的使用情况。从这些语料库中提取相邻的两个词组成的2-gram串,例如,对于句子“我喜欢吃苹果”,提取出“我喜”“喜欢”“欢吃”“吃苹”“苹果”等2-gram串。对提取出的2-gram串进行预处理,去除其中的无效串,如一些不具有实际意义的字符组合、乱码等,同时对数据进行清洗,纠正可能存在的错误。然后,统计每个2-gram串在语料库中的出现次数,按照频率从高到低进行排序,并绘制频率分布图。在频率分布图中,横坐标表示不同的2-gram串,纵坐标表示其出现的频率。通过频率分布图,可以直观地观察到2-gram串的频率分布情况,了解哪些2-gram串出现的频率较高,哪些较低。同时,将词和短语的出现频率进行比较,绘制比较分析图。在比较分析图中,分别展示词和短语的频率分布曲线,通过对比两条曲线,探究词和短语的出现频率差异。接着,借助统计分析工具,如SPSS、R语言等,对所得数据进行深入分析。运用相关性分析,探究词和短语的频率与其他因素(如语义、语法结构等)之间的关系,以确定频率在词和短语区分中所起的作用是否受到其他因素的影响。通过假设检验,验证关于词和短语频率差异的假设,判断这些差异是否具有统计学意义。例如,假设高频出现的2-gram串更倾向于是词,通过统计分析来验证这一假设是否成立。利用聚类分析等方法,对2-gram串进行分类,尝试找出具有相似频率特征和语言特征的2-gram串群体,从而总结出词和短语在频率方面的规律。最后,根据分析结果,撰写研究报告,详细阐述词和短语区分的频率因素,解释不同现象的原因,探讨其实际意义和应用价值。在研究报告中,分析频率与词和短语的关系,探讨频率因素在词和短语区分中的可行性和局限性。结合具体的语言实例,说明如何利用频率信息来区分词和短语,以及在实际应用中可能遇到的问题和解决方法。从理论和实践两个层面,探讨研究结果对汉语语言学研究、中文信息处理、语言教学等领域的启示和应用价值。二、语料处理与2-gram串选取2.1语料库介绍本研究使用的超大规模语料库来源广泛,主要涵盖了互联网上的海量文本、新闻语料库、文学作品库以及学术文献库等。这些来源确保了语料库能够反映汉语在不同领域、不同语境下的使用情况,具有高度的代表性。从规模上看,该语料库包含了超过100亿字的文本数据,规模庞大,为研究提供了充足的数据支持。在领域覆盖方面,语料库具有显著的广泛性。新闻语料部分,涵盖了政治、经济、文化、体育、科技等多个领域的新闻报道,如《人民日报》《新华社》等权威媒体的新闻资讯,这些新闻文本能反映社会时事热点和正式语言表达习惯;文学作品库囊括了古今中外各种体裁的文学作品,包括小说、诗歌、散文、戏剧等,如中国古典文学名著《红楼梦》《三国演义》,现代文学经典如鲁迅、老舍等作家的作品,以及外国文学的经典译本,如《简・爱》《巴黎圣母院》等,丰富的文学作品语料能体现汉语在艺术创作和情感表达方面的多样性;学术文献库则包含了自然科学、社会科学、人文科学等多个学科的学术论文、研究报告等,像《中国社会科学》《科学》等知名学术期刊上的文献,这部分语料展示了汉语在学术研究和专业领域中的严谨性和规范性。此外,互联网文本部分包含了社交媒体平台上的用户发言、网络论坛讨论、博客文章等,能体现汉语在日常交流和网络环境中的生动性和创新性,如微博上的热门话题讨论、知乎上的知识问答等。通过广泛的领域覆盖,该语料库全面地展现了汉语在不同场景下的实际运用情况,为研究词和短语的频率分布提供了坚实的数据基础。2.22-gram串统计原理N-gram是计算机语言学和概率论范畴内的概念,指给定的一段文本或语音中N个项目(item)的序列,这里的项目可以是音节、字母、单词或碱基对,通常N-grams取自文本或语料库。当N=1时,称为unigram,即单个词,例如在句子“我喜欢苹果”中,unigram有“我”“喜欢”“苹果”;当N=2时,称为bigram,也就是2-gram串,在上述句子中,2-gram串有“我喜”“喜欢”“欢苹”“苹果”;当N=3时,称为trigram,如该句子的trigram有“我喜欢”“喜欢苹”“喜欢苹果”等,以此类推。其背后的核心思想基于这样一种假设:在整个语言环境中,句子的出现概率是由组成该句子的N个item的出现概率所决定的。其概率计算公式最初表示为P(T)=P(W1W2W3…Wn)=P(W1)P(W2|W1)P(W3|W1W2)…P(Wn|W1W2…Wn-1),但这个公式在实际应用中较为复杂。随后马尔科夫模型对其进行了简化,该模型认为一个词的出现仅仅依赖于它前面出现的几个词,简化后的公式为P(W1)P(W2|W1)P(W3|W2)…P(Wn|Wn-1),通常在实际计算中采用bigram和trigram。在本研究中,重点关注的是2-gram串在超大规模语料库中的提取与统计原理。提取过程主要是从语料库的每一个句子中,按照顺序依次提取相邻的两个词,组成2-gram串。以语料库中的句子“他在公园里散步”为例,提取出的2-gram串为“他在”“在公”“公园”“园里”“里散”“散步”。对于整个超大规模语料库,通过编写专门的程序或利用相关的语料处理工具,对其中的每一个句子执行这样的提取操作,从而获取大量的2-gram串。统计2-gram串出现的次数是后续分析的关键步骤。利用哈希表等数据结构可以高效地存储和查询2-gram串及其频率。哈希表的工作原理是通过一个哈希函数将2-gram串映射到一个特定的存储位置,这样在统计频率时,每遇到一个2-gram串,就可以快速定位到其在哈希表中的位置,并将对应的出现次数加1。当处理完整个语料库后,哈希表中就记录了每个2-gram串在语料库中的出现次数。例如,经过统计发现,在特定的语料库中,“喜欢”这个2-gram串出现了500次,“吃饭”出现了300次等。通过对这些统计数据的整理和分析,能够深入了解不同2-gram串在语言使用中的频率分布情况,为后续探讨词和短语区分的频率因素提供数据支持。2.32-gram串选取依据汉语词汇的双音节化趋势是选取2-gram串作为研究对象的重要依据之一。从汉语词汇的发展历程来看,双音节词的占比呈现出逐渐上升的趋势。古代汉语中,单音节词占优势,但随着语言的发展演变,现代汉语中双音节词已占据主导地位。根据相关统计,在现代汉语中,双音节词占比超过70%。例如,在日常生活中,我们常用的“国家”“人民”“学校”“汽车”等都是双音节词。这种双音节化趋势使得双音节组合在汉语的词汇系统和语言表达中具有重要地位。2-gram串恰好能够反映汉语中的双音节组合情况,通过对2-gram串的研究,可以深入了解双音节词和双音节短语的特点和规律。2-gram串能够有效反映词和短语的组合关系。在汉语中,词和短语都是由词素组合而成,而2-gram串可以直观地展示相邻两个词素的组合方式。对于词来说,组成词的两个词素之间具有紧密的语义和语法联系,形成一个相对固定的整体。例如,“火车”这个词,“火”和“车”两个词素紧密结合,表达了一种特定的交通工具,其语义并非“火”和“车”简单相加。对于短语而言,组成短语的两个词之间的组合相对灵活,语义关系较为松散。如“红色的花”这个短语,“红色”和“花”之间是修饰与被修饰的关系,它们可以根据表达需要进行不同的组合,如“美丽的花”“鲜艳的花”等。通过对2-gram串的分析,可以清晰地观察到词和短语在组合关系上的差异,从而为词和短语的区分提供有力的支持。在实际语言运用中,2-gram串的出现频率较高,这为基于频率的研究提供了丰富的数据基础。在大量的文本语料中,2-gram串频繁出现,使得我们能够收集到足够数量的数据进行统计和分析。例如,在一篇新闻报道中,会出现众多的2-gram串,如“政府部门”“经济发展”“科技创新”等。这些高频出现的2-gram串涵盖了各种词和短语的组合形式,通过对它们的频率分布进行研究,可以挖掘出词和短语在使用频率上的差异,进而探索频率因素在词和短语区分中的作用。此外,高频率的数据也有助于提高研究结果的可靠性和稳定性,使我们能够更准确地总结出词和短语区分的规律。三、高频二字串成词性考察3.1二字串高频字串分段考察为深入探究高频二字串中词和短语的分布规律,本研究将高频二字串按频率高低进行了分段处理,初步分析各段中词和短语的分布情况。通过对超大规模语料库中2-gram串的统计,获取了每个二字串的出现频率,并按照频率从高到低进行排序。在此基础上,将排序后的二字串划分为若干段,每段包含一定数量的二字串,以便更细致地观察词和短语在不同频率区间的分布特点。具体而言,本研究将高频二字串划分为四个频率段,分别为Rank1-250、Rank251-500、Rank501-750和Rank751-1000。在Rank1-250这一高频段,对其中的二字串进行属性分析后发现,词的比例相对较高。例如,“的”“是”“在”“有”“和”等常见的功能词在该段中频繁出现,这些词在汉语中具有重要的语法功能,使用频率极高,且它们毫无疑问都是词。同时,一些常用的实词,如“中国”“人民”“国家”“政府”等也出现在这一频段,这些实词具有明确的语义和固定的用法,是汉语词汇的重要组成部分。这表明在极高频率的二字串中,词占据了主导地位,这可能是因为这些高频词在语言表达中承担着基础的语法和语义功能,是人们日常交流中不可或缺的元素,因此出现的频率较高。在Rank251-500这一频率段,词和短语的分布呈现出相对复杂的情况。其中既有一些常用词,如“我们”“你们”“他们”“工作”“学习”等,这些词在日常生活和书面表达中使用较为频繁,具有较高的词频。同时,也出现了一些短语,如“我的”“你的”“他的”“一个”“一些”等,这些短语在语言中用于修饰或限定其他词语,虽然它们的结构相对松散,但由于在表达中的高频使用,也出现在了这一频率段。这说明在这一频率区间,词和短语的界限相对模糊,一些高频使用的短语与词的出现频率相近,仅从频率角度难以准确区分它们。Rank501-750这一频率段,词和短语的分布情况与前一段有所不同。在该段中,短语的比例有所增加,如“很多”“非常”“一定”“已经”“可能”等,这些短语在语义表达上具有一定的独立性,常用来表达程度、范围、语气等意义。同时,也存在一些不太常用的词,如“偶尔”“稍微”“逐渐”等,这些词虽然使用频率相对较低,但仍然是汉语词汇体系中的一部分。这表明随着频率的降低,短语的出现频率逐渐增加,而词的频率相对稳定,这可能是因为一些表达特定语义或语气的短语在语言使用中具有不可替代的作用,即使它们的频率不高,但在特定语境下也会频繁出现。在Rank751-1000这一相对低频段,短语的比例进一步增加。例如,“越来越”“一会儿”“一下子”“差不多”等短语在该段中较为常见,这些短语通常具有较为固定的搭配和语义,用于描述动作的变化、时间的短暂或程度的近似等。而词的出现频率则相对较低,多为一些专业性较强或使用场景较为受限的词,如“摄氏度”“毫米汞柱”“千瓦小时”等,这些词主要用于特定的专业领域或特定的计量场景。这说明在低频区间,短语在语言表达中的作用逐渐凸显,而词的使用则更加依赖于特定的语境和领域。3.2高频RANK1-1000二字串属性分析对高频RANK1-1000的二字串进行属性分析,旨在深入了解不同频率区间内二字串的成词性、结构类型等特点,从而为词和短语的区分提供更细致的依据。在这1000个高频二字串中,我们将其划分为四个部分,分别是Rank1-250、Rank251-500、Rank501-750和Rank751-1000,对每个部分的二字串属性进行详细分析。通过这种分段式的研究方法,能够更清晰地观察到随着频率的变化,二字串属性的演变规律,进而探讨频率因素在词和短语区分中的作用。3.2.1Rank1-250二字串属性分析在Rank1-250的高频二字串中,词的比例较高,占比约为80%。其中,功能词如“的”“是”“在”“有”“和”等出现频率极高,这些功能词在汉语语法中具有不可或缺的作用,是构建句子结构和表达语法关系的关键要素。例如,“的”作为结构助词,用于表示修饰关系,如“美丽的花朵”“可爱的孩子”;“是”作为判断动词,用于判断主语和宾语的关系,如“他是学生”“这是一本书”。这些功能词的使用频率高,是因为它们在语言表达中承担着基础的语法功能,是人们日常交流中频繁使用的词汇。除了功能词,一些常用实词也在这一频段占据重要地位。如“中国”“人民”“国家”“政府”等,这些实词具有明确的语义和固定的用法,是汉语词汇的核心组成部分。“中国”作为国家名称,代表着特定的地域和文化实体,是一个独一无二的概念;“人民”则指的是社会的主体,具有广泛的指代意义。这些实词在政治、经济、文化等各个领域的表达中都频繁出现,体现了它们在语言使用中的重要性。从结构类型来看,这些高频词以单纯词和复合词为主。单纯词如“葡萄”“玻璃”等,它们的词素不能再进行拆分,具有整体性;复合词如“火车”“汽车”等,由两个或多个词素组合而成,通过不同词素的组合形成新的语义。在复合词中,偏正结构较为常见,如“火车”是由“火”修饰“车”,表示一种以火力为动力的车辆;“美丽的花”中,“美丽”修饰“花”,表示花具有美丽的属性。联合结构也有一定比例,如“国家”是由“国”和“家”联合组成,表达了国家和家庭的概念。3.2.2Rank251-500二字串属性分析在Rank251-500的二字串中,词和短语的分布呈现出更为复杂的情况。词的占比约为60%,短语的占比约为40%。在词的部分,除了继续出现一些常用词外,还出现了一些在特定语境中使用频率较高的词。“我们”“你们”“他们”等人称代词,在日常交流中频繁用于指代不同的人群,是表达人际关系和交流对象的重要词汇;“工作”“学习”等动词,与人们的日常生活和社会活动密切相关,是描述行为和活动的常用词汇。在短语方面,“我的”“你的”“他的”等偏正短语,用于表示所属关系,在语言表达中起到修饰和限定名词的作用;“一个”“一些”等数量短语,用于表示数量,在描述事物的数量时经常使用。与Rank1-250的二字串相比,这一频段的词和短语界限相对模糊。一些高频使用的短语,由于其在特定语境中的频繁出现,使得它们的频率与词相近。例如,“我的”这个短语,在表达所属关系时使用频率极高,几乎在每一个涉及所属描述的语境中都会出现,因此其频率与一些常用词相当。这表明在这一频率区间,仅从频率角度难以准确区分词和短语,需要结合其他因素,如结构、意义等进行综合判断。3.2.3Rank501-750二字串属性分析Rank501-750这一频率段的二字串中,短语的比例有所增加,约占50%,词的比例约为50%。在短语方面,出现了一些具有特定语义和语法功能的短语。“很多”“非常”等程度短语,用于表达程度的高低,在描述事物的程度时具有重要作用;“一定”“已经”“可能”等副词性短语,用于表达语气、时态等语法意义,丰富了语言表达的准确性和细腻度。在词的部分,除了一些常用词外,还出现了一些不太常用但在特定领域或语境中有一定使用频率的词。“偶尔”“稍微”“逐渐”等副词,用于描述动作的频率、程度或变化趋势,在文学作品、口语表达等中经常使用。从频率与成词性的关系来看,随着频率的降低,短语的出现频率逐渐增加,而词的频率相对稳定。这可能是因为一些表达特定语义或语气的短语,虽然在整体语言使用中频率不高,但在某些特定语境下却是不可或缺的,因此在这一频率段中出现的比例相对较高。例如,“一定”这个短语,在表达肯定语气时具有独特的作用,虽然它的整体频率不如一些常用词高,但在需要强调肯定语气的语境中,它的出现频率会明显增加。3.2.4Rank751-1000二字串属性分析在Rank751-1000的二字串中,短语的比例进一步上升,约占60%,词的比例约为40%。常见的短语如“越来越”“一会儿”“一下子”“差不多”等,这些短语具有较为固定的搭配和语义,在语言表达中用于描述动作的变化、时间的短暂或程度的近似等。“越来越”用于描述程度的逐渐加深,如“天气越来越热”“他越来越聪明”;“一会儿”表示时间的短暂,如“我一会儿就回来”“他一会儿就做完了作业”。词的部分多为一些专业性较强或使用场景较为受限的词。“摄氏度”“毫米汞柱”“千瓦小时”等,这些词主要用于科学、技术、计量等特定领域,在日常生活中的使用频率较低。从整体上看,随着频率的降低,词和短语的属性差异逐渐减小,区分难度进一步加大。在这一频率段,需要更加综合地考虑多种因素,如语义、语法功能、使用语境等,才能准确判断二字串的成词性。例如,对于“差不多”这个二字串,它既可以作为短语使用,表示程度的近似,如“他的成绩差不多”;在某些语境下,也可能被人们感知为一个词,具有相对固定的语义和用法。因此,在判断其成词性时,需要结合具体的语境和语言习惯进行分析。3.3数据分析与小结通过对高频二字串的分段考察和属性分析,可以看出频率与成词性之间存在一定的关联,但并非简单的线性关系。在极高频率段(Rank1-250),词的比例较高,这表明频率越高,二字串更倾向于是词。然而,随着频率的降低,词和短语的分布变得复杂,在Rank251-500、Rank501-750这两个频率段,词和短语的界限逐渐模糊,出现了词和短语比例相当或短语比例略高于词的情况。在Rank751-1000这一相对低频段,短语的比例进一步增加,这说明频率越低,二字串更倾向于是短语。总体而言,频率在一定程度上能够反映二字串的成词性,但不能作为唯一的区分标准。在高频段,频率对成词性的判断具有较强的指示作用,高频出现的二字串大多为词;而在中低频段,频率的指示作用相对减弱,需要结合结构、意义等其他因素来综合判断二字串的成词性。例如,对于一些高频出现的短语,虽然它们的频率较高,但从结构和意义上看,它们仍然是短语;而对于一些低频出现的词,尽管其频率较低,但由于其具有固定的语义和语法功能,仍然被视为词。此外,频率与成词性之间的关系还受到语言使用习惯、语境等因素的影响,不同的语言环境和使用场景可能会导致频率与成词性的关系发生变化。因此,在利用频率因素区分词和短语时,需要充分考虑这些因素的综合作用,以提高区分的准确性和可靠性。四、二字串粗分类频率考察4.1不同结构二字串频率考察汉语中,不同结构的二字串在词和短语的区分上呈现出各自独特的频率特征。通过对超大规模语料库中2-gram串的深入分析,我们可以详细探讨主谓式、动宾式、状中式、定中式、述补式、并列式等不同结构二字串的频率表现,进而揭示频率因素在词和短语区分中的作用。4.1.1主谓式主谓式二字串中,词和短语在频率表现上具有一定特点。例如,“地震”作为一个词,在新闻报道、科普文章等各类语料中频繁出现,尤其是在涉及自然灾害、地理科学等领域的文本里,“地震”的出现频率较高。这是因为地震是一种具有重大影响力的自然现象,与人们的生活、社会发展密切相关,所以在语言表达中被频繁提及。而“脸红”既可以是短语,如“他因为害羞而脸红”,也可以在一定语境下被视为词,如“脸红是他紧张的表现”。在日常口语和文学作品中,“脸红”的使用频率相对较高,它常用来描述人的生理反应和情绪状态,这种生动形象的表达使得“脸红”在相关语境中频繁出现。“海啸”同样是主谓式结构的词,在海洋科学、灾害报道等领域的文本中,“海啸”的频率较高,这与它在这些领域的重要性和专业性有关。从整体频率分布来看,主谓式结构的词在特定领域或与特定主题相关的语料中,往往具有较高的频率,这是由于它们所代表的概念在这些领域中具有重要地位,是人们表达和交流的关键内容。而主谓式短语的频率分布则相对较为分散,更多地依赖于具体的语境和表达需求,在不同的语境中,其出现频率会有较大差异。4.1.2动宾式动宾式结构下,词和短语的频率存在明显差异。以“关心”为例,它是一个动宾式的词,在人际交往、情感表达等各类文本中出现频率都很高。在日常对话、文学作品中,人们经常会表达对他人的“关心”,如“我很关心你”“他总是关心身边的人”,这种高频使用体现了“关心”在人际关系和情感交流中的重要性。而“吃饭”虽然是短语,但在日常生活中的使用频率极高,几乎在每一个涉及日常生活场景的文本中都会出现,如“我正在吃饭”“我们一起去吃饭”。这是因为“吃饭”是人们日常生活中最基本的行为之一,与人们的生活息息相关,所以使用频率极高。再如“担心”,作为动宾式的词,在表达人们的心理状态和情感时频繁出现,如“他很担心考试成绩”“我担心他的安全”。动宾式词和短语频率差异的原因主要与它们所表达的概念和行为的普遍性、日常性有关。那些表达基本生活行为、常见情感和心理状态的动宾式短语,由于其在日常生活中的高频使用,使得它们的频率与一些常用词相当。而动宾式词往往具有更广泛的语义涵盖和更抽象的概念表达,在各种语境中都有一定的使用频率。4.1.3状中式状中式二字串的频率与成词性之间存在一定联系。例如,“马上”作为一个状中式的词,在日常口语和书面语中都频繁出现,如“我马上就到”“会议马上开始”。它用于修饰动词,表示时间的紧迫性,这种高频使用体现了其在语言表达中的重要性。“亲自”同样是状中式的词,在强调行为主体亲自参与某一动作时经常使用,如“他亲自去处理这个问题”“领导亲自视察工作”,在相关语境中频率较高。而“飞快”在“他跑得飞快”中是状中式短语,它在描述动作速度快的语境中出现频率较高,但相对“马上”“亲自”等词,其使用频率的稳定性和普遍性稍逊一筹。这表明,状中式结构中,频率较高的二字串更倾向于是词,因为这些高频词在语言表达中承担着重要的语法和语义功能,是人们日常交流中不可或缺的元素。而一些频率相对较低的状中式短语,虽然在特定语境下也会出现,但它们的使用范围和频率相对较窄,成词性相对较弱。4.1.4定中式在定中式结构中,频率对词和短语的区分有着重要影响。像“火车”是定中式的词,在交通、旅行等相关文本中出现频率很高,如“我乘坐火车去北京”“火车是一种重要的交通工具”。这是因为火车在现代交通体系中占据重要地位,是人们出行和货物运输的常用工具,所以在相关领域的表达中频繁出现。“黑板”同样是定中式的词,在教育、教学相关的文本中频率较高,如“老师在黑板上写字”“黑板是教室的重要设施”。而“白色的花”作为定中式短语,其频率分布则与具体的语境和表达需求密切相关。在描述花卉、自然景观等文本中,“白色的花”可能会出现,但频率相对较低,且会随着语境的变化而波动。这说明定中式结构中,高频出现的二字串往往是词,它们所代表的概念具有相对固定的语义和较高的使用频率。而定中式短语的频率则更多地受到语境的制约,其语义相对较为灵活,使用频率也相对不稳定。4.1.5述补式述补式二字串具有独特的频率特点,对判断其性质有重要作用。例如,“提高”是述补式的词,在各种表达进步、发展、提升等意义的文本中出现频率较高,如“我们要提高学习成绩”“公司致力于提高生产效率”。这是因为“提高”所表达的概念在人们的学习、工作和社会发展等方面具有重要意义,是人们追求进步和发展的核心行为之一,所以使用频率较高。“说明”同样是述补式的词,在解释、阐述、表达观点等语境中频繁出现,如“请你说明一下情况”“这篇文章说明了一个重要的道理”。而“跑得快”作为述补式短语,在描述动作速度的语境中会出现,但频率相对较低,且通常依赖于具体的动作描述。述补式二字串中,词的频率相对稳定且较高,这是由于它们所表达的语义具有较强的概括性和普遍性,在各种语言场景中都有广泛的应用。而述补式短语的频率则更多地与具体的动作和情境相关,其出现频率相对较低且不稳定。4.1.6并列式并列式结构下,词和短语的频率分布呈现出一定规律。以“国家”为例,它是并列式的词,在政治、经济、文化等各个领域的文本中都频繁出现,如“中国是一个伟大的国家”“国家的发展离不开人民的努力”。“国家”作为一个重要的概念,涵盖了政治、经济、文化等多个方面,与人们的生活和社会发展紧密相连,所以使用频率极高。“人民”同样是并列式的词,在涉及社会、政治、民生等主题的文本中频率很高,如“人民是历史的创造者”“为人民服务是我们的宗旨”。而“花草”作为并列式短语,在描述自然景观、植物等文本中会出现,但频率相对较低。并列式结构中,高频出现的二字串大多是词,这些词所代表的概念通常是具有重要意义和广泛应用的核心词汇。并列式短语的频率相对较低,其使用范围相对较窄,更多地用于特定的语境和表达需求。此外,一些并列式词的频率还受到文化、历史等因素的影响,在不同的文化背景和历史时期,其使用频率可能会有所变化。4.2一些“类词串”的频率考察除了对不同结构的二字串进行频率考察外,还需关注一些具有特殊性质的“类词串”,如半自由语素组合、非自由语素组合等,探究它们的频率特征及其与成词性的关系。半自由语素组合在汉语中具有独特的地位。例如,“人民”中的“人”和“民”,“人”是自由语素,可独立成词,如“人们”“个人”等;“民”是半自由语素,不能单独成词,但与“人”组合后形成“人民”,具有特定的语义,在各种政治、社会相关的文本中出现频率极高,如“为人民服务”“人民群众是历史的创造者”。再如“海洋”中的“海”是自由语素,“洋”是半自由语素,二者组合成“海洋”,在地理、海洋科学、文学描写海洋相关场景等文本里频繁出现,像“海洋是生命的摇篮”“这片海洋十分辽阔”。半自由语素组合成词后,其频率往往较高,这是因为它们所表达的概念在人们的认知和语言表达中具有重要性,是日常交流和各类文本中不可或缺的内容。同时,这种组合也体现了汉语词汇的丰富性和灵活性,通过自由语素和半自由语素的搭配,形成了大量具有特定意义的词汇。非自由语素组合同样值得关注。以“蝴蝶”为例,“蝴”和“蝶”都是非自由语素,它们必须组合在一起才能表达一个完整的意义。在自然科学、文学作品描写昆虫、儿童读物等文本中,“蝴蝶”的出现频率相对较高,如“蝴蝶在花丛中翩翩起舞”“蝴蝶是一种美丽的昆虫”。这表明,尽管非自由语素本身不能独立成词,但它们组合形成的词在特定的语境和领域中具有一定的使用频率。再如“葡萄”,“葡”和“萄”是非自由语素,“葡萄”一词在日常生活中,特别是在提及水果、美食、农业等相关话题时经常出现,如“我喜欢吃葡萄”“葡萄园里的葡萄成熟了”。非自由语素组合成词后,其频率与该词所代表的事物在人们生活中的常见程度和语言表达的需求密切相关。一些非自由语素组合形成的词,由于其所指事物在人们的生活中具有较高的存在感,因此在语言中也频繁出现。从整体上看,这些“类词串”的频率特征为词和短语的区分提供了新的视角。高频出现的“类词串”往往更倾向于是词,这是因为它们在语言使用中经过了长期的沉淀和固定,成为了人们表达特定概念的常用方式。例如,“人民”“海洋”“蝴蝶”“葡萄”等高频“类词串”,它们在各种文本中的频繁出现,表明了它们在语言表达中的重要性和稳定性,也体现了它们作为词的典型特征。然而,并非所有高频“类词串”都是词,还需要结合其他因素进行综合判断。同时,低频出现的“类词串”也不一定是短语,一些低频词可能由于其使用场景较为特殊或专业,导致出现频率较低。例如,一些专业术语中的非自由语素组合,虽然在普通文本中频率较低,但在专业领域中却是常用词汇。因此,在利用频率因素区分词和短语时,需要全面考虑“类词串”的各种情况,结合语义、语法等多方面的因素进行准确判断。4.3分析与总结通过对不同结构二字串以及“类词串”的频率考察,可以发现频率在词和短语的粗分类中具有一定的区分作用,但也存在一定的局限性。不同结构的二字串在频率分布上呈现出各自的特点。主谓式结构中,词在特定领域相关语料中频率较高,短语频率则相对分散;动宾式结构里,词和短语频率差异与所表达概念和行为的普遍性、日常性相关;状中式结构下,频率较高的二字串更倾向于是词;定中式结构中,高频二字串多为词,短语频率受语境制约;述补式结构里,词的频率稳定且较高,短语频率与具体动作和情境相关;并列式结构中,高频二字串大多是词,短语频率相对较低。这些特点表明,频率与结构类型相互关联,不同结构的词和短语在频率表现上存在差异,频率可以作为判断不同结构二字串成词性的一个参考因素。例如,对于主谓式结构的“地震”,其在相关领域文本中的高频出现,结合其结构特点,可以判断它是一个词;而对于“脸红”,在不同语境下频率的变化以及其结构的相对灵活性,使其既可能是词也可能是短语。“类词串”的频率特征也为词和短语的区分提供了线索。高频出现的“类词串”,如半自由语素组合成的“人民”“海洋”,非自由语素组合成的“蝴蝶”“葡萄”等,往往更倾向于是词,这体现了频率在判断“类词串”成词性方面的重要作用。然而,不能仅仅依据频率来判断,还需要综合考虑语义、语法等因素。例如,一些低频出现的“类词串”,虽然频率低,但可能由于其语义的独特性或语法功能的特殊性,仍然是词;而一些高频出现的“类词串”,如果其语义和语法特征更符合短语的特点,也不能简单地将其判定为词。总体而言,频率在词和短语的粗分类中具有一定的有效性。在高频区间,词的出现频率相对较高,这是因为高频词往往是语言表达中的常用词汇,它们在语言系统中具有重要的地位,承担着基本的语义和语法功能。而在低频区间,短语的比例相对增加,这可能是由于短语的构成更加灵活,能够根据具体的语境和表达需求进行组合,因此在一些特定的、不常见的表达中,短语更容易出现。然而,频率并非区分词和短语的绝对标准,还需要结合结构、意义、语法功能等多种因素进行综合判断。在实际语言运用中,词和短语的界限有时并不清晰,存在一些中间状态的语言单位,对于这些单位的判断,需要全面考虑各种因素,以提高区分的准确性。五、二字串细分类频率考察5.1“同构槽”字串频率考察为进一步探究频率在词和短语区分中的作用,对“大X”“小X”“老X”“X头”等同构槽字串进行频率分析。在“大X”结构中,不同的“X”所构成的二字串在频率和性质上存在差异。例如,“大家”是一个词,在各种文本中的出现频率较高,如“大家一起努力”“大家都很开心”,它用于指代一定范围内的所有人,是一个常用的集合名词。而“大门”同样是词,在描述建筑物、场所等相关内容时频繁出现,如“学校的大门”“小区的大门”。“大米”也是高频词,在日常生活中提及粮食、饮食等话题时经常出现,如“我买了一袋大米”“大米是我们的主食之一”。与之相比,“大桶”则更倾向于是短语,虽然在一些描述容器、容量的语境中会出现,但其频率相对较低。“大桶”是由“大”修饰“桶”,表示较大的桶,其语义是“大”和“桶”的简单相加。“大桌子”同样是短语,在描述家具、空间布置等场景时会用到,但使用频率不如“大家”“大门”“大米”等词。这表明在“大X”结构中,高频出现的二字串更倾向于是词,它们所代表的概念在人们的认知和语言表达中具有较高的稳定性和普遍性。而频率较低的二字串,其结构相对较为松散,语义是两个成分的简单组合,更符合短语的特征。在“小X”结构中,“小孩”是词,在日常交流、儿童相关的文本中出现频率很高,如“小孩很可爱”“这个小孩很聪明”,它是对儿童的常用称呼,具有固定的语义。“小姐”在特定的社交、服务等领域的文本中也有一定的出现频率,如“这位小姐,请稍等”。“小心”同样是高频词,在提醒、警示等语境中频繁使用,如“小心滑倒”“小心车辆”。相比之下,“小杯”是短语,在描述杯子大小、饮品容量等场景中出现频率较低,它是由“小”修饰“杯”,语义较为明确和简单。“小房间”也是短语,在描述空间、居住环境等内容时会出现,但频率相对较低。这说明在“小X”结构中,频率与成词性之间存在明显的关联,高频的二字串多为词,低频的更可能是短语。“老X”结构下,“老师”是高频词,在教育、学校等相关文本中频繁出现,如“我的老师很和蔼”“老师们都很敬业”,它是对教师的普遍称呼,语义固定。“老人”同样是词,在描述老年人群体、养老、社会关怀等话题时经常出现,如“关爱老人是我们的责任”“这位老人身体很健康”。“老板”在商业、职场等领域的文本中出现频率较高,如“老板给我们发工资了”“他是公司的老板”。而“老房子”是短语,在描述建筑、房地产、回忆等场景中会出现,但频率相对较低,它是由“老”修饰“房子”,表示年代较久的房子。“老车子”也是短语,在提及交通工具、汽车历史等内容时可能出现,频率不高。这体现了在“老X”结构中,高频二字串作为词的稳定性和常见性,低频二字串作为短语的灵活性和临时性。“X头”结构里,“石头”是词,在自然科学、文学描写、建筑等领域的文本中出现频率较高,如“这块石头很坚硬”“石头是建筑的重要材料”。“木头”同样是词,在木材加工、家具制造、手工制作等相关文本中经常出现,如“木头可以用来制作家具”“这块木头的质量很好”。“砖头”在建筑、装修等领域的文本中较为常见,是高频词,如“砖头是建造房屋的基本材料”“工人在搬运砖头”。“船头”在描述船只、航海等场景的文本中会出现,也是词。相比之下,“纸头”在一些方言或特定的口语表达中可能会出现,但频率相对较低,它更倾向于是短语。“筷头”同样频率较低,在一些较为口语化或特定的饮食场景描述中可能会出现,属于短语。这表明在“X头”结构中,高频出现的二字串多为词,低频的更倾向于是短语,频率在一定程度上能够反映“X头”结构二字串的成词性。5.2“动结式”与“动趋式”同构槽频率考察5.2.1“V到”在“V到”结构中,词和短语呈现出不同的频率特点和语义差异。例如,“看到”作为一个词,在各类文本中的出现频率都相当高。在日常生活的交流中,如“我看到了一只小鸟”“他看到了有趣的事情”,人们经常使用“看到”来表达视觉上的感知和发现。在文学作品中,“看到”也是一个高频词汇,用于描述人物的视角和观察到的事物,如“他站在山顶,看到了美丽的风景”。这是因为“看到”所表达的视觉感知是人们日常生活中最基本的感知方式之一,与人们的生活密切相关,所以使用频率较高。从语义上看,“看到”的语义较为固定,强调视觉上的察觉和发现,是一个完整的语义单位。“找到”同样是高频词,在表达寻找结果的语境中频繁出现。在生活场景中,当人们寻找物品或人时,经常会说“我找到了钥匙”“他找到了丢失的宠物”。在工作和学习中,也会用到“找到”,如“我们找到了问题的解决方案”“学生找到了学习的方法”。“找到”的高频使用源于人们在生活、工作和学习中经常需要进行寻找的行为,而“找到”准确地表达了这种行为的结果,因此在相关语境中出现的频率很高。其语义明确,指经过寻找后发现或获得目标对象。与之相比,“走到教室”是一个短语,虽然在描述行走动作和目的地的语境中会出现,但频率相对较低。在学校、办公场所等场景中,可能会出现“他走到教室准备上课”这样的表达。“走到教室”的频率较低,是因为它的使用受到具体场景和动作的限制,不像“看到”“找到”等词那样具有广泛的使用场景。从语义上看,“走到教室”是由“走”这个动作和“教室”这个目的地组成,语义是两个部分的简单相加,即通过行走的动作到达教室这个地点。“飞到北京”也是短语,在描述飞行和目的地的语境中会出现,但频率不高。在航空、旅行等相关领域的文本中,可能会出现“飞机飞到北京需要几个小时”“他飞到北京参加会议”这样的句子。“飞到北京”的频率受限,是因为飞行行为相对较为特殊,不是人们日常生活中的常见行为,而且其使用与具体的旅行安排和航空活动相关。语义上,它表示通过飞行的方式到达北京这个城市,是“飞”的动作和“北京”这个地点的组合。总体而言,在“V到”结构中,高频出现的“V到”形式更倾向于是词,它们的语义相对固定,是人们在日常交流和表达中常用的词汇。而频率较低的“V到”形式,往往是短语,其语义是由“V”的动作和“到”后面的对象组合而成,结构和语义相对较为松散。这表明频率在一定程度上能够反映“V到”结构的成词性,高频的“V到”结构更符合词的特征,低频的则更接近短语的特点。5.2.2“V向”“V向”结构下,频率与成词性以及语义之间存在紧密的联系。以“走向”为例,它作为一个词,在各类文本中的出现频率较高。在描述发展趋势、行动方向等语境中,“走向”经常被使用。在经济领域,我们会听到“经济走向繁荣”“市场走向成熟”这样的表达,这里的“走向”表示事物朝着某个方向发展的趋势,强调一种动态的变化过程。在社会发展方面,“社会走向进步”“文明走向融合”等表述也体现了“走向”在描述社会发展方向时的高频使用。从语义角度来看,“走向”的语义具有一定的抽象性和概括性,它不仅仅表示简单的动作朝向,更强调一种趋势和方向,是一个相对固定的语义单位。“倾向”同样是高频词,在表达个人态度、意见或趋势时频繁出现。在政治、文化、学术等领域,我们经常会听到“他倾向于支持这个政策”“这种文化倾向于保守”“学术研究倾向于创新”等说法。“倾向”的高频使用是因为它能够准确地表达人们内心的态度、观点以及事物发展的倾向性,在各种讨论和交流中具有重要的表达作用。其语义明确,指对某事物的偏向、趋势或态度。相比之下,“看向窗外”是一个短语,虽然在描述视觉动作和方向的语境中会出现,但频率相对较低。在日常生活场景中,如“他无聊地看向窗外”“她好奇地看向窗外”,“看向窗外”用于描述人们将目光投向窗外的动作。其频率较低的原因在于,这种具体的视觉动作描述相对较为局限,只在特定的场景和表达需求下才会出现。从语义上看,“看向窗外”是由“看”这个视觉动作和“窗外”这个方向组成,语义是简单的动作与方向的组合,即把视线朝着窗外的方向。“跑向操场”也是短语,在描述跑步动作和目的地方向的语境中会出现,但频率不高。在学校、体育场馆等场景中,可能会出现“学生们跑向操场集合”“运动员跑向操场准备比赛”这样的句子。“跑向操场”的频率受限是因为它与具体的跑步动作和特定的地点相关,使用场景相对较窄。语义上,它表示通过跑步的动作朝着操场的方向前进,是“跑”的动作和“操场”这个方向的结合。综上所述,在“V向”结构中,频率较高的“V向”形式多为词,它们具有更抽象、概括的语义,在各种领域和语境中都有广泛的应用。而频率较低的“V向”形式通常是短语,其语义较为具体,是由“V”的动作和“向”后面的方向或对象简单组合而成,使用场景相对较为局限。这进一步说明频率在“V向”结构的词和短语区分中具有重要的参考价值,能够帮助我们判断“V向”结构的成词性和语义特点。5.3同义场同构槽字串频率考察5.3.1亲属义场在亲属义场中,同构槽字串的频率表现与词和短语的区分密切相关。以“父X”和“母X”结构为例,“父亲”是词,在各类文本中出现频率较高,如“我的父亲是一位勤劳的人”“他的父亲在外地工作”。“母亲”同样是高频词,如“母亲对我的关怀无微不至”“她的母亲是一位教师”。这是因为“父亲”和“母亲”作为核心亲属称谓,在人们的日常生活、情感交流以及社会文化中都具有重要地位,是人们表达家庭关系和亲情的基本词汇,所以使用频率高。与之相比,“父系”“母系”虽然也是词,但它们的使用场景相对较窄,主要用于人类学、社会学、历史学等学科领域,描述家族血统、传承等相关内容,如“这个家族是父系社会”“母系氏族社会有其独特的文化特征”。在日常生活中的使用频率相对较低。而“父的”“母的”这样的表达则更倾向于是短语,在一些方言或特定的口语表达中可能会出现,但频率极低,例如在某些方言中可能会说“我父的兄弟”“她母的姐妹”。这表明在亲属义场的“父X”和“母X”结构中,高频出现的“父亲”“母亲”更倾向于是词,它们的语义固定,是人们表达亲属关系的常用词汇。而频率较低的“父系”“母系”以及更罕见的“父的”“母的”,其成词性相对较弱,或者更符合短语的特征。再看“兄X”和“弟X”结构,“兄弟”是一个高频词,在各种语境中都频繁出现,既可以表示哥哥和弟弟的统称,如“他们是兄弟俩”;也可以在口语中表示关系亲密的朋友,如“咱们是好兄弟”。“兄长”同样是词,在一些正式场合或文学作品中经常出现,如“兄长的教诲我铭记在心”。而“兄的”“弟的”这样的组合更倾向于是短语,在日常表达中几乎很少使用,只有在一些非常特殊的语境或方言中可能会出现,频率极低。这体现了在亲属义场的“兄X”和“弟X”结构中,高频词“兄弟”“兄长”具有更强的成词性,它们是人们在表达亲属关系和情感时常用的词汇。而低频出现的“兄的”“弟的”等,由于其使用频率低、结构松散,更符合短语的特点。5.3.2动物、身体义场在动物义场中,以“牛X”和“马X”结构为例,“牛奶”是词,在日常生活中提及饮食、营养等话题时经常出现,如“我每天早上都喝牛奶”“牛奶富含蛋白质”。“牛肉”同样是高频词,在讨论食物、烹饪等场景中频繁出现,如“我喜欢吃牛肉”“这家餐厅的牛肉很美味”。这是因为牛奶和牛肉是人们日常生活中常见的食品,与人们的生活密切相关,所以使用频率高。“马蹄”在涉及动物身体部位、中医药材、烹饪食材(马蹄糕等)等相关文本中会出现,也是词。相比之下,“牛毛”虽然是词,但在现代日常表达中,其使用频率相对较低,更多地出现在一些文学描写或特定的语境中,如“多如牛毛”这个成语。“马鬃”同样使用频率较低,主要用于描述马的身体特征或在一些与马相关的专业领域中出现,如马术、养马等。而“牛的”“马的”这样的组合更倾向于是短语,在日常表达中很少使用,频率极低,只有在一些特定的描述中可能会出现,如“这是牛的脚印”“那是马的鬃毛”。这表明在动物义场的“牛X”和“马X”结构中,高频出现的“牛奶”“牛肉”“马蹄”等更倾向于是词,它们在人们的生活和语言表达中具有重要地位。而频率较低的“牛毛”“马鬃”以及罕见的“牛的”“马的”,其成词性相对较弱,或者更符合短语的特征。在身体义场中,以“眼X”和“耳X”结构为例,“眼睛”是高频词,在各种文本中频繁出现,如“他的眼睛很明亮”“眼睛是心灵的窗户”。“耳朵”同样是高频词,如“我听到了他的声音,耳朵一下子竖了起来”“耳朵能帮助我们感知声音”。这是因为眼睛和耳朵是人体重要的感官器官,在人们的日常生活、感知世界以及语言表达中都具有不可或缺的作用,所以使用频率高。“眼角”在描述面部特征、表情等语境中会出现,是词。“耳垂”同样是词,在提及身体部位的细节或在一些医学、美容相关的文本中可能会出现。相比之下,“眼的”“耳的”这样的组合更倾向于是短语,在日常表达中很少使用,频率极低,只有在一些非常特殊的语境中可能会出现,如“这是眼的分泌物”“那是耳的轮廓”。这体现了在身体义场的“眼X”和“耳X”结构中,高频词“眼睛”“耳朵”“眼角”“耳垂”等具有更强的成词性,它们是人们表达身体部位和相关概念的常用词汇。而低频出现的“眼的”“耳的”等,由于其使用频率低、结构松散,更符合短语的特点。5.4分析与总结综合上述对“同构槽”字串、“动结式”与“动趋式”同构槽以及同义场同构槽字串的频率考察,可以清晰地看到频率在这些细分类中对词和短语的区分具有显著作用,但也存在一定的局限性。在“同构槽”字串中,“大X”“小X”“老X”“X头”等结构里,高频出现的二字串如“大家”“小孩”“老师”“石头”等往往更倾向于是词,它们在人们的语言表达和认知中具有较高的稳定性和普遍性,语义相对固定。而低频出现的二字串,如“大桶”“小杯”“老房子”“纸头”等,其结构相对松散,语义是两个成分的简单组合,更符合短语的特征。这表明在同构槽字串中,频率与成词性之间存在一定的关联,频率可以作为判断同构槽字串成词性的一个重要参考因素。例如,在“大X”结构中,高频词“大家”在各种语境中都频繁出现,其语义是一个固定的集合概念,指代一定范围内的所有人;而“大桶”作为低频出现的二字串,它只是“大”和“桶”的简单组合,语义较为单一,在语境中的使用频率较低。“动结式”与“动趋式”同构槽频率考察中,“V到”和“V向”结构里,高频出现的“看到”“找到”“走向”“倾向”等更倾向于是词,它们的语义相对固定,是人们在日常交流和表达中常用的词汇。而频率较低的“走到教室”“飞到北京”“看向窗外”“跑向操场”等则是短语,其语义是由“V”的动作和“到”或“向”后面的对象或方向组合而成,结构和语义相对较为松散。这说明频率在“动结式”与“动趋式”同构

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论