唐宋诗中词汇语义相似度的的统计分析及应用.pdf_第1页
唐宋诗中词汇语义相似度的的统计分析及应用.pdf_第2页
唐宋诗中词汇语义相似度的的统计分析及应用.pdf_第3页
唐宋诗中词汇语义相似度的的统计分析及应用.pdf_第4页
唐宋诗中词汇语义相似度的的统计分析及应用.pdf_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

唐宋诗中词汇语义相似度的统计分析及应用 唐宋诗中词汇语义相似度的统计分析及应用 胡俊峰 俞士汶 北京大学计算机系计算语言学研究所 背景 100871 摘要 摘要 基于上下文的词汇向量空间模型可以用来近似的描述词汇的语义 在此基础上定 义的词汇相似或聚类关系可以应用于词典编撰 智能搜索引擎的开发等许多领域 本研究1基 于 640 万字的唐宋诗语料 在进行多字词计算机辅助提取的基础上 定义了相应的词汇语义 的统计表达 建立了词汇相似关系的语义网络 开发了具有词义联想功能的面向概念的唐宋 诗搜索引擎 实际验证达到了实用水平 关键词关键词 词义相似度 词义联想 概念检索 唐宋诗 Word meaning Similarity analysis in Chinese Ancient Poetry and Its Applications Hu Junfeng Yu Shiwen The Institute of Computational Linguistic Computer Science Dept Peking University Beijing 100871 Context environment can be used to describe the meaning similarity between words Corpus based similarity word extraction can be used in various kind of fields such as lexicon compiling and intelligent search engine Based on 6 4 million chars of Chinese ancient poetry a statistic model was defined to extract contextual similarity words from the corpus A concept based intelligent search engine for Chinese ancient poetry was developed on top of the word similarity relations The result is encouraging 1 引言 引言 中国的诗歌艺术源远流长 诗歌作为一种最接近口语化的大众化文学形式 在汉语文化 的成长 演变与传播中占有着极重要的地位 对古诗词的研究历来是汉学研究的热点 北大计算语言学研究所研制开发的 唐宋诗计算机辅助研究系统 4 收录了 640 万字的 全唐诗和部分宋诗语料 系统在对诗文进行词语切分的基础上 建立了词汇的共现关系 对 仗关系以及词汇的作者分布特征信息 系统实现了面向诗文内容的全文检索 开发了基于词 汇的统计分析和诗句相似性检索等功能 实现了对唐宋诗的自动注音 为进一步开展唐宋诗 的计算机辅助研究创造了条件 对诗歌进行研究 离不开语义的研究 在中国古代诗歌中 一个词的意义 除了其 本意外还大量使用其隐喻义 作为后人 不了解这些词汇的隐喻义就很难准确的理解诗中 所表达的意境 例如要理解唐詩 遠離別 昨日盧梅塞口 整見諸人鎮守 都護三年不歸 折盡江邊楊柳 中楊柳的含义 单知道楊柳是一个名词 或是一种落叶乔木 都是不够的 1 国家社会科学基金项目 项目号 98BYY022 和北京大学 985 计划项目 本研究同时得到了台湾元智大 学罗凤珠老师的支持和帮助 注解古代诗歌常用的一种方法是在注释中引用同时代或更早时期诗文中相似的用例 下面列出了几个有关的用例来参照上文中的楊柳 昔我往矣 楊柳依依 今我来思 雨雪霏霏 诗经 采薇 纖纖折楊柳 持此寄情人 一枝何足貴 憐是故園春 唐 張九齡 贈君折楊柳 顏色豈能久 上客莫沾巾 佳人正回首 唐 李瑞 有了这几个用例 回头再去读原诗 可能就会有比较好的理解 在这种注释方法里蕴含了一个基本假设即 要了解一个词的意义 不妨观察一下它 在实际语言环境中的用法 80 年代以来国外兴起的基于大规模真实语料库的通过同现词 collocation 相关句例 concordance 来研究词汇语义的方法也是出于同样的考虑2 能否通过对唐宋诗语料进行自动分析来帮助了解诗歌中词汇的语义就成为本项研究的原 始出发点 2 唐宋诗中词汇的界定 唐宋诗中词汇的界定 研究词汇的语义必须首先确定词汇的基本单元 唐宋诗语言中有没有多字词 有多少 多字词 在学术上依然是一个值得研究的问题 系统根据古诗词语料的特点设计了以 相对共现度 结合强度 频度 为参数的 多维度未登录词统计发现模型 尝试运用统计手段对唐宋诗语料进行了未登录词的发现 经 过人工校对及标注 建立了超过 5 万词条的唐宋诗词表 5 统计手段的引入 使人们能够有一个相对客观的标准来识别唐宋诗中的多字词 如 青 山 落花 春水等通常不被认为是词 但这些词汇在唐宋诗中使用频度很高 具有明显的统 计特征 分析发现 这类词汇一般都具有较为明确的隐喻义 或者说 单从字面义来看并不 能完全反映在诗歌中的实际用法 因此在唐宋诗语言中具有 词 的特性 另外一些词如 牙床 小槽 代北等由于社会环境的变化 在现代汉语中已经不是词或词义已发生根本变化 但在古汉语中的确是词 上述词条在辞源中均未收录 实验表明 将这些词条收入词典 为进一步的词汇相关分析 唐宋诗相似句检索 诗歌 意象分析等应用创造了较好的基础 3 词汇语义特征的统计描述 词汇语义特征的统计描述 基于语料库的词义研究大都采用了上下文语境的统计描述方法 即认同这样一个论断 词语的上下文可以为词语定义提供足够信息 2 当然 在具体操作的时候都在很大程度 上定义了一个简化的数学模型来刻画词汇的用法 作为简化的第一步 使用单句内的上下文来代替整个上下文语境 这就成为语料库研究 中的 相关句列 concordance 由于整句的相似计算目前还很难自动进行 所以为了方便 计算机处理 常用的方法是通过上下文词汇的向量空间模型来近似表征词汇的上下文语境 进而可以计算出词汇之间的语义相似关系 在这方面比较有代表的研究有Dekang Lin ACL1998 对英语语料做的词汇自动聚类研究 1 相关的一些研究还引入了上下文词类信 息来进一步约束词汇的语境相似度 取得了较好的成果 在中文处理方面有通过词汇的上下 文语境对部分词汇的相似度进行的自动分析研究 3 也有在汉语词类的自动判定方向的研 究 通过带词性信息的搭配结构来对词汇进行自动分类的研究也取得了初步的成果 2 Sinclair J 1991 Corpus concordance collocation Oxford Oxford University Press 作为唐宋诗语料 其中绝大多数语句的长度在 7 个汉字 7 言 以内 同时句偶之间常 常存在对仗关系 根据这些特点 我们采用了如下改进的模型来描写词汇的上下文语境信息 在给定的语料库 和词表 中 特定词语 x 在 上的语义 x 定义为如下五元组 x x x x 其中 x 为 x 的左同现词汇特征向量 x 为 x 的右同现词汇特征向量 x 为对仗词汇 特征向量 特征向量的元素为特征词与特征值组成的二元组 y xy log xy xy log x log y 其中 xy 为 y 在对应的 x 的相对位置上出现的频度 同一句的左边 右边或对仗位置上 x y x y 分别是 x y 在语料库 中出现的频度 需要指出的是 词表 的选择对词汇语义关系的提取有很大的影响 词表选择不当将会 对词义关系的提取带来很大的噪声 关于这方面的评估将另辟专文讨论 4 词汇语义相似度的计算 词汇语义相似度的计算 根据上面对词汇语义的统计描述 两个词之间的语义相似度 Sim x y 可以通过计算其 在三个不同的词汇特征空间 x x x 中的距离来得到 距离越小 相似度越大 Sim x y 1 k1 xy k2 xy k3 xy 其中k1 k2 k3是可以根据语料库实际情况进行调整的加权参数 向量距离的计算公式为 yx n k yx k k 1 2 在给定的语料库中 当Sim x y 超过特定的阈值R3的时候 就定义这两个词x y在该语料 库中具有相似关系 x的所有相似词组成的集合为x的相似词集Lx 在对唐宋诗中的所有词条 包含单字词 的词汇特征向量进行统计提取的基础上4 我 们得以对所有词条的应用语境进行比较 在 6275 个频度比较高的词之间提取了 8 万多条统 计特征比较明显的词汇相似关系 表 1 中显示了按相似度排序的部分词对 观察发现 在词 汇相似关系中不仅包含了词汇的同义或近义关系 还包含有反义关系和一些其他相关关系 如何对不同种类的关系进行进一步的分类将是今后需要解决的一个问题 显然作为词义相似关系是自反的 即任何词与其本身构成相似关系 但由于这种性质在 实际应用中不具有太多的价值 所以在处理中所有与自身的相似关系被自动滤除了 进一步可以考察相似关系的传递性 即 如果 x y 相似 y z 相似 是否能导出 x z 也相 似呢 试验表明 当 x y 和 y z 之间都存在较强的相似关系的时候 x z 之间也可能导出有明 显直观意义的语义联系 表 2 显示了部分词汇的相似词和通过相似关系进一步导出的关联词 汇 其导出条件为 Sim x y Sim y z R 其中 R 为相似词的相似关系阈值 3 该阈值可以认为是一个经验值 是与目标的应用相关的 在具体实现的时候系统向用户提供了动态设置 敏感度 的功能 由用户根据实际的要求进行调整 4 根据统计只有 15708 个相对高频的词条具有统计意义上的同现词 表 1 唐宋诗中按相似度排序的部分词对 序列号 序列号 词词 1 词词 2 Sim 1 塵冠 松枝 198983469862988 2 燼 焰 187695040886896 3 行看 漸覺 185797010946744 4 蘚 苔 185613132141932 5 鱠 膾 185050335868794 10001 妝臺 胸 139602996154655 10002 燼 焰 138890009158225 10003 詩 題詩 138334574678817 10004 額 卷 138182423616238 10005 卷 玳瑁 138122427626431 20001 哀 涉 128890009158225 序列号序列号词词 1 词词 2Sim 20002 乎 矣 128033256016578 20003 津 遙 128252556789812 20004 門 扉 128022353497873 20005 梁 鵲 127956455645632 30000 挂 夜月 106799948565876 30001 詩思 興 106138229173353 30002 澀 黃鶯 106092324129135 30003 逶迤 回 106091050325003 30004 圍 重圍 106088229764103 30005 聞君 伴 106085837135553 表 2 部分词汇的相似词和同过相似关系进一步导出的关联词汇 目标词目标词 相似词相似词 关联词 由相似关系扩展得到的词汇 关联词 由相似关系扩展得到的词汇 白髮 白髮 華髮 鬢 霜 被 曉 妝 髮 年鬢 雙鬢 霜氣 成霜 霜凝 繡被 更被 逐 臨曉 到曉 曉霜 宿妝 靚 妝 梳 鶴髮 落花 落花 猶有 風急 綿綿 秋聲 離心 落葉 春風 惟有 空 相思 鱖魚 不同 空山 狂風 微風 促 積 籌 螢 鳥 佳期 此曲 故人 紅葉 黃葉 颯颯 東風 秋風 花木 日日 高枝 空傳 曉空 空望 相訪 相望 僧 僧 留僧 僧齋 山僧 邀 釣魚 神仙 師 蛾眉 天台 請 遠客 尋 吹簫 樓上 佛 蘭亭 公卿 貳師 東林 隱淪 飢 飢 飢鳥 飢烏 食 褭 汝 渴 飽 哭 叫 飲食 一食 空山 三聲 于 安 勤 夫 亦 菰 餐 嘯 飯 飯 香飯 餐 稻 米 朝餐 蔬 飽 香稻 雕胡 菰 食 食 飽 飲食 一食 無食 酸 糧 肉 飢 衣食 不 易 菰 餐 藜藿 檗 而 廚 飢鳥 飢烏 精神 力 嫌 單 之 之 其 而 求之 兮 我 當 可 乃 其名 其宜 奚 俟 矣 苟 非 亦 所 白芷 可歎 可論 可奈 5 面向概念的唐宋诗智能检索引擎的实现 面向概念的唐宋诗智能检索引擎的实现 从唐宋诗研究与欣赏的角度来讲 经常会遇到需要检索某一类的情况 如 希望检索 李白写的与战争有关的诗 或唐诗中描写离别的诗 或描写田间劳作的诗等 由于在诗歌中 经常使用隐喻 烘托等手法来表达诗歌的意境 这使用户很难直接给出相关的检索条件 在词汇相似 相关关系网络的支持下 系统开发了具有联想扩展功能的唐宋诗检索引擎 在该引擎的支持下 用户可以交互式的扩展自己的输入条件 根据自己的检索需求选定一组 相关的关键词进行检索 在图 2 中用户输入 衣 作为原始检索条件 通过交互式地扩展 用户可以方便的在扩展的词汇集合中选择到在唐诗中与衣物有关的词汇 如果把户输入关键词并交互扩展后得到词汇集 定义为一个概念 如图 1 中可以定义为 衣物 就可以依据以词汇集 及其相似词集导出的概念语义场 以下简称概念场 进行 概念检索 如果把检索对象整诗 或诗句 看作为几个词汇集 P 检索对象与检索概念之间 的相关度 可以通过下面的公式来计算 k PU Simy x ij i 其中所有xi UP 所有yij Lxi k为一个加权常数 据此 我们可以根据由一组相关的词汇所确定的概念语义场来进行检索 图 2 中显 示了以 离别 这一概念进行扩展检索得到的部分 5 言绝句的检索结果 由于检索结果按照 与 离别 概念的相关度进行了排序 排列在前面的检索结果具有非常强的离别的意象 图 1 通过对 衣 进行联想扩展得到的与 衣物 相关的词汇 据此可以进行真对 衣物 这一概念进行扩展和意象检索 图 2 以 离别 这一概念进行扩展检索得到的部分 5 言绝句的检索结果 6

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论