(语言学及应用语言学专业论文)面向信息处理的介词短语“往X”的边界识别研究.pdf_第1页
(语言学及应用语言学专业论文)面向信息处理的介词短语“往X”的边界识别研究.pdf_第2页
(语言学及应用语言学专业论文)面向信息处理的介词短语“往X”的边界识别研究.pdf_第3页
(语言学及应用语言学专业论文)面向信息处理的介词短语“往X”的边界识别研究.pdf_第4页
(语言学及应用语言学专业论文)面向信息处理的介词短语“往X”的边界识别研究.pdf_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

论文题目:面向信息处理的介词短语“往+ x 边界识别研究 学科专业:语言学及应用语言学 学位申请人:江艳 指导教师:任海波副教授 内容摘要 本文研究的目标是实现介词短语“往+ x 在计算机中的自动识别,要实现 这一目标,首先就是要让计算机能够自己确定介词短语“往+ x ”的左右边界, 介词短语“往+ x 的左边界是介词“往 ,难点在于计算机无法确定它右边界的 位置,所以本文的研究重点在于如何确定其右边界的位置。我们选择了2 0 0 1 年 作家文摘和人民日报的语料作为我们研究的基础,在对语料逐条标注的 基础上进行分析,找到介词“往+ x ”右边界词的出现规律,再制定识别规则来 识别短语。全文共分五章: 第一章:主要是从本体语言学和计算语言学两个方面对前人研究进行了概 述,提出我们的研究内容和目标。 第二章:主要对介词短语“往+ x 的右边界的识别分析,根据我们的语料, 把可以进入“x 的分成词和短语两种情况进行分析,对介词短语“往+ x 的内 部组合结构进行归纳,并且判断“x ”的右边界标志词。 第三章:主要研究介词短语“往+ x ”的右相关词“y 特征,由于“x 中 隐性边界标志词很难识别,所以必须借助右相关词“y ”来帮助计算机识别。我 们通过研究“x ”的右边界和右相关词“y 的共现特征,选择部分右相关词来 帮助计算机识别。 第四章:基于v is u b i b a s i c 的介词短语“往+ x 的自动识别,根据对“x 和 “y 的分析,制定算法,运用v b 语言进行程序设计,让计算机可以自动识别 出介词短语“往+ x ”,并且进行一定数据的测试,找出算法设计上的不足。 第五章:结语部分是对本文的主要结论,研究目的,研究方法以及未来需要 做的研究工作的说明。 关键词:“往+ x 右边界识别右相关词分析程序设计 论文类型:应用研究 t i t l e :i n f o r m a t i o np r o c e s s i n g - o r i e n t e da n a l y s i so np r e p o s i t i o np h r a s e w a n g + fa n da u t o m a t i c i d e n t i f i c a t i o ni nc o m p u t e r g a j o r :l i n g u i s t i c sa n da p p l i e d l i n g u i s t i c s c a n d i d a t e : i a n gy a h t h e s i ss u p e r v i s o r :p r o f e s s o rr e nh a i b o a b s t r a c t t om a k ec o m p u t e ra u t o m a t i ci d e n t i f i c a t ep r e p o s i t i o np h r a s e w a n 水”i so u r r e s e a r c hg o a l t h em o s td i f f i c u l t yt h i n gi sh o wt om a k es u r ei t sr i g h tb o u n d a r y , s ow e f i n ds o m em l e sb ya n a l y s i so u rc o r p u st h i sa r t i c l ei sd i v i d e di n t o5c h a p t e r s : c h a p t e r li ss u m m a r i z a t i o na b o u tp r e p o s i t i o n w a n g a n ds h o wo u r r e s e a r c hg o a l c h a p t e r 2f o c u s e so n h o wt oi d e n t i f i c a t er i g h tb o u n d a r yi np r e p o s i t i o np h r a s e w a n g + x ,w ed i v i d e “x ,i n t ow o r da n dp h r a s et w op a r t s ,b ya n a l y s i s i n gt w op a r t s ,w ec a n f i n ds y m b o lw o r d si nr i g h tb o u n d a r y c h a p t e r 3d i s c u s s e sr i g h t - r e l a t e dw o r d y ”,b ya n a l y s i s i n g l a wb e t w e e nr i g h t - r e l a t e d w o r d “y a n dp r e p o s i t i o np h r a s e w a n g + x ,w ef i n ds o m es y m b o lw o r d st oh e l p a u t o m a t i ci d e n t i f i c a t i o n c h a p t e r 4i st om a k ep r e p o s i t i o np h r a s e w a n g + x i d e n t i f i c a t ei nc o m p u t e r a c c o r d i n g t oa n a l y s i s ,w ew r i t e $ o m er u l e sa n dm a k ee x p e r i m e n t sa tl a s ta n a l y s i sd i s a d v a n t a g e p o i n t c h a p t e r5i st h ee p i l o g u e ,i tc o n t a i n st h ec o n c l u s i o na n df u r t h e rs t u d y w e o b t a i nt h e c o n c l u s i o na n dt h e np u tf o r w a r dw h a tt os t u d yi nt h ef u t u r e k e yw o r d s : w a n g + x r i g h tb o u n d a r y r i g h t - r e l a t e dw o r d r u l e t h e s i st y p e :a p p l i e dr e s e a r c h 主要符号表 a g 形语素 a 形容词a d副形词 a n名形词 b 区别词c连词 d g 副语素 d 副词 e叹词 f 方位词 语素 h前接成分 g l j 成语简称略语 k后接成分 1 习用语 m 数词 n g 名语素 名词n r人名n s地名 n n t机构团体n z 其他专名 。 拟声词 介词量词 r 代问 pq s 处所词 t g 时语素 t 时间词 助词 v g动语素 v 动词 u v d 副动词 v n名动词w 标点符号 x 非语素字 语气词z状态词 y 论文独创性声明 本论文是我个人在导师指导下进行的研究工作及取得的研究成果。论文中除 了特别加以标注和致谢的地方外,不包含其他人或机构已经发表或撰写过的研究 成果。其他同志对本研究的启发和所做的贡献均已在论文中做了明确的声明并表 示了谢意。 作者签名:砂已日期: 论文使用授权声明 砂哆d 一, , 本人完全了解上海师范大学有关保留、使用学位论文的规定,即:学校有权 保留送交论文的复印件,允许论文被查阅和借阅:学校可以公布论文的全部或部 分内容,可以采用影印、缩印或其它手段保存论文。保密的论文在解密后遵守此 规定。 储签名 牲燧铂敞旦翌: y o ( ;。f , 上海师范大学硕士学位论文第一章绪论 第一章绪论 1 1 计算语言学方面的研究 1 1 1 课题提出的理论背景 计算语言学的研究始于机器翻译。1 9 6 4 年,美国宾夕法尼亚大学的埃克特 和莫希莱设计了的第一台计算机e n i a c 。1 9 5 4 年,美国乔治敦大学在国际商用 机器公司( i b m ) 的协同下,用i b m 一7 0 1 计算机进行了世界上第一次机器翻译 实验,首次用计算机把俄语译成了英语,这次实验取得了初步的成功。随后,各 国都掀起了机器翻译的研究热潮。早期的机器翻译方法与解读密码的方法相类 似,研究者试图通过查询词典的方法来实现词对词的机器翻译,但是机器翻译是 一个很复杂的过程,用这种办法得到的译文其可读性很差,难于付诸实现,所以 研究者开始认识到从计算机处理自然语言的角度分析语言的重要。1 9 6 4 年美国 科学院专门成立了一个“自动语言处理咨询委员会 ( 简称a l p a c ) ,在a l p a c 报告中首次出现了“计算语言学”这个概念。在此以后,计算语言学的研究开始 侧重于对自然语言理解的研究,它通过建立形式化的数学模型来分析、处理自然 语言,并在计算机上用程序来实现分析和处理,从而达到以机器来模拟人的部分 乃至全部语言能力的目的。 在对自然语言的处理过程中,我们将其分为词法分析、句法分析、语义分析 三个层次。词法分析的任务是将句子中的“词 离析出来,并对词的内部构造形 式进行分析,然后标注词性。句法分析的任务是判断输入的单词序列能不能构成 合乎语法的句子,并抽取句子的句法结构。它运用句法规则和其他知识,将句子 中单词之间的线性次序,变成非线性的数据结构。语义分析的任务是分析语言文 本的语义单元之间的依存关系。对早期计算语言学句法研究影响最大的是乔姆斯 基的形式语言理论,乔姆斯基定义了0 型文法、上下文无关文法、上下文有关文 法和有限状态文法,他的理论被应用于自然语言的自动句法分析和生成中。除此 以外,1 9 6 9 年厄尔利提出的厄尔利算法、1 9 8 0 年马丁提出的线图分析法、1 9 8 5 年富田胜提出的富田胜算法,都为自然语言的自动句法分析提供了理论基础。在 语义的自动分析方面,1 9 7 2 年,美国人工智能专家西蒙斯和斯乐康首先将语义网 络用于自然语言理解系统。2 0 世纪7 0 年代初,美国数理逻辑学家蒙塔格提出蒙塔 格语法,用数理逻辑来研究自然语言的句法结构和语义关系。从1 9 8 9 年,计算语 言学开始进入了大规模真实文本处理的新时期,研究者在基于规则的技术中引入 了语料库方法,其中包括统计方法、基于实例的方法、通过语料加工手段使语料 库转化为语言知识库的方法等等。 第一章绪论 上海师范大学硕士学位论文 总的来说,自然语言处理在研究方法上主要有两种:一种是基于规则的方法 先依据某种语言理论来建立语言模型,再从语言模型构造规则系统。一种是基于 语料库的方法,在调查和分析大规模语料的基础上,用统计学的方法处理自然语 言。目前在语言处理的各个层面上基于统计的方法发挥着重要的作用主要的统 计模型有:马尔科夫模型、最大嫡模型、支持向量机模型。其中最常用的是n 元模 型。如果把基于规则方法与基于统计方法结合,必定会推动计算语言学的进一步 发展。 1 1 2 前人关于短语识别的研究 对短语的识别研究是计算语言学的一个重要内容。由于自然语言的灵活性和 复杂性,使得完全句法分析成为自然语言处理中一项十分艰难的工作。按照自然 语言语法对语言结构进行划分,分为词、短语和句子三个不同层次的语法单位。 以前,从词到短语、从短语到句子均由一个算法来分析。但是,如果出现错误的 话,前一层的分析错误就会影响后面的分析,错误层层叠加,导致句法分析正确 率低。因此,有必要将短语分析与句子分析分开处理,使基本的短语分析能像词 性标注一样取得较好的正确率,从而为后续的句法分析打下坚实的基础。这个基 本的短语分析过程就是浅层句法分析,它先识别出确定性强的部分分析结果,降 低了完全句法分析的难度。1 9 9 1 年a b n e y 提出了浅层句法分析的思想,也称为组 块分析或基本短语分析,其目的是识别出确定性强的部分分析结果,以降低完全 句法分析的难度。基于统计模型的分析在浅层句法分析中的应用,取得很好的效 果。 9 0 年代以来,国内引入英语信息处理技术和浅层句法分析的思想,在汉语短 语层面展开了广泛的研究。早期的研究主要是对汉语短语标注和短语边界识别, 主要有成果有:张国煊等( 1 9 9 4 ) 介绍了一种基于统计信息的分析汉语边界的方 法,利用汉语句子标记串的互信息,反映词与词结合的紧密程度,从中分析句子 短语边界。为进一步分析汉语句子打下基础。周强( 19 9 6 ,19 9 7 ) 提出了一套基于 统计的汉语短语自动划分和标注的算法。它分为预测划分点、括号匹配和分析树 生成等三个处理阶段,利用了从人工标注的树库中统计得到的各种数据进行自动 句法排歧,最终得到一棵最佳句法分析树,从而可以自顶向下地完成对一句子短 语自动划分和标注。张昱琪( 2 0 0 2 ) 应用基于实例的m b l 的学习方法,对汉语中较 为常见的九种基本短语的边界和类别进行了识别。刘芳、赵铁军等( 2 0 0 0 ) 定义了 汉语组块体系,并采用增强的马尔科夫模型对汉语组块进行了组块识别。詹卫东 ( 1 9 9 9 ) 考察了汉语实组块以及短语定界歧义问题。从歧义格式的组成成分,歧义 对外造成的影响,模式歧义和实例歧义的对应关系三方面考察了短语结构定界歧 2 上海师范大学硕士学位论文第一章绪论 义的不同类型,并对汉语短语结构定界歧义的不同类型进行了初步统计。对汉语 短语标注和边界识别的研究都有助于计算机对汉语短语的识别。但是,汉语短语 的类型也是非常复杂的,所以后来也随之出现了针对某一类型的短语的识别研 究,主要研究其边界的分布情况,制定更有针对性的识别策略。这一方面名词短 语的研究比较多:张瑞霞、张蕾( 2 0 0 4 ) 提出了基于知识图的汉语基本名词短语分 析模型。周强、孙茂松等( 2 0 0 0 ) 等全面分析了最长名词短语的分布特点,该文首 先寻找特殊成分,如并列结构,在成分组内部和成分组之问进行词语块边界预测。 然后,对两种不同的边界确定方法作了比较。一种是基于n p 边界分布概率的算法。 另一种是基于n p 内部构成的算法。其它短语类型的研究主要有:方芳( 2 0 0 6 ) 使用 回退模型识别了数量名短语,利用匹配搭配词典和参考通过训练得出的搭配概率 的方法,能够较好地在分词及词性标注文本上自动识别量名短语。曹建芳、郑家 恒( 2 0 0 4 ) 基于s v m 识别汉语动词短语。将支持向量机( s u p p o r tv e c t o r m a c h i n e s ,s v m ) 机应用到汉语短语识别中,提出了一种基于支持向量机的汉语动 词短语自动识别算法的设计与实现和传统的基于规则的方法相比取得了比较满 意的结果。 关于介词短语的识别有:吴云芳( 1 9 9 8 ) 运用不完全句法分析的方法,在 介词自动标注的过程中,只观察介词结构的关键词一介词,内相关词,外相关词, 而不关心介词结构内部的搭配,依据最大概率配对原理对关键词进行匹配。王立 霞( 2 0 0 5 ) 在不引进复杂的句法分析的前提下,对介词短语的右边界进行识别研 究,主要研究介词短语边界词和右相关词的关系,建立概率模型来识别了介词右 短语边界。干俊伟、黄德根( 2 0 0 5 ) 根据介词短语和介词短语右边界组成的搭配 模板自动提取可搭配关系,并用这种这些搭配关系对介词短语进行识别。目前对 于介词短语的识别研究还相对较少。 从以上的分析中,我们可以看出在短语识别方面,学者们已经做了不少的研 究,但是关于往字短语的识别研究,还没有人做过尝试。 1 2 本体语言学方面的研究 “往 是现代汉语中常用的介词之一。前人对介词在关于介词“往 的本体 研究已经非常多了,我们主要归为四大类: 第一类对“往 的介词用法的归纳,其中以吕叔湘先生( 1 9 8 0 ) 的观点为代表, 吕先生认为介词“往 的用法大致分为三种:1 、表示动作的方向。跟处所词语组 合,用在动词后。动词限于“开、通、迁、送、寄、运、派、飞、逃等少数几 个。2 、往+ 形动+ 里。其中,形容词、动词限于少数几个单音节的。口语色彩较 第一章绪论 上海师范大学硕士学位论文 浓。也读“w a n g 一。3 、表示动作的方向。跟方位词、处所词组合,用在动词前, 一般写“往一,也有写“望 的。 第二类是对比研究,通过对“往 与“朝、到、向 等介词的比较,从一些 新的视角对“往”的介词用法进行研究。赵新( 2 0 0 2 ) 从语义特征、句法组合、语 用选择三个方面对“向、朝、往 进行了比较从而得出了这样的结论:1 、从语义 特征来看,“往 主要表示动态的移动,一般不表示静态的朝向,在表示动态的 移动时( 包括引申意义的移动趋向) ,三者可以互换。在表示具体的动态移动时, 谓语动词一般具有“位移 义,在表示引申意义的移动时,动词可不具有“移动 义。“向 和“往都可与处所名词组合,表示动作移动的方向,“往一所表示 的移动是单向的,是由别处向介词宾语表示的处所移动,而“向 所表示的移动 是双向的,既可由别处向介词宾语表示的处所移动,又可由介词宾语所表示的处 所向别处移动。在表示动作移动的方向时,“向、朝、往 三者可以互换,但是 在表示动作行为移动的对象时,通常用“向”或“朝 ,而不能用“往一。2 、 从句法组合来看,介词“往 的语法意义是表示方向,与名词动词搭配时会选择 表示方位、处所的名词和表示位移义、给予义的动词。3 、从语用选择来看,介 词“往在北京口语中的使用频率较高。张俐( 2 0 0 1 ) 认为:1 、在表示方向处所意 义上,“向、往、朝 是相通的,而不同的是语体色彩上的差异。“向、往、朝 跟名词性词语组合,语义上的不同点是:“向、朝 可以表示对象义,而“往 不能。2 “向、往、朝”同名词性词语组合作状语,这是他们句法结构上的相同 点。而句法功能上的相异点表现在:“向 和“往 可以同名词性词语组合作补 语,而“朝 则不能。表处所的可以将“向 换成“朝 ,表对象的则不可以。 “往+ n p 充当处所补语时,“往”似乎不可以用“向 代替,但可以换成“到 。 3 、在某些情况下介词“往 可以省略。方绪军( 2 0 0 4 ) 讨论了“v 向 和“v 往 这两种格式在v 的选择上,“v 向”和“v 往后续成分以及它们与宾语语义关系 等方面的差异。指出“向主要引出“v ”的方向,而“往 是引出“v 一的方向 兼终点。肖任飞( 2 0 0 6 ) 对介词“向 “往“朝 的句法语义模式进行了深入 的分析,并对句法语义模式的差异从语法化角度进行了解释。 第三类对关于介词“往的结构研究。储泽祥( 2 0 0 5 ) 从现代汉语共时平面 探讨“v 往+ o 的约束情况,能够进入格式的动词“开、同、飞、送、寄、逃 等具有非内向性位移,速度较快,有位移工具等语义特征,“0 ”具有距起点远, 范围较大等特征,从历时角度考察“往 带有动词性的语义特征。刘培玉( 2 0 0 5 ) 在“把字句里,“往 字短语可以在动词前后出现,即“n p 把0 往l v p 、“n p 把o v 往l 这两种句式在句法和语义上都存在着差异,两种旬式之间的变换诸多 的制约因素,包括“l 音节、“l ”的成分、动词的类、“往l 的次范畴、“往 4 上海师范大学硕士学位论文第一章绪论 l 蕴涵的语义角色和“把的宾语的语义角色。 第四类对介词“往 的语法化研究。邵宜( 2 0 0 5 ) 是对介词“往”的语法化 过程考察,作者认为“往 最初其实是个表示趋向的动词。“往 大概在唐宋年 代开始虚化,到了明清年代,用作介词的例子已经比较多见。但其完全作为介词 来使用,还是近一百年的事。其语法化的动因,从结构上说,首先是处所词的出 现,再就是连谓结构的形成。从语义上讲,处所词表示的语义指向由“往 移到 了后面的动词,表示动作行为的方向。 从以上的研究中可以看出,研究者对“往 字短语的句法语义特点关注比较 多,但是还不能利用上述的研究结论来让计算机识别“往”字短语,计算机不能 像人一样依靠语义的理解来识别某个短语,必须要借助对语言的形式分析,来识 别短语,计算机识别“往 字短语的难点在于,它不能自己确定短语的右边界, 所以我们必须从计算机处理自然语言角度重新对“往”字短语的右边界进行界定。 1 3 我们的研究 1 3 1 本文的研究目标 根据以上的分析,我们可以看到对汉语短语识别的研究是实现计算机对汉语 句法分析的一个重要步骤。往字短语是汉语常用短语之一,但是还没有人做过对 往字短语的识别研究,所以我们提出了我们的研究目标是尝试实现介词短语“往 + x ”在计算机中的自动识别。 1 3 2 本文的研究方法 本文主要采用规则和统计的方法来实现我们的研究目标。我们选择了2 0 0 1 年作家文摘和 i n s t r ( z ,s ) a n di n s t r ( z ,”f ) i n s t r ( z , r ”) a n di n s t r ( z ,”f ) i n s t r ( z ,”1 1 ) a n di n s t r ( z ,”f ) i n s t r ( z ,”r ”) t h e n w = l e f t ( z ,i n s t r ( z ,”f ) ) t e x t 2 t e x t = w e n d i f 判断方位词是否存在,如果方位词存在,并且位于处所词,名词和名词之后, 那么确定方位词在字符串z 中的位置,然后截取自方位词的左边的字符串w ,最 后将w 赋值给文本框2 ,输出介词短语。 如果方位词不存在,那么结束判断,进入下一个程序。 i fi n s t r ( z ,s ) i n s t r ( z ,”f ) a n di n s t r ( z ,”s ”) i n s t r ( z ,”n ”) a n di n s t r ( z ,”s ”) i n s t r ( z , r ”) t h e n w = l e f t ( z ,i n s t r ( z ,s ”) ) t e x t 2 t e x t = w e n d i f 判断处所词是否存在,如果处所词存在,并且位于方位词,名词和代词之后, 那么确定处所词在字符串z 中的位置,然后截取处所词的左边的字符串w ,最后 将w 赋值给文本框2 ,输出介词短语。 如果处所词不存在,那么结束判断,进入下一个程序。 i fl n s t r ( z ,”r f i ) i n s t r ( z ,”s ”) a n di n s t r ( z ,”r t ) i n s t r ( z ,n ”) t h e n w = l e g z ,i n s t r ( z , r ) ) t e x t 2 t e x t = w e n di f 判断名词是否存在,我们用右相关词 v 来识别“往+ n 结构。如果名词存 在,并且位于方位词和处所词之后。单音节动词和双音节动词都可以位于介词短 语“往+ x 之后,所以我们截取了两种不同的字符串w l 和w 2 。 i fi n s t r ( w 2 ,”1 1 ”) = 0t h e n t e x t 2 t e x t = w l e l s e t e x t 2 t e x t = w 2 e n di f 第四章基于v i s u a lb a s i c 的介词j i i 语“往+ x ”的自动识别上海师范大学硕士学位论文 e n dl t 再进步对字符串w 2 进行判断,判断“1 1 是否存在,在w 2 中,计算机从v 向左第4 个位置截取字符串,如果出现例如“往p 日本”其中“1 1 没有了,即 n = 0 ,说明v 是单音节动词,所以要选择w l ,让计算机从v 向左第3 位置截取 字符串,然后赋值给文本框2 ,输出 介词短语“往+ n 。如果1 1 不为0 ,那么说明v 是双音节动词,要选择w 2 ,然 后赋值给文本框2 ,输出介词短语“往+ n 。 如果介词短语“往+ n 后面的右相关词不是动词,那就要结束判断,进入下 一个程序。 i fi n s t r ( z ,竹n ”) h s t r ( z ,”f ) a n di n s t r ( z ,”n ”) i n s t r ( z ,竹s ) a n di n s t r ( z ,”v 竹) i n s t r ( z ,”d ”) a n di n s t r ( z , d t ) l n s t r ( z ,”n ”) t h e n w l = l e t t ( z ,i n s t r ( z , d 什) - 3 ) w 2 = l e f l ( z ,i n s t r ( z , d ) - 4 ) 当动词前出现副词时,右相关词变为副词,我们用右相关词”d 来识别“往 + n ”结构。和动词一样,副词也有单音节和双音节之分 所以我们截取了两种不同的字符串w l 和w 2 。 i fi n s t r ( w 2 ,”n ”) = 0t h e n t e x t 2 t e x t = w l e l s e t e x t 2 t e x t = w 2 e n di f e n d i f 再进步对字符串w 2 进行判断,判断“1 1 是否存在,如果n = 0 ,说明v 是 单音节副词要选择w l ,让计算机从d 向左第3 位置截取字符串,然后赋值给文 本框2 ,输出介词短语“往+ n 。如果1 1 不为0 ,那么说明v 是双音节副词,要 选择w 2 ,然后赋值给文本框2 ,输出介词短语“往+ n 。 如果介词短语“往+ n 后面的右相关词不是副词,那就要结束判断,进入下 一个程序。 i fi n s t r ( z ,竹n ”) h s t r ( z , f ) a n di n s t r ( z ,”1 1 什) i n s t r ( z ,”s 一) a n di n s t r ( z ,什a 什) h s t r ( z ,n 一) t h 锄 w l = l e r ( z ,i n s t r ( z ,”f l ) - 3 ) w 2 = l e f l ( z ,i n s t r ( z ,”a ”) - 4 ) 当动词前出现形容词时,右相关词变为形容词,我们用右相关词竹f l ”来识别 “往+ n ”结构。形容词也有单用和重叠之分所以我们仍然截取了两种不同的字符 上海师范大学硕士学位论文第四章基于v i s u a lb a s i c 的介词短语“往+ x ”的自动识别 串w l 和w 2 。 i fi n s t r ( w 2 , n ”) = 0t h e n t e x t 2 t e x t = w l e l s e t e x t 2 t e x t = w 2 e n di f e n di f 同样再对字符串w 2 进行判断,判断“n 是否存在,如果n = 0 ,说明v 是 单音节形容词要选择w 1 ,让计算机从a 向左第3 位置截取字符串,然后赋值给 文本框2 ,输出介词短语“往+ n 。如果n 不为o ,那么说明v 是双音节形容词, 要选择w 2 ,然后赋值给文本框2 ,输出介词短语“往+ n ”。 如果介词短语“往+ n 后面的右相关词不是形容词,那就要结束判断,进入 下一个程序。 i fi n s t r ( z ,n ) i n s t r ( z ,”f ) a n di n s t r ( z ,”1 1 ) i n s t r ( z ,”s ”) a n di n s t r ( z ,”的”) i n s t r ( z , 1 1 ) t h e n w = l e f t ( z ,i n s t r ( z ,”的”) 一2 ) t e x t 2 t e x t = w e n di f 当介词短语“往+ n 做定语时,右相关词是“的”,首先判断“的”是否 存在,并且“的”要位于名词之后,如果满足条件,那么确定“的在字符串z 中的位置,然后截取“的 的左边的字符串w ,最后将w 赋值给文本框2 ,输出 介词短语“往4 - n 。如果不满足条件,那么结束判断,进入下一个程序。 i fi n s t r ( z ,n ) i n s t r ( z ,”f ) a n di n s t r ( z ,”n ”) i n s t r ( z ,”s ”) a n di n s t r ( z ,”y ) i n s t r ( z ,”n ”) t h e n w = l e f t ( z ,i n s t r ( z ,”y ”) 一3 ) t e x t 2 t e x t = w e n di f 当介词短语“往4 - 1 1 ”后面是语气词( y ) 时,确定“y 在字符串z 中的位 置,然后截取“y 的左边的字符串w ,最后将w 赋值给文本框2 ,输出介词短 语“往4 - n 。如果不满足条件,那么结束判断,进入下一个程序。 i fi i l s t r ( z ,”n ”) i n s t r ( z ,”v ”) a n di n s t r ( z ,”n ”) i n s t r ( z ,”a ”) a n di n s t r ( z ,”,”) 0t h e i l w = l e f t ( z ,i n s z ,”,”) - 1 ) t e x t 2 t e x t = w 第1 ,q 章基于v i s u a lb a s i c 的介词短语“往+ ”的自动识别上海师范大学硕士学位论文 e n di f i fi n s t r ( z ,什n ”) i n s t r ( z ,”v 什) a n di n s t r ( z ,什n ) i n s t r ( z , n a n ) a n di n s t r ( z ,竹。”) 0t h e n w = l e r ( z ,i n s t r ( z ,”。) - 1 ) t e x t 2 t e x t = w e n di f e n ds u b 当介词短语“往+ 1 1 做补语时,位于句尾,后面是标点符号“,一或者“。 首先确定标点符号在字符串z 中的位置,然后截取标点符号“, “。 的左边 的字符串w ,最后将w 赋值给文本框2 ,输出介词短语“往+ n 。如果不满足 条件,那么结束判断,进入下一个程序。 判断代词是否存在,如果代词存在,并且位于处所词和名词之后,那么确定 代词在字符串z 中的位置,然后截取代词的左边的字符串w ,最后将w 赋值给 文本框2 ,输出介词短语。 如果代词不存在,那么结束判断,进入下一个程序。 i fi n s t r ( z ,回”) 0a n di n s t r ( z ,”回”) 0a n di n s t r ( z ,”起”) 0a n dl n s t r ( z ,”出竹) 0a n d i n s t r ( z ,”了”) i n s t r ( z , p ) a n di n s t r ( z ,”n ”) i n s t r ( z ,”s ) a n di n s t r ( z ,”n ”) i n s t r ( z ,”v ”) t h e n w l = l e f t ( z ,i n s t r ( z ,v ”) 3 ) w 2 = 1 名r ( z ,i n s t r ( z ,”v ”) 一4 ) 根据我们在计算机器上的实验,当“x 为方位词或者方位词短语、代词、 形容词、趋向动词、地名、机构名、数量短语、联合短语时,计算机都可以完全 正确识别出往字短语,但是仍然有部分短语是计算机不能正确识别的,下面我们 将对程序上的不足之处进行分析,以求得到改进。 4 3 程序的不足之处分析 4 3 1 关于语料的标注问题 在我们程序设计中,对介词短语“往+ x 识别的前提是要对句子进行预先 的标注,因为我们选择了一些标注符号作为计算机识别的标志,但是对句子进行 预先的标注是一件非常麻烦的工作。我们也曾考虑是否可以设计这样一种程序, 对不加标注的句子进行识别,但是非常困难,首先要制定出可以出现在介词短语 “往+ x ”右边界的词表,但是可以出现在右边界的词非常多,而且还要考虑词 与词之间的出现规律,这样来反而增加了分析及设计的难度,所以为了提高效 率,我们使用了中科院的分词软件首先对句子进行了一级标注,然后再把标注好 的句子放到我们的程序中进行识别。在我们的程序设计里,选用北大的标注标准 3 3 第四章基于v i s u a lb a s i c 的介词短语“往+ x ”的自动识别上海师范大学硕士学位论文 的标注符号,为的是可以和分词软件中的分词结果保持一致,便于计算机识别。 但是机器分词有时候也不能得到完全正确的分词结果,还需要人工的复查。例如: ( 1 8 ) 拔v 出v 手枪n 往p 桌l s 重重龙一m 拍q 细 ( 1 9 ) 我r 一边d 高兴a 地u 往v 桌n 上端f 饭n 端a 菜n ,w 一边d 说v :w 小伙子m ,w 洗加手卮,细在巾我们厅家佃吃v 饭血w ( 2 0 ) 像n 由p 皇族n 代表n 溥伦n 和e 驻v 美巧大使n 伍n 廷芳n 乘 v 火车n 和e 海轮n 辗转vi j u , v 往p 美国n 圣路恤易v 赛会n 参) k v w ( 2 1 ) lo 月t1 1 日t 晚t ,w 他4 i 3 r 剐v 要v 往p 广西n 冒领v 存款n 途 经v 增vj k n 时n 被p 抓获v 的u w 如果在“往 的左右加上符号“【】 ,那么错误率更高了。例如: ( 2 2 ) 演练v 结束v 后f wj t t v 官n 一m 声q 口4 q n ,w 士兵n 们l 【 开始vl w 往t 】w 宿舍细嫩a 去v w ( 2 3 ) 时间n 很d 难a 熬v ,w 等u11 m 点q 之后f w 家长n 们l 【都d 坐v 不m 住了锣,w 开始v w 往t 】产w 门口s 涌厂v ,w ( 2 4 ) 他r 的u 势力n 范围n ,w 开始v w 往t 】w 农村n 扩展v w ( 2 5 ) 一加有v 闲暇n ,w 他r 触d w 往t 】w 山上s 跑v w 但是有时候错误的分词结果并不影响对句子中介词短语的识别,只是标注 符号出现了错误。例如: ( 1 8 ) 往p 桌上s ( 1 9 ) 往v 桌n 上端f ( 2 0 ) 往加美国n 圣璐咖 ( 2 1 ) 往p 广西n ( 2 2 ) 往a 】w 宿舍n ( 2 3 ) 往t l w 门口s ( 2 4 ) 往t l w 农村n ( 2 5 ) 往t l w 山上s 我们对前面带有错误标注的句子进行了识别,只有( 1 9 ) 有错误,其它都正 确,因为例( 1 9 ) 的右边界词标注错误。由于我们是根据右边界标志词和右相关 词编写命令的,所以其他位置的错误符号对计算机的识别短语的影响不是很大。 我们要关注的是右边界标志词和右相关词标注的正确与否,这直接关系到识别介 词短语的正确率,而其他词标注的正确与否并不重要。 4 3 2 关于文本的识别问题 我们的设计程序还不能识别加标注的文本,只能识别加标注的句子,并且 上海师范大学硕士学位论文第四章基于v i s u a lb a s i c 的介词短语“往+ x ”的自动识别 一次只能输入一条句子,如果一次输入多条句子,识别率也不高。因为在程序设 计中,没有使用循环结构。我们也曾尝试用循环结构,期望计算机一次可以识别 多条句子,提高识别的速度和正确率,但是非常困难,一是因为我们的程序设计 已算是比较复杂,再使用循环语言,就会很容易让计算机走入死循环的结果。二 是因为在单一的句子里,计算机只用分析一个右边界标志词“x ”和右相关词“y 的关系,然后根据条件做出判断。但是如果出现多条句子,计算机就要分析多个 “x 和“y 的情况。例如: ( 2 6 ) 开复n 刚刚d 一m 周岁q 的u 时 f c j n ,w 大哥n 便d 乘船vi j u v 洋a 【往p 美国n 】求学v w ( 2 7 ) 文 j n 林n 马上d 要v 被p 押v 【往p 劳改v 农场n 了y w ( 2 8 ) 赵公口n 汽车站n 打出v 京沪j 直通v 车n 的u 广告n 后n d ,w 发v 【往p 上海n 的u 班车n 车票n 预售v 一m 空n 。w 介词短语“往+ n 是计算机识别的难点之一,若把上面的句子同时输入我们 设置的文本框中,得出的结果是:“往p 美国n 求学v 文 j n 林n 马上d 要v 被 p 押v 撕劳改v 农场n ”。计算机会根据命令先确定“往”的位置,然后在 判断了右边界标志词是名词以后,根据右相关词“y 进行取词。可是右相关词 “y 有很多种分类,计算机会根据顺序首先搜索“v ,它会把句子中所有的 “v ”都找到,然后截取左边的字符串,这样一来显然是不正确的。 4 3 3 关于两种格式识别难点的分析 现在计算机可以识别出大部分的介词短语“往+ x ,但是还有两种格式的 介词短语“往+ x 不能正确识别。 4 3 3 1 “人称代词+ 指示代词”结构 “人称代词+ 指示代词”结构是不能解决的难点之一。例如: ( 2 9 ) 只d 管v 【往p 我ri , i l r 拉v ,w 现t gc u n 交易v w ( 3 0 ) 他们r 会v 开掘v 我r 这r 的u 长处n ,w 【往p 我r 这边r l 靠 一些m w ( 3 1 ) z n 全刚n 对p 他r 说v 他们r f f - d 在p , i p 他r 那里r 】去v 讷h 路上f s 在程序设计上,我们确定“r ”作为边界标志词,但是无论有多少“r 出现, 计算机只能识别第一个“r ,所以得出错误的结果: ( 2 9 ) 往p 我r ( 3 0 ) 往p 我r 3 5 第四章基于v i s u a lb a s i c 的介词短语“往+ x ”的自动识别 上海师范大学硕士学位论文 ( 3 1 ) 往p 似 如果把后面的动词“v 作为识别的标志词,也不能解决问题。当计算机搜 索到第一个“r 时,它无法正确判断后面第几个字符会是“v 一,会有两种情况, 例如: ( 3 2 ) y , d 管v 【往p 我ri g r 拉v ,w 现t g 钹n 交易v w 例( 3 2 ) “r 后面的第五个字符是“v ( 3 3 ) 他们r - f f v 开掘v 我r 这r 的u 长处n ,w 【往p 我r 这j 芝u r 靠 一蝰m w 例( 3 3 ) “r 后面的第六个字符是“v 。 怎样让计算机分清楚这两种情况,是我们的难点,这将成为我们研究的重 点。 4 3 3 2 “代词+ 名词一结构 当“x 为名词或者偏正短语时,这是计算机识别的难点,我们都会借助右 相关词“y 来识别,因为右相关词的变化较少,“y 为动词时,我们以“v 为识别标记,“y 为副词时,我们以“d 为识别标记,“y 为助词时,我们 以“u 为识别标记,如果没有“y ,我们就用标点符号作为识别标记。但是 如果“y 是介词,就不能借助“p 来识别短语。例如: ( 3 4 ) 心n 没d 敢m 直说v ,w 只纪【往p 别的r 方面n 】和厂p 蝴商量 起皋| v 我们将例( 3 4 ) 输入文本框得出的结果是:“往p 别的r 方面n 和p 她r ”计 算机把“v 当成右相关词,从“v ”左面开始取词。我们也曾考虑把“p 刀也编 写进程序,但是因为介词“往 后面也加了标注“p ,所以计算机不能同时识 别两个“p 。当“y 为介词时,怎样让计算机识别介词短语“往+ x 结构也 是难点之一。 4 4 小结 本章通过对“x 和“y 的分析,制定了识别介词短语“往+ x 的识别规 则,并把规则编写成了计算机可读的程序,通过我们在计算机上的检验,大部分 的往字短语都可以得到正确的识别,但是仍有两种结构是计算机不能识别的,这 将成为我们以后的研究重点,今后还需要做更多的分析和研究来修正这个程序上 的不足之处。 上海师范大学硕士学位论文 第五章结语 第五章结语 5 1 本文研究总结 本文的研究是对计算机识别介词短语“往+ x 的一次探索性尝试,本文的研 究成果主要有以下几点: 第一,对介词短语“往+ x 内部结构特征作了细致的分析,确定“x 的右 边界标志词以及右边界标志词识别的先后顺序。 第二,对介词短语“往+ x 后的右相关词“y 作了进一步补充分析,我们 发现除了

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论