(语言学及应用语言学专业论文)面向信息处理的介词结构“以X”的边界识别分析.pdf_第1页
(语言学及应用语言学专业论文)面向信息处理的介词结构“以X”的边界识别分析.pdf_第2页
(语言学及应用语言学专业论文)面向信息处理的介词结构“以X”的边界识别分析.pdf_第3页
(语言学及应用语言学专业论文)面向信息处理的介词结构“以X”的边界识别分析.pdf_第4页
(语言学及应用语言学专业论文)面向信息处理的介词结构“以X”的边界识别分析.pdf_第5页
已阅读5页,还剩73页未读 继续免费阅读

(语言学及应用语言学专业论文)面向信息处理的介词结构“以X”的边界识别分析.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

内容摘要 句法自动分析是自然语言理解的核心,是当前计算语言学研究的重点所在。 现代汉语句法自动分析的主要内容是对各种短语进行自动标注和研究它们的句 法功能。介词结构无论从定量角度,还是从定性角度,都是现代汉语中一种重要 的语法结构。介词的个体特点也很明显,所以我们有条件也有必要对每个介词的 边界识别进行研究,在个体分析基础上组成一个完整的介词短语边界识别系统。 本文我们选择介词“以作为研究对象。“以 在古汉语中就是仅次于“于 的介词,在现代汉语中也是一个很常用的介词,作为介词的用法有很长的历史, 具有介词分析的典型性,而且具体来研究“以+ x 的结构,发现它又是一种很 富有个性的介词短语,它在句法、语义和组合格式上都很有自己的特点和个性。 本文以自动识别为目的对介词结构“以+ x ”的边界识别进行个案分析。对介 词短语“以+ x 的内部结构特征进行了细致的描写,通过分析线性序列“w + 以 + x ( a ) + ( b ) y ,尝试在语法、语义的基础上归纳总结出入工识别规则若干。一方 面给汉语语法的本体研究以补充和完善,另一方面,当然也是更为重要的,它是 计算语言学所需要的知识积累。 我们根据对介词结构“以+ x ”语法、语义的形式化描写,编写相应识别规 则来进行自动识别的算法设计,这部分是本文的重点所在。在4 0 0 0 句语料的基 础上,进一步将语料扩大到8 0 0 0 句,经过逐字逐句的人工标注,生成了几个数 据表,并初步形成了我们识别的总体思路。 本文设计出自介词结构“以+ x 的边界自动识别的算法,这个是中文信息处 理这个大工程中的一个小细节。一方面可以为这个工程提供我们的研究成果,尤 其是可以为其他介词的边界识别以及动词性短语结构的研究提供启示;另一方面 我们在研究中所使用的方法和识别的思路,可以为以后的识别研究提供借鉴。 在文章最后,我们利用人工分析的方法来检测本文的研究成果,并对疑难问 题类型进行了归纳分析。 关键词: 句法分析 “以+ x 边界识别基于规则基于统计 a b s t r a c t t h es y n t a x 。a u t o m a t e da n a l y s i si st h en a t u r a ll a n g u a g eu n d e r s t a n d i n g c o r e ,i st h e c u r r e n tc o m p u t a t i o n a ll i n g u i s t i c sr e s e a r c hk e yp o i n ti s t h ep r e p o s i t i o ni n d i v i d u a l c h a r a c t e r i s t i ci sa l s ov e r yo b v i o u s ,t h e r e f o r ew eh a v et h ec o n d i t i o na l s ot oh a v et h e n e c e s s i t yt oc o n d u c tt h er e s e a r c ht oe a c hp r e p o s i t i o nb o u n d a r yr e c o g n i t i o n ,c o m p o s e s ac o m p l e t ep r e p o s i t i o np h r a s eb o u n d a r yi nt h ei n d i v i d u a la n a l y s i s sf o u n d a t i o nt h e r e c o g n i t i o ns y s t e m t h i sa r t i c l ew ec h o o s e “以”t a k et h eo b j e c to fs t u d y , b e c a u s e “以”i nt h e m o d e mc h i n e s ei sa l s oav e r yc o m m o n l yu s e dp r e p o s i t i o n ,h a st h ev e r yl o n gh i s t o r y a st h ep r e p o s i t i o nu s a g e ,h a st h e p r e p o s i t i o na n a l y s i st y p i c a ln a t u r e m o r e o v e r c o n c r e t es t u d i e s “以+ x ”t h es t r u c t u r e ,d i s c o v e r e dt h a ti ti sa l s oo n ek i n do fv e r y r i c h i n d i v i d u a l i t yp r e p o s i t i o np h r a s e ,i ti n t h es y n t a x ,t h es e m a n t i c sa n dt h e c o m b i n a t i o nf o r m v e r ym u c h h a sh e rc h a r a c t e r i s t i ca n dt h ei n d i v i d u a l i t y t h i sa r t i c l et a k ea u t o m a t i cd i a g n o s i sa sg o a lt op r e p o s i t i o ns t r u c t u r e 以+ x t h eb o u n d a r yr e c o g n i t i o nc a r r i e so nt h ec a s ea n a l y s i s t op r e p o s i t i o np h r a s e “以 + x ”t h ei n t e r n a ls t r u c t u r ec h a r a c t e r i s t i ch a sc a r r i e do nt h e c a r e f u l d e s c r i p t i o n , t h r o u g ht h ea n a l y s i sl i n e a rs e q u e n c e “w + 以+ x ( a ) + ( b ) y ”,a t t e m p t si n t h e g r a m m a r , i nt h es e m a n t i cf o u n d a t i o ns u m m a r i e st h ea r t i f i c i a lc o g n i t i o nr o l ec e r t a i n o nt h eo n eh a n dc h i n e s e g l - a n l n l a r t sm a i nb o d ys t u d i e sm a k e st h es u p p l e m e n ta n dt h e c o n s u m m a t i o n , o nt h eo t h e rh a n d ,c e r t a i n l yi sa l s om o r ei m p o r t a n t , i sa l s ot h e k n o w l e d g ea c c u m u l a t i o nw h i c hc o m p u t a t i o n a ll i n g u i s t i c sn e e d s w ea c ta c c o r d i n gt ot h ep r e p o s i t i o ns t r u c t u r e “以+ x ”t h e g r a m m a r , t h e s e m a n t i c d e s c r i p t i o nc o m p i l a t i o nc o r r e s p o n d i n gr e c o g n i t i o nr u l e ,c a r r i e so nt h e a u t o m a t i cd i a g n o s i st h ea l g o r i t h md e s i g n i n4 0 0 0l a n g u a g em a t e r i a l s 。f o u n d a t i o n s , f u r t h e re x p a n d st h el a n g u a g em a t e r i a l st o8 0 0 0 ,u n d e r g o e sa r t i f i c i a ll a b e l i n gw o r df o r w o r d ,h a sp r o d u c e dt h ef o l l o w i n gs e v e r a ld a t as h e e t s ,a n dh a sf o r m e dt h eo v e r a l l m e n t a l i t yw h i c hi m t i a l l yw ed i s t i n g u i s h t h i sa r t i c l ed e s i g n ss t e m sf r o mt h ep r e p o s i t i o ns t r u c t u r e 以+ x ”t h eb o u n d a r y a u t o m a t i cd i a g n o s i sa l g o r i t h m 。o nt h eo n eh a n dm a yp r o v i d eo u rr e s e a r c hr e s u l t sf o r t h i sp r o j e c t ,o nt h eo t h e rh a n dw et h em e t h o dw h i c ha n dt h er e c o g n i t i o nm e n t a l i t y u s e si nt h er e s e a r c h ,m a yp r o v i d ef o rt h el a t e rr e c o g n i t i o nr e s e a r c hu s e sf o rr e f e r e n c e i na r t i c l ef i n a l ,w eu s et h ea r t i f i c i a la n a l y s i sm e t h o d t oe x a m i n et h i sa r t i c l et h e r e s e a r c hr e s u l t s ,a n dh a sc a r r i e do nt h ei n d u c t i o na n a l y s i st ot h eh a r dp r o b l e m t y p e k e y w o r d s : s y n t a xa n a l y s i sb o u n d a r yr e c o g n i t i o n b a s e do nr u l e b a s e do ns t a t i s t i c s “以+ x ” 论文独创性声明 本论文是我个人在导师指导下进行的研究工作及取得的研究成果。论文中除 了特别加以标注和致谢的地方外,不包含其他人或机构已经发表或撰写过的研究 成果。其他同志对本研究的启发和所做的贡献均已在论文中做了明确的声明并表 示了谢意。 作者签名:葛卜姚日期:) 卵g 弓2 尹 论文使用授权声明 本人完全了解上海师范大学有关保留、使用学位论文的规定,即:学校有权 保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部 分内容,可以采用影印、缩印或其它手段保存论文。保密的论文在解密后遵守此 规定。 作者签名:导师签名: 日期:嘲5 评 串l 上海师范大学硕士学位论文第一章绪论 第一章绪论 1 1研究目标的确定 本文主要研究现代汉语介词结构“以+ x ”的边界识别问题。即对一个经过分 词和词性标注处理的包含介词“以 的汉语句子,通过自动分析确定句子中介词 短语“以+ x 的边界。 例如: ( 1 ) 中国n s 西部n d 国i 示n 经济信,龟- n 网络n 是v l * p 经贸部j 国际n 经济n 合作v 研究所n 和c 陕西省n s 体改委j 共同d 创办v 、 w 【e l p 陕西n s 】为v l 重点n 、w 面向v 西部n d 地区n 的u 民间n 经济n 社团n 组织n w 计算机对上面的例句进行自动标注时,介词短语“以+ x ”的左边界事实上已 经确定,就是介词“以。以小句1 为单位,计算机由左到右搜索词性标记为“以 p 的词语,然后在相应的词形左端标注吖 。接着我们的任务是寻找介词结构 不确定的右边界,在右边界的右端标注“ 。 例句( 1 ) 中的右边界在“陕西n s 和“为v l 一之间,所以我们在“陕西 n s 的右端标注“ 。最后,将处理过的介词结构以“ 以p 陕西n s 形式 输出。 介词结构“以+ x 的右边界相对于其左边界而言,不论在词性上还是词形上 都要复杂的多,这就是我们本文要研究的重点。 1 1 1 介词 介词本身没有具体的词汇意义,它本身也不能作句法成分,因此,介词作为 现代汉语语法中的一类词,是虚词的一种。汉语语法学者公认的典型介词有“把、 被、从、在、让、对、对于、关于、跟、将、以、给 等。现代汉语中介词有许 多是从动词发展演化而来的,他们仍旧保存着动词的某些性质,有时跟动词的界 限还不太清楚,因此一些语法学家2 也把他们看成动词内部的一个小类,称之为 1 “小句”也叫“准子句”,其概念参见下文“2 4 相关概念的解释”一节。 2 以赵元任 - - - j v 继承v 程派t n 艺术n 风格n 传统n ,w 她r 的u 艺术n 修 养nb 盏浦湛h 。沁 3 2 1 4 指明凭借的成绩、优势 例如: ( 3 8 ) 一九六一m 年n t ,w 他r v ;t p 优异a 的u 学习v 盛堕n 】 上海师范大学硕士学位论文 第三章“以+ x ”的结构及其相关因素分析 取得v 了u 毕业证书n 。w ( 3 9 ) 解放军n - - ml r a j n 在p 男n 、w 女n 七m 个q 项目n 比赛v 中共j 获v 团体n 、w 个人n - t - m 个q 冠军n ,w v x p 绝对a 丛萱 n 】名列v 团体n 总分n 第一m ;w 并c 在p 男子n 标准n 手枪n 团 体赛n 中n d ,wv ;t p1718 m 环n 的u 优异a 成绩n 平v 了u 这 个r 项目n 的u 世界n 纪录n w 3 2 2 指明动作、行为的状态 例如: ( 4 0 ) 牢骚满腹i 的u 人4 r l n 开始v 安静a 下来v ,w 并c 【v ;t p 不 满a 的u 眼光n 】看v 着u 那些r 电视台n 记者n 。w ( 4 1 ) 改革开放i 二十m 年n t 来u ,w 我国n 国民经济n 【v :t p 平均 a 每年n t9 7 m w 的u 高a 堂i n 】发展v ,w 综合国h n 和 c 人民n 生活n 水平n 都d 上v 了u 一个m q 大a 台阶n w ( 4 2 ) 洪水n 正d v 多t p 排山倒海i 之噬n 】,w 肆无忌惮i 地u 扑 向v 福州市n s w ( 4 3 ) 他4 t r 【v 奠l p 不太d 轻松a 的l u 心情n 】回答v :w ”w 喜忧 l n 参普| n 。| 嘲 3 2 3 指明动作、行为的根据、范围 例如: ( 4 4 ) 同时c 英国n s 又d 【v :工p 。w 间谍n 。w 的u 墨垒n 】命令v 6 m 名 q 募f 3 驻h 美n 人员n 离境h 。沁 ( 4 5 ) & p8 m 月n t 下旬n t 至, l v9 m 月n t 初n ,w w 光明n 日 报n w 【v t p 大量a 篇幅n 】,w 连续v 发表v 这次r 座谈会n 的u 发言v 摘要n 。w ( 4 6 ) 马克思主义n 文艺n 理论n 是v l 马克思n h 和c 恩格斯n h 自p 19 m 世纪n t40 m 年代n t 中叶n t 至v90 i 年代n t ,w 【c t p 他们r 的u 塑整n 】,w 在p 总结vf f , , c 概括v 了u 人类n 和c 无产 阶级n 的u 社会实践n 与c 艺术n 实践v 的u 基础上h i 创立v 的 lq 、l 嗡 上海师范大学硕士学位论文第三章“以+ x ”的结构及其相关因素分析 3 2 4 指明动作、行为的立场、角度 例如: ( 4 7 ) 全书n 共d 分i v 六m 篇q 二十m 章n ,w 著者i n 【以p 开阔 a 的u 垫墅n 】对p 新闻n 伦理学n 进, f i - v 了u 重新d 界定v w ( 4 8 ) 值得v 重视v 的u 是v l ,w 不少a 作者n 在p 寻找i v 【以p 新a 的u 视角n 】表现v 生活n 和c 塑造v 人物n 形象n 时n t ,w 突 破v 传统n 的u 叙事v 方法n ,w 在p 时空n 转换v ,w 心理n 层 次n 的u 描写v 和c 戏剧n 场景n 氛围n 营造v 等u 方面n 有v 新 a 的| 、l 探春 n 和 c 馘迄| y | 喇 3 2 5 指明动作、行为或状态产生的原因 例如: ( 4 9 ) 位于v 古罗马i n s 旧址n 中心n 地带n 的u 尼禄n h 大帝n 王宫 i n 【以p 精美a 的u 壁画n 和c 考究a 的u 建筑n 装饰n 】著称于世 l 、| 礴 ( 5 0 ) 【以p 强调v 继承v 传统n 】而c 著称v 的u 日本i n s 提出i v : w 高等教育n 要v u 培养v 面向v 国际n 、w 面向v 21 m 世纪n t 的 | u | 嘲 3 2 6 指明动词的受事( 涉及对象) ( 5 1 ) 近a20 m 年n t 来u 世界n 各国n 所u 发生v 的u 大小n 金融n 危机n 为此c 提供v 了u 例证n ,w 并c 给p 人们i n 【以p 深 刻a 的u 教训n 和c 启示v 】。w ( 5 2 ) 这r 理想i n & u 光n ,w 在p 人们n 孤苦a 的u 时候n 给p 人n 【以p 振作v 的u 勇气n 】。w 3 3 “以+ x ”后的“y 介词短语“以+ x 对谓语性词语( 主要是动词性词语) 进行修饰限制和说 明时,主要放在动词前,介词“以和“y 中的外相关词“b 组成的一些相对 稳定的固定结构,也和作为外相关词的动词组成了一些常见的搭配,表达相应的 上海师范大学硕士学位论文第三章“以+ x ”的结构及其相关因素分析 语法意义。 3 3 1 介词“以 和“y 中的外相关词“b 组成的固定结构 3 3 1 1以为 这是一种状中结构的文言格式,它相当于“把( 将) 看作( 当作) , “以 作“为 的状语。它在现代汉语中运用很广。大致有一下几种形 式: 3 3 1 1 1以+ n + 为+ n 例如: ( 53 ) 【以p 测绘v 学科n 】为v l 主干n 、w 【) :z p 工科n 专业n 】为 i v l 主体n ,w 向p 多a 学科n 综合v 方向n 发展v ,w 发挥v 专业 h 优势 n 、h 办她? v 特色f n 。k ( 5 4 ) 如v 苏军n 在p 防御v 作战v 中n d ,w 已d 由p 掩体n 、 w 堑壕n 式k 的u 步兵n 防御v ,w 发展v 成为v 【以p 坦克n 、 w 装p n 战车n 】为v l 骨干n 的u 支撑点n 式k 防御v w 3 3 1 1 2 以+ v a + 为+ n 例如: ( 5 5 ) 【以p 修复v 古- 长城 n s 】为v l 先导n ,w 蓟- r - n s 风景区n 综 合h 开凝| 、l 扭开h - i | u 寿苯h ,| w 七畏藏n s 将| a 修复h ,f m 牟y _ q 城墙n ,w 以及c 敌楼n s 、w 凤凰楼n s 、w 黄崖关n s 城楼n 等u 。 | 鞭 ( 5 6 ) 郑铁j 警方n 秘密n 交叉v 打击v 客车n 犯罪v 纪实n 【, :z l p 保e l y 旅客n 生命n 财产n 安全a 】为v l 己任n 的u 郑州n s 铁路n 警方n ,w 审时度势i ,w 频出v 重拳n ,w 于p2 m 月n t 底n 在 p 6 000 m 公里q 铁道线n 上n d ,w 展开v 了u 一m 场q 严打v 蓉牟f n 犯罪h 娟| u 秘整f a 交叉h 瓠击h 行动h 。 3 3 1 1 3以+ n + 为+ v a 例如: ( 5 7 ) 可v u 发生v 于p 任何r 年龄t ,w 【以p 小) l n 发病率n 】 为v l 最高a 。w 上海师范大学硕士学位论文第三章“以+ x ”的结构及其相关因素分析 3 3 1 1 4以+ v + 为+ v 例如: ( 5 8 ) 并不d 【以p 被告n 到v 庭n 】为v l 限v ,w 即d 被告n 所 在n 不明a ,w 而c 检察官n 依v 侦查v 所得n 的u 证据n ,w 足 d 认v 被告n 有v 犯罪v 嫌疑n 者k ,w 亦d 应v u 提起v 公诉n ( w 刑诉法n 第h 二百三十m 条n 第二m 项q ) w 。 在我们的语料中,“以为这种固定结构是所有固定格式中稳定 性最强,使用率最频繁的。所以在对介词结构“以+ x 进行边界识别时,这一 固定格式是要首先考虑到的识别条件。 3 3 1 2 以而 这种格式中的“以+ x ”主要表示原因,是比较书面正式的因果句。它的意 思是“因为x 而怎么样 。 例如: ( 5 9 ) 依照p 英国i n s 的u 法律n ,w 凡d 出生v 于p 英国i n s 船n 上n d 的u 人n ,w 不论c 船舶n 是v l 在p 外国n 领海n 与c 否 d ,w 都d 认为v 本n 生v 的u 英国i n s 国民i n ;w 而c 生v 在p 外国n 船n 上n d 的u 人n ,w 则c 不得v u 仅d 【以p 生v 时n t 船 n 在p 英国i n s 领海n 的u 理由n 】而cf f d 认为v 英国i n s 国民n j w ( 6 0 ) 而且c 【以p 造型v 新颖a 、w 色彩n 鲜艳a ,w 奇异a 优美 a 】而c 引v 得u 广大a 消费者n 的u 欢迎v 。w ( 6 1 ) 老a 天桥i n 【以p 其r 传统n 的u 北京n s 民俗n 风味n 】而 c 蜚声v 国内外j ,w 曾d 是v 1 个q 三教九流i 云集v 、w 车马n 人声? n 不颤h 的? u 闸枣n ,阳充满 v 弋f u 传奇f n 色彩f n h 3 3 1 3 以来去 这种格式一般表示凭借什么做某事,“以+ x “和后面修饰的谓词性成分中间 插入了“来 或者“去 ,“以+ x 的位置不能分开。“以”可以用“凭或者“用 替换。 例如: 上海师范大学硕上学位论文第三章“以+ x ”的结构及其相关因素分析 ( 6 2 ) r w 厄尔尼诺n sj w 现象n 发生v 后n d ,w 由于c 鱼n 大量 a 减产v ,w 鱼粉n 供应v 不足a ,w 只好d 【以p 大量a 粮食n 】来 v d 补充v ,w 结果n 造成v 世界性n 的u 粮价n 上涨v ,w 影响v 了u 一些m 国家n 的u 经济n 发展v 。w ( 6 3 ) 第c - m 天下n l 午n ,w 船n 抵达v 三亚n s ,w 想不到v 主 人n 竞d 【以p 飞鱼n 】来v d 为p 我们r 洗尘v 。w ( 6 4 ) 如果说i 刑法n 学k 的u 研究v 对象n 是v l 指v 刑法n 学 k 包括v 哪些r 内容n 的话u ,w 那么r 刑法n 学k 的u 体系n 就 是d 指v 【以p 什么样r 的u 结构n 形式n 】来v d 表述v 这些r 内容 | n 。| 嘲 ( 6 5 ) 向塘机场n s 停车场n 发生v 特大a 车祸n ,w 请v 你们r 【以 p 最快a 的u 速度n 】去v d 救护v 。w 3 3 2 介词结构“以+ x 和其他介词短语的连用 在我们对语料的考察中发现,有时介词结构“以+ x 和其他介词结构连用, 这时紧临“以+ x 的其他介词充当句子中的外相关词,我们就可以利用这些介 词作为边界识别的条件。 例如: ( 6 6 ) 但c 由于c 行为n 人n 用p 隐蔽v 真a 象n 的u 欺诈v 手 段n ,w 可能v u 【以p 伪造v 的u 外国n 货币n 】向p 中国银行n i 兑 换v 人民币n 或者c 以p 假冒v 真a 向p 他人r 购买v 物品n 等 沁,i 喇强而| c ,w 可p r v u 按| p 诈骗罪h 论处h 。沁 ( 6 7 ) 为p 做好v 收购v 工作n ,w 许多a 地方n 【以p 抗洪救灾i 叶, n d 的u 英雄n 事迹n 】对p 农民n 进行v 教育v ,w 动员v 农民n 踊跃a 交售v 爱国v 粮n ,w 以p 实际a 行动n 支援v 灾区n 。w ” w 被p 退回v 。w 3 4 “以+ x 前的“w 一般情况下,在进行介词短语的边界识别时,不需要对介词短语前面的部分 “w 加以分析,因为介词短语的左边界就是介词本身。但我们在分析介词短语 “以+ x ”的时候发现,因为它对谓语性词语( 主要是动词性词语) 进行修饰限制 3 0 上海师范大学硕士学位论文第三章“以+ x ”的结构及其相关因素分析 和说明时,可以在动词前,也可以在动词后,当它在动词后时,介词“以”和介 词短语的“w 部分,会构成几种固定的句法格式,这些句法格式是我们进行右 边界识别时可以利用的条件。 3 4 1 v 为单音节动词+ 宾语“之 + 以+ x 在这类句子中,“以和所介绍的词语在动词之后,作补语。“以的意义相 当“拿 或“用 。这种用法,文言的味道很浓。 例如: ( 6 8 ) 有v 甚么r 方法n 使v 李逵n h 这r 种qa n 听话y 呢 u ? w 只有c 感v 之u 【以p 开明a 】,w 示v 之u 【c t pa & n 】 ( 6 9 ) 许多a 事- 实, n 说明v ,w 对p 那r 种q 满不在乎i ,w 顽 固a 地u 搞v 不正之风i 的ua i n ,w 就d 得v u 拿出v 铁面无私i 的u 勇气n 进行v 处理v ,w 对p 他们r 的u 错误n 坚决a 地u 加 j , :z v 制止v 和c 纠正v ,w 直至v 绳n 之u 【以p 党n 的u 纪律n 】。 | 喇 ( 7 0 ) 他r 恪守v 已d 久a 的u 一w 用人不疑i * w 的u 信条n 从此d 被p 抛到v 一边d ,z ! 垡! 圭z 坠【以p 猜v 嫉v 和c 不d 信 任| 飞、。| 嘈 我们通过对语料的分析,发现当“以 的宾语n 为单音节时,常构成一些四 字的固定短语:“绳之以法、嗤之以鼻、动之以情、晓之以理、持之以恒 等, 例如: ( 7 1 ) 代表团n 重点n 在p 人权n 和c 台湾i n s 问题n 上r i d 做v 了u 上述i v 四m 国n 的u 工作n ,w 在p 几乎d 所有a 和c 四m 国 n 领导a i n 的u 会见i v - 会- y , v 中r i d ,w 陈n h f 副h 委员长n 都d 全 面a 阐述v 了u 我r 对p 人权n 和c 台湾i n s 问题n 的u 严正a 立 场n ,w 一旦整【以理i 】、w 麴! 查u i , 7 , p 情n 】,w 对方n 听得v 认 真a ,w 收到v 很d 好a 效果n w 3 4 2v 为单音节动词+ 以+ x 例如: ( 7 2 ) 这r 是v l 一m 部n 新a 概念n 的u 历史n 书i n :w 60 0 上海师范大学硕士学位论文第三章“以+ x ”的结构及其相关因素分析 o m 余n 幅n 书画n 、w 印章n 、w 碑刻i n 、w 甲骨n 、w 简帛t n 、 w 青铜n 、w 陶瓷n 、w 玉器n 、w 钱币n 、w 地图n 、w 兵器n 、 w 石窟n 、w 建筑n 、w 服饰n ,w 生产工具n 、w 生活方式n 等u 精品n 图片n ,w 配v 【v x p100 m 多m 万m 字n 的u 文字n 解 说v 】。w ( 7 3 ) 该r 所n 技术人员n 根据p 我国n 儿童n 脚n 型n 发育v 特 点n 进行v 设计v ,w 帮n 面n 采用v 针织v 尼龙n 、w 猪n 绒n 皮n ,w 衬n 【v :z p 透气性n 良好a 的u 泡沫n 海绵n 】,w 鞋底n l 由 p 发v 泡v 材料n 和c 透明a 底n 复合v 而c 成v 。w ( 7 4 ) 邓小平n h 告v 【v x p 香港a s 居民n 】对p 他们r 的u 未来n t 尽d 可以v u 放c 2 v 。w 另外,还有一种动补格式“a 以v ,其意义是状中结构“以a v ,如,“严以 律己”、“宽以待人 等。 例如: ( 7 5 ) 仍d 恳v 中央n 宽a 【v x p 限期n 】,w 以求v 解释v 深& a , h 不致h 淑蔓h 他h 故h ,h 熏h 埯h 穗n h s 等沁无寓h 之| u 罪 | n 。| 鞭 这种“v 以 和“a 以 有凝聚成词的趋势。有些已经凝聚成动词,与一般动 词不同的是,“v 以 常带动词性宾语,如:“给以支持、予以照顾、得以生还、 加以阻挠、无以报答、致以问候。 3 4 3 给予性动词+ 宾语+ 以+ x “以”在给予性动词及其所带宾语的后边,表示引出另一个宾语即远宾语。 例如: ( 7 6 ) 近a20 m 年n t 来u 世界n 各国n 所u 发生v 的u 大小n 金融n 危机n ,w 以及c 近a 几个m q 月n t 来u 发生v 在p 东南亚 n s 国家n 的u 金融n 风波n 都d 为& c 提供v 了u 例证n ,w 并c 给p 人们n 【v ;t p 深刻a 的u 教9 i l i a 和c 启示v 】。w ( 7 7 ) 房地产n 不是v l 炒v 地皮n ,w 而是v l 让p 老百姓n 得到v 实惠n 天津i n s 市委j 负责人n 的u 一番i 著亨l n ,w 颇d 胄g v u 给p 人n 3 2 上海师范大学硕士学位论文第三章“以+ x ”的结构及其相关因素分析 【f :t p 启迪v 】:w ”w 天津n s 如果c 不d 搞v 危a 陋a 平房n 改造 v ,w 而是v l 在p 市区n 黄金n 地段n 搞v 地皮n 炒作v ,w 增加 v 收入f n 三| m 四十 m 个f q 亿m 不斌| 、l 讯题| n4h ( 7 8 ) 但是c ,w 阿姨n 们k 不厌其烦i ,w 给p 这些r 儿童n 【以 p 特殊a 照料v 】。w 给予性的动词除了最典型的“给”之外,还有其他含有“给予”义的单双 音节动词。 例如: ( 7 9 ) 深圳市n s 公安n 、w 司法机关n 将d 依法v 给予v 投案v 自 首v 者k 【e :t p 从宽v 处理v 】。w ( 8 0 ) 为了p 严肃a 商店n 纪律n ,w 经n 商店n 讨论v 及v 公司 n 批准v ,w 除p 责令v 退还v 骗v 款nj n d ,w 并c 给予v 丁 伟n l a 【量:z p 开除v 公职n 、w 留v 店n 察看v 一m 年n t 的u 处分 n 】,w ( 8 1 ) 他r 在p 杭州n s 度过v 了u 十分d 愉快a 的u 日子n t ,w 临行v 前n d 他r 将p 一m 件n 从p 印度i n s 带来v 的u 大衣n 赠给 v 总督n 【以p 表v 谢意n 】w 3 3 上海师范大学硕士学位论文第四章自动识别的算法设计 4 1 总体思路 第四章:自动识别的算法设计 在本文第三章的提示和启发下,我们从这1 7 2 7 1 句例句中随机提取了4 0 0 0 条例句,对这4 0 0 0 个例句逐条标注,逐条分析,进行人工标注,从中归纳得出 了基本的规则以及识别的初步思路,然后又从剩下的语料里面随机抽取了4 0 0 0 条例句,对这4 0 0 0 条例句也作如上的分析,从而进一步细化我们的规则。根据 人工标注和分析,我们主要生成了以下的几个数据表,并初步形成了我们识别的 总体思路。 表4 1 是强势固定格式1 表,表4 2 是介词“以 和内相关词2 组成的常见格式 表,表4 3 是介词“以”和外相关词3 组成的常见格式表,表4 _ 4 是由介词“以 组成的特殊格式表。以下是几个表格的结构:4 右边界标志标志词词性出现次数占全部例句的比 词 率 为 v l8 0 11 0 1 为主 v3 6 7 4 6 0 为首 v1 6 32 0 4 为重 v1 2 71 5 9 像4 1 ) 强势固定格式表 内相关词出现的次数充当右边界充当标志词的概率 标志词次数 身份 1 3 11 3 10 9 9 2 3 6 6 名义8 88 80 9 8 8 6 3 6 之名1 71 70 9 4 1 1 7 6 资格 2 42 20 9 1 6 6 6 7 形式 1 3 21 3 00 9 8 4 8 4 8 方式 1 5 11 4 7 0 9 7 3 5 1 ( 表4 2 ) 介词。以拜和内相关词组成的常见格式表 1 强势固定格式”的概念参见下文p 3 6 2 包括内相关词的词形和词性 3 包括外相关词的词形和词性 4 具体的表格详见附录 上海师范大学硕士学位论文第四章自动识别的算法设计 外相关词出现的次数充当右边界充当标志词的概 标志词次数率 著称 1 61 50 9 3 7 5 闻名 2 22 0 o 9 0 9 0 9 1 出名 98 0 8 8 8 8 8 9 得名 8 70 8 7 5 著名 1 91 8 0 9 4 7 3 6 8 命名 2 3 2 20 9 5 6 5 2 2 ( 表4 3 ) 介词“以”乖外相关词组成的常见格式表 现代 【以短】养长、【以林】护草、【以大】扶小、【以假】充真、 汉语 【以权】谋私、【以旧】换新、【以劣】充优、【以旧】顶新、 常用 【以畜】促粮、【以粮】保富、【以法】办事、【以农】立国、 四字 【以富】帮穷、【以富】带穷、【以劳】代资、【以快】制快、 格式【以新】促老、【以老】养新、【以小】挤大、【以肥】谋私、 【以息】补租、【以法】治国、【以恶】敛财、【以工】促农、 【以权】压法、【以支】定筹、【以美】感人、【以情】动人、 【以情】育情、【以理】育情、【以行】育情、【以德】治国、 【以质】求存、【以水】养人、【以土】养人 古代【以p 排山倒海i 之u 势n 】, 遗留【以p 死n 】相d 要挟v , 句式 【以p 不d 材n 】得u 终v 其r 天n t 年n t , 用法 【p ;t p 辞n 】害v 意n , 出v d 【以p 公心n 】, 【以p 一m 】当y 十m 【以p 小人n 之uw i n 】度v 君子n 之u 腹n , 投v 我r 【以p 木瓜n 】, 报v 之u 【e ;c p 琼佩n 】, 【以p 其ra d n 之u 道n 】还v 治v 其r 人n 之u 身f n , 【以p 迅雷不及掩耳i 之u 势n 】, 不d 【以p 物n 】喜v , 不d 【以p 己n 】悲v 像4 4 ) :由介词“以”组成的特殊格式表 根据以上表格和前文对介词短语“以+ x 语法语义的形式化描写,结合对具 体语料的掌握,我们的识别思路是: 上海师范大学硕士学位论文第四章自动识别的算法设计 具体识别思路:( 共七步) 第一步:首先利用我们总结出的强势固定格式( 打开表4 一1 ) 对语料进 行边界识别; 第二步:第一步成功识别的“以+ x 输出,未成功识别的句子利用由介词 “以 组成的特殊格式( 打开表4 4 ) 进行边界识别; 第三步:第二步成功识别的“以+ x 输出,未成功识别的句子利用介词“以 和内相关词、外相关词组成的常用格式( 打开表4 - 2 、表4 - 3 ) 进行识别; 第四步:第三步成功识别的“以+ x 输出,未成功识别的句子我们利用根 据介词短语“以+ x 的语法句法特点总结出的规则( 打开规则库r ) ,利用规则 r l 、r 2 、r 3 进行识别; 第五步:第四步成功识别的“以+ x ”输出,未成功识别的句子我们利用“以 + x 后紧邻的介词作为边界识别的条件,对“以+ x ”的边界进行识别。 第六步:第五步成功识别的“以+ x ”输出,未成功识别的句子我们利用“以 此 这一特殊规则来进行识别。 第七步:第六步成功识别的“以+ x 输出,未成功识别的句子我们利 用词性串互信息( 打开词性串互信息表) 进行识别。 4 2 具体识别策略 下面就每一具体识别步骤加以说明和解释: 4 2 1 第一步 在我们利用语料统计的结果中,4 0 0 0 句中共有1 8 个词,只要他们一出现就 一定是右边界词,而且他们本身在语料中出现的次数也是很高的。以“以p 为v l ”为例,在经过人工边界识别的语料中,有含有介词结构“ 以p 为v l ”8 0 1 旬,占全部例旬的1 0 1 ,而且句中一旦出现“为v l ,介词 短语“以+ x 的右边界一定在“为v l 前,充当标志词的概率为“1 。在语料 中还有一部分词跟“为v l ”一样,能和介词“以”组成了这样的固定结构,本 文中我们称之为“强势固定格式。 在具体操作中,从文件中以行读入,若找到介词“以 ,先在“以”的左 端标注 。然后打开表4 1 ,从之后的第一个词语开始搜索,若能找到表中 3 6 上海师范大学硕士学位论文第四章自动识别的算法设计 的右边界标志词,直接在这个词的左端标注“ ,介词结构“以+ x 成功识别, 输出即可。 例如: ( 8 2 ) w 福建n s 职工nt w 创v 佳a 创优v ”w 竞赛v 出v d 成果 n 福建n s 各级n 工会n 、w 企业n 广泛a 开展v 【以p - w 创v 最佳 a 经济效益n 、w 创v 最

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论