版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、副词副词“都用法自动识别研讨都用法自动识别研讨 张静杰张静杰 昝红英昝红英郑州大学自然言语处置实验室郑州大学自然言语处置实验室目录目录n引言引言n副词副词“都的用法描画都的用法描画n副词副词“都的用法自动识别研讨都的用法自动识别研讨n基于规那么的副词基于规那么的副词“都用法自动识别都用法自动识别n基于统计的副词基于统计的副词“都用法自动识别都用法自动识别n规那么与统计相结合的副词规那么与统计相结合的副词“都用法自都用法自动识别动识别n结语结语引言引言n在现代汉语中,副词的句法功能相对比较在现代汉语中,副词的句法功能相对比较简单,然而,一些常用副词不仅运用频率简单,然而,一些常用副词不仅运用频率
2、很高,而且用法丰富多样很高,而且用法丰富多样n对于副词研讨,尤其是一些义项纷繁、用对于副词研讨,尤其是一些义项纷繁、用法灵敏的常用副词,需求针对个例,作仔法灵敏的常用副词,需求针对个例,作仔细的调查和对比细的调查和对比引言引言n“都主要有三个义项都主要有三个义项:n范围的总括范围的总括n无论任务大小,我们都要把它做好。无论任务大小,我们都要把它做好。n表达语气表达语气n真负疚,我都忘了他的名字了。真负疚,我都忘了他的名字了。n表时间表时间 n饭都凉了,快吃吧!饭都凉了,快吃吧!1 副词副词“都的用法描画都的用法描画n根据俞士汶等提出的根据俞士汶等提出的“三位一体构建现三位一体构建现代汉语广义虚
3、词知识库的思绪,昝红英等代汉语广义虚词知识库的思绪,昝红英等初步构建了虚词用法词典、用法规那么库初步构建了虚词用法词典、用法规那么库以及用法标注语料库以及用法标注语料库“三位一体的现代三位一体的现代汉语虚词知识库汉语虚词知识库n副词副词“都共有都共有3个义项个义项11个用法个用法 表表1 1副词副词“都的用法描画都的用法描画 IDID释义释义用法用法d_dou_1d_dou_1表示总括全部。表示总括全部。除问话以外,所总括的对象必需放在除问话以外,所总括的对象必需放在“都前。也可以说都前。也可以说“全都,总全都,总括的意思更明显。括的意思更明显。d_dou_1ad_dou_1a表示总括全部。表
4、示总括全部。所总括的对象可以用表示任指的疑问指代词。所总括的对象可以用表示任指的疑问指代词。d_dou_1bd_dou_1b表示总括全部。表示总括全部。所总括的对象前可以用连词所总括的对象前可以用连词“不论、不论、无论、凡是、只需。不论、不论、无论、凡是、只需。 d_dou_1cd_dou_1c表示总括全部。表示总括全部。问话时总括的对象疑问代词放在问话时总括的对象疑问代词放在“都后。都后。d_dou_1dd_dou_1d表示总括全部。与表示总括全部。与“是搭配。是搭配。阐明缘由,有指摘的意思。阐明缘由,有指摘的意思。与与“是搭配。是搭配。 d_dou_2d_dou_2甚至。甚至。“都轻读。都
5、轻读。修饰动词或动词短语。修饰动词或动词短语。d_dou_2ad_dou_2a甚至。甚至。“都轻读。与都轻读。与“连连字同用,有强调语气的作字同用,有强调语气的作用。用。与与“连字同用。连字同用。d_dou_2bd_dou_2b甚至。甚至。“都轻读。都轻读。“都前后用同一个动词前一定,后否认。都前后用同一个动词前一定,后否认。A(A(不不| |没没| |没有没有| |未未|df)A |df)A 或或 AA( AA(不不| |没没| |没有没有| |未未|df)|df)。d_dou_2cd_dou_2c甚至。甚至。“都轻读。都轻读。一一+ +量词量词+.+.+动词否认式。动词否认式。d_dou_
6、2d_dou_2d d甚至。甚至。“都轻读。都轻读。用于表示退让的小句,引出表示主要意思的小句。用于表示退让的小句,引出表示主要意思的小句。d_dou_3d_dou_3曾经。曾经。句末常用句末常用“了。了。 1 副词副词“都的用法描画都的用法描画n与表与表1相对应的副词相对应的副词“都的用法规那么描画:都的用法规那么描画: n$都都nN Nv|anM M谁谁|哪里哪里|什么什么|怎样怎样|哪儿哪儿|哪哪|nM M(不论不论|不论不论|无论无论|虽然虽然|虽然虽然|凡是凡是|只需只需)*,nNE N谁谁|哪里哪里|什么什么|怎怎样样|哪儿哪儿|哪哪| E?nFR F R是是nN NvnM M连连
7、|甚至甚至nAA(不不|没没|没有没有|未未|) AvnA(不不|没没|没有没有|未未|)*A AvnMN M一一q N不不|没没|没有没有|未未|nN N,*(不不|没没|)nE E了,了,2.1 基于规那么的副词基于规那么的副词“都用法自动识别都用法自动识别 n由于规那么用法自动识别过程中,系统按由于规那么用法自动识别过程中,系统按照给出的规那么逐条进展匹配,所以需对照给出的规那么逐条进展匹配,所以需对规那么的顺序进展调整规那么的顺序进展调整n语料来源:语料来源:2000年年46月的月的语料语料 北京大学北京大学表表2 副词副词“都的用法分布都的用法分布IDID分布率分布率% %词频词频d
8、_dou1_1d_dou1_183.983.956995699d_dou1_1ad_dou1_1a2.72.7180180d_dou1_1bd_dou1_1b9.009.00611611d_dou1_1cd_dou1_1c0.130.139 9d_dou1_1dd_dou1_1d0.120.128 8d_dou1_2d_dou1_20.600.604343d_dou1_2ad_dou1_2a2.402.40160160d_dou1_2bd_dou1_2b0.060.064 4d_dou1_2cd_dou1_2c0.210.211414d_dou1_2dd_dou1_2d0.180.181212
9、d_dou1_3d_dou1_30.750.755151合计合计100.00100.0067916791表表3基于规那么的副词基于规那么的副词“都的用法自动识别都的用法自动识别IDID准确率准确率% %召回率召回率% %F F值值% %d_dou1_1d_dou1_199.6199.6180.1980.1988.8588.85d_dou1_1ad_dou1_1a74.4674.4676.1176.1175.2775.27d_dou1_1bd_dou1_1b89.4089.4099.3599.3594.1194.11d_dou1_1cd_dou1_1c100.00100.0077.7777.77
10、87.5087.50d_dou1_1dd_dou1_1d3.643.64100.00100.007.027.02d_dou1_2d_dou1_20 00 00 0d_dou1_2ad_dou1_2a85.2585.2597.5097.5090.9690.96d_dou1_2bd_dou1_2b100.00100.0050.0050.0066.6766.67d_dou1_2cd_dou1_2c61.1161.1178.5778.5768.7568.75d_dou1_2dd_dou1_2d1.091.0975.0075.002.152.15d_dou1_3d_dou1_368.5768.5794.
11、1294.1279.3479.34合计合计82.0082.0081.8081.8081.9081.902.2 基于统计的副词基于统计的副词“都用法自动识别都用法自动识别n统计模型:条件随机场统计模型:条件随机场CRFn窗口:窗口:7,3 n特征模版:特征模版:n上下文窗口的词语信息上下文窗口的词语信息+词性信息词性信息+词语词语和词性的复合信息和词性的复合信息表表4 基于统计的副词基于统计的副词“都的用法自动识别都的用法自动识别 IDID准确率准确率% %召回率召回率% %F F值值(%)(%)d_dou1_1d_dou1_189.8489.8499.2899.2894.3294.32d_do
12、u1_1ad_dou1_1a78.8178.8151.6751.6762.4262.42d_dou1_1bd_dou1_1b86.9286.9236.9936.9951.9051.90d_dou1_1cd_dou1_1c0 00 00 0d_dou1_1dd_dou1_1d0 00 00 0d_dou1_2d_dou1_250.0050.002.332.334.454.45d_dou1_2ad_dou1_2a100.00100.0065.6365.6379.2579.25d_dou1_2bd_dou1_2b0 00 00 0d_dou1_2cd_dou1_2c0 00 00 0d_dou1_2
13、dd_dou1_2d0 00 00 0d_dou1_3d_dou1_342.8642.865.885.8810.3410.34合计合计89.6289.6289.6289.6289.6289.622.3 规那么与统计相结合的副词规那么与统计相结合的副词“都用法都用法自动识别自动识别n思想:对包含副词思想:对包含副词“都的句子分别进展基都的句子分别进展基于规那么和基于统计的方法自动识别,结于规那么和基于统计的方法自动识别,结果分以下三种情况:果分以下三种情况:n两者都没有识别结果,识别失败两者都没有识别结果,识别失败n两者只识别出一个结果,即两者之一没有两者只识别出一个结果,即两者之一没有识别结果
14、或者两者识别结果一样,那么标识别结果或者两者识别结果一样,那么标注该用法注该用法n两者识别结果不同,对比两者各自在原模两者识别结果不同,对比两者各自在原模型中识别准确率的大小,标注准确率较高型中识别准确率的大小,标注准确率较高的用法的用法 表表5 规那么与统计相结合的副词规那么与统计相结合的副词“都用法自动识别都用法自动识别 IDID准确率准确率% %召回率召回率% %F F值值% %d_dou1_1d_dou1_199.5899.5899.6599.6599.6299.62d_dou1_1ad_dou1_1a97.7797.7797.2297.2297.4997.49d_dou1_1bd_d
15、ou1_1b96.4596.4597.8797.8797.1597.15d_dou1_1cd_dou1_1c77.7877.7877.7877.7877.7877.78d_dou1_1dd_dou1_1d87.5087.5087.5087.5087.5087.50d_dou1_2d_dou1_27.417.414.654.655.715.71d_dou1_2ad_dou1_2a99.3899.3899.3899.3899.3899.38d_dou1_2bd_dou1_2b100.00100.0050.0050.0066.6766.67d_dou1_2cd_dou1_2c73.3373.3378.5778.5775.8675.86d_dou1_2dd_dou1_2d44.4444.4466.6766.6753.3353.33d_dou1_3d_dou1_388.0088.0086.2786.2787.1387.13合计合计98.5498.5498.5498.5
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 应急局隔离酒店预案
- 机电专业就业指导心得
- 脑梗死护理+身份识别+医嘱执行考核试题
- 2026 七年级下册《统计数据说故事》课件
- 医院病历质量与奖惩制度
- 医院高风险区域工作制度
- 单位人员内部管理制度
- 卫生部医疗工作制度
- 卫生院母婴保健工作制度
- 印章档案管理员考核制度
- 视频监控运维服务方案投标文件(技术标)
- 辽宁出版集团招聘笔试题库2026
- 国际公法学(第三版)全套教学课件
- 勘察处管理制度
- 初升高语文专项知识点巩固练习题库
- 《智慧水电厂建设技术规范》
- 企业行政人员安全培训课件
- 2025年《临床输血技术规范》
- 2025届上海市徐汇区、金山区、松江区高一物理第二学期期末统考模拟试题含解析
- 上海选调生面试题和考官用题本及答案21套
- 项目部处罚管理制度
评论
0/150
提交评论