



版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、汉语分词:最大匹配方法夏庆荣(李正华指导)2016年3月14日UTF-8编码 UTF-8是不定长的,根据左侧位1的个数来决定占用了几个字节,中文一般占2-4个字节utf-8可以根据字的第一个字节移位推出长度可以根据字的第一个字节移位推出长度的的0 xxxxxxx占1个字节110 xxxxx 10 xxxxxx占2个字节1110 xxxx 10 xxxxxx 10 xxxxxx占3个字节11110 xxx 10 xxxxxx 10 xxxxxx 10 xxxxxx占4个字节1.分词任务中文分词的目的是将汉字序列切分为词序列举例说明:输入句子:他是研究生物化学的。可能的分词:他 是 研究生 物化
2、学 的 。 他 是 研究生 物 化学 的 。 他 是 研究 生物 化学 的 。合理答案:他合理答案:他 是是 研究研究 生物生物 化学化学 的的 。2.最大匹配算法从左到右寻找词的最大匹配从左到右寻找词的最大匹配(每次都从字典中贪心的找一个最长的词)每次都从字典中贪心的找一个最长的词)我们有一个词典词典,用于存放所有可能的词语,即除了单字,分词结果中的每个词均要在词典中出现。文件的格式:文件的格式:词总个数t词的最大长度word1word2如果你打开乱码UTF8UTF8文件记事本下显示乱码,可以在浏览器(或其他高级编辑器)中打开文件记事本下显示乱码,可以在浏览器(或其他高级编辑器)中打开2.最
3、大匹配算法从当前位置开始,向右截取最大长度,组成当前词;和字典中的词逐一进行匹配;若匹配成功,则进行下次匹配,下次匹配的当前位置则为这次词后面的那个字。如果未能匹配,就缩短长度(长度减一)重新截取,直到当前词与词典中的词匹配或者当前词是单字;2.最大匹配算法 举例: 给定句子:我是中国人 字典:中国、中国人 指定:词的最大长度m=32.最大匹配算法 句子:我是中国人第一轮:第一次:我是中是选取的词,在词典中未找到匹配项第二次:我是是选取的词,在词典中未找到匹配项第三次:我是选取的词,是单字,匹配成功2.最大匹配算法 句子:我 是中国人第二轮:第一次:是中国是选取的词,在词典中未找到匹配项第二次
4、:是中是选取的词,在词典中未找到匹配项第三次:是是选取的词,是单字,匹配成功2.最大匹配算法 句子:我 是 中国人第三轮:第一次:中国人是选取的词,在词典中找到匹配项,匹配成功 至此,短句中所有字匹配结束,该短句分词结束。3.分词算法评价给定人工标注的分词答案,评价某一算法给出的结果。给定人工标注的分词答案,评价某一算法给出的结果。正确率(Precision) =正确识别的个体总数 / 识别出的个体总数召回率(Recall) = 正确识别的个体总数 / 测试集中存在的个体总数F值 = 正确率 * 召回率 * 2 / (正确率 + 召回率) 思考:评价程序应该怎么写?3.分词算法评价 例子: 句
5、子:我是中国人 分词:我是 中国人 答案:我 是 中国人 识别出的个体总数:2 正确识别的个体总数:1 测试集中存在的个体总数:3 正确识别的个体总数:1 正确率正确率(Precision(Precision) ) = 1/2 = 50.00% 召回率召回率(Recall(Recall) ) = 1/3 = 33.33% F F值值 = (1/2) * (1/3) * 2 / (1/2 + 1/3) = 40.00%corpus.sentence.txt格式4.语料数据格式corpus.answer.txt格式4.语料数据格式5.编程作业 要求:编程平台不限(windows、linux),编程语言不限(C、 C+) 任务:使用最大匹配算法、字典文件(corpus.dict.txt),对语料 (corpus.sentence.txt)进行分词,将分词的结果输出到文件 corpus.out.txt中;对比corpus.answer.txt和corpus.out.txt,给出 算法的P/R/F指标 输出
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年智能制造工程师考试试题及答案动态
- 2025年营养学与健康专业毕业考试卷及答案
- 2025年建筑施工与管理工程考试试卷及答案
- 税款担保补充协议(航空行业)
- 新能源汽车整车动力系统性能评估与优化合同
- 高效节能工业厂房消防验收合格产权交易合同
- 线上线下同步商品直播合作协议
- 绿色环保月子中心建设与运营管理合同
- 美容美发加盟体系品牌推广与加盟店培训协议
- 模具验收与后期服务支持及改进协议
- 2025年广东省高三语文5月模拟联测试卷附答案解析
- 2024年河北省魏县事业单位公开招聘医疗卫生岗笔试题带答案
- 道路施工现场安全管理措施
- 重庆市八中2024-2025学年高三下学期3月适应性检测(六)语文试题 含解析
- 玻璃高空吊装合同协议
- 2024年救生员职业考试的全景试题及答案
- 浙江省台州市2023-2024学年高一地理下学期期中试题pdf
- 慢性肾脏病肌少症诊断治疗与预防专家共识(2024年版)解读
- 纪检监察“三重一大”学习培训
- 铁路维修教材分析课件
- 中科曙光2025测评
评论
0/150
提交评论