




已阅读5页,还剩26页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第四章 文本操作技术 回顾回顾 信息检索的基本概念 信息检索的基本概念 信息检索的理论模型 信息检索系统的 布尔逻辑模型 向量空间模型 信息检索系统的 主要理论知识 向量空间模型 隐性语义索引模型 概率模型 概率模型 基于语言模型的信息检索模型 信息检索系统的评价 信息检索系统的评价 评价方法 常的试集 常用的测试集 2011 11 132 信息检索系统的关键实践技术信息检索系统的关键实践技术 文本的预处理 文本的预处理 英文文本的预处理 中文文本的预处理 文本的索引和搜索文本的索引和搜索 索引的构建技术 索引的压缩技术 索引的压缩技术 文本搜索技术 查询处理技术 查询处理技术 2011 11 133 信息检索中文本操作的处理流程信息检索中文本操作的处理流程 文档分析编码转换 文档分析及编码转换 确定词项集合 断词 词条化 tokenization 英文的词法分析英文的词法分析 中文的分词 英文大小写转换 英文大小写转换 去除停用词 词干提取 词干提取 2011 11 134 1 文档分析和编码转换1 文档分析和编码转换 作为索引构建过程的输入数字文档有多种形式 作为索引构建过程的输入 数字文档有多种形式 按照文件后缀名 doc pdf ppt html xml txt 按照字符编码 ANSI BIG5 Unicode UTF 8 处理步骤 文档单位的选择 文档单位的选择 将各种格式的文件转换成纯文本文件 编码转换统转换为ANSIUTF 8或U id 编码转换 统一转换为ANSI UTF 8或Unicode 2011 11 135 1 1 文档单位的选择1 1 文档单位的选择 确定索引的文档单位 确定索引的文档单位 不同的IR系统用户要求不同的返回结果 图书检索系统 返回整本书 邮件检索系统 返回某个邮件 包含附件 论坛搜索 返回某个主题下所有用户的回复 图片搜索 音乐搜索 返回相关音乐或图片 Web检索 返回相关网页 这实际上是 索引粒度 的选择 2011 11 136 1 2 转换成纯文本文件1 2 转换成纯文本文件 同的文件转换成纯文本需要同的技术 不同的文件转换成纯文本需要不同的技术 自动输入 转换不一定可逆 手动转换 转换不定可逆 转换可能丢失信息 自动转换不一定可行 Word文档转换成纯文本 二进制文件转换成纯文本文件 自动转换不定可行 二进制文件转换成纯文本文件 pdf文档转换成纯文本 图片保存格式 OCR 文字保存格式 相关转换软件 2011 11 137 1 3 编码的统一化1 3 编码的统化 纯文本文件存在多种同的编码格式 纯文本文件存在多种不同的编码格式 ANSI 一个字节保存字母 两个字节保存汉字 汉字 gb2312 日文 jisj 传统Unicode编码 两个字节保存一个汉字 UTF 8 变长字节保存字母或汉字 UTF 8 变长字节保存字母或汉字 英文字母一个字节 中文汉字用2到3个字节 中文汉字用2到3个字节 字符编码之间的转换不一定可逆且有时会丢失信 息息 2011 11 138 2 英语处理中涉及的问题2 英语处理中涉及的问题 英文的断词 英文的断词 大小写的转化 去除停用词 词干提取 2011 11 139 2 1 英语的断词2 1 英语的断词 标记化是将给定的字符序列拆分成系列子序 标记化 是将给定的字符序列拆分成一系列子序 列的过程 其中每个子序列称为符号单元 k该过程称为标记化kiitoken 该过程称为标记化 tokenization IR中 研究最多的是以词为单位对文本进行划分 称为断词 word tokenization 简称 tokenization 在断词过程中 可能会同时除去 一些特殊符号 比如 标点符号 举例举例 I have a dream I have a dream I have a dream 2011 11 1310 断词对IR的影响断词对IR的影响 比如 ShillOl 比如 Shaquille O Neal O Neal was born in Newark New Jersey 断词 oneal o neal o neal o neal Query neal AND newarkQuery neal AND newark o neal AND newark 查询和文本集合的断词方法要一致 2011 11 1311 英文断词时需要考虑的情况英文断词时需要考虑的情况 1 句点是英文中最长引起歧义的符号也是最 1 句点 是英文中最长引起歧义的符号 也是最 难处理的符号 表示句子的结尾 缩写的一部分 小数点 举例 举例 The experiments led by Dr Alan achieved a precision of 90 7 precision of 90 7 He was born in U S 2011 11 1312 通过启发式规则的方法对句点消岐 通过启发式规则的方法对句点消岐 通过机器学习的方法对句点消岐 2011 11 1313 英文断词时需要考虑的情况英文断词时需要考虑的情况 2 撇号主要用构成英文的动词缩写式和名词 2 撇号 主要用于构成英文的动词缩写式和名词 所有格 动词缩写式 I m won t don t 等等 歧义 he s he is he was he has he d he would he had he d he would he had 名词所有格 The cat s children s parents The cat s children s parents 年份的复数 thl t1950 the late 1950 s 2011 11 1314 撇号分隔方法 撇号分隔方法 Brown将撇号独立作为一个符号 I m I m Penn 树库将组合的两个成分分开 树库将组合的两个成分分开 I m I m 2011 11 1315 英文断词时需要考虑的情况英文断词时需要考虑的情况 3 连字符主要用处是标志合成词以用在排版 3 连字符 主要用处是标志合成词以及用在排版 工序 构成合成词 已经固定成词的情况 E mail co operate 根据特定语法或语言环境生成的词 Four year Steve Jobs 1955 2011 All In One 用在排版上用在排版上 2011 11 1316 连字符的处理方法 连字符的处理方法 用于合成词的连字符 一般不对其进行分割 用于排版的连字符 用于排版的连字符 可用使用简单的合并方法处理 或者通过查词典 来判断是否需要合并来判断是否需要合并 2011 11 1317 2 2 大小写转换2 2 大小写转换 英文句首的单词第个字母大写这能导致 英文句首的单词第一个字母大写 这可能导致一 些单词不能正确的匹配 比如查询 automobile 和句首的 Automobile 一个一般的策略是将所有字母转换成小写 但是个般的策略是将所有字母转换成小写 但是 这也会导致一些例外 比如 China 和 china 比如 China和china 全部转换成小写可能导致那些本应区分的词语同化 由于用户查询往往忽略大小写而使用小写因 由于用户查询往往忽略大小写 而使用小写 因 此 所有字母转换成小写有助于用户的查询 2011 11 1318 2 3 去除停用词2 3 去除停用词 某些情况些常见词在文档和用户需求进行 某些情况下 一些常见词在文档和用户需求进行 匹配时 价值不大 需要彻底从词汇表中去除 这些词称为停用词d这些词称为停用词 stop word 停用词表的每个词将在索引过程中被忽略 常用的生成停用词表的方法是将词项按照文档频 率从高到底排列 然后手工选择那些与文档主题率从高到底排列 然后手工选择那些与文档主题 关系不大的高频词作为停用词 在信息检索不断发展的历程中有从大停用词表 在信息检索不断发展的历程中 有从大停用词表 到小停用词表最后到不用停用词的趋势 Web 搜索引擎通常都不用停用词表 Web 搜索引擎通常都不用停用词表 2011 11 1319 2 4 词干提取2 4 词干提取 英语词汇有两部分组成词和词缀 英语词汇有两部分组成 词干和词缀 词干是单词不可缺少的部分 有些词干可以独立 成词 词干提取在信息检索中有两个作用 词干提取在信息检索中有两个作用 提高召回率 减少倒排索引中词项的个数从而减少索引文件 减少倒排索引中词项的个数 从而减少索引文件 的大小 对于英语通常使用Porter算法提取词干 对于英语 通常使用Porter算法提取词干 2011 11 1320 2 5 一个简单的例子2 5 个简单的例子 hbdiffl The boy s cars are different colors 1 断词 The boy s cars are different colors 2 所有单词小写2 所有单词小写 the boy s cars are different colors 3 去除停用词3 去除停用词 the boy s cars different colorsy 4 词干提取 the boy s car differ color the boy s car differ color 2011 11 1321 2 6 注意2 6 注意 语言学预处理的目的是为便后续建立索引和 语言学预处理的目的是为了便于后续建立索引和 查询操作 提高IR系统的性能 1 建立词汇的等价类 2 词汇的等价类对应于倒排索引中的词项 3 词项最终用于建立索引 语言学预处理最重要是保持对查询和文档集中的 文本采用同一种方式来处理文本采用同种方式来处理 2011 11 1322 3 中文分词3 中文分词 中文系统有两种主要检索方案 中文IR系统有两种主要检索方案 基于字的检索 按照字建立索引 需要在检索时 进行逻辑运算 基于词的检索 按照词建立索引 检索时直接命 中 优点 检索速度快 准确率高 中文分词 Chinese Word Segmentation 中文分 g CWS 中文文本中词与词之间没有空格 为了 获取词语信息 需要对词语进行自动的词语切分 获信 要动切分 李明是一名优秀的学生 李明 是 一名 优秀 的 学生 李明 是 名 优秀 的 学生 2011 11 1323 3 1 中文分词的几种标准3 1 中文分词的几种标准 中文分词面临的首要问题是如何定义个词 中文分词面临的首要问题是如何定义一个词 举例 自然语言处理 1 自然 语言 处理 2 自然语言 处理 自然语言 处理 中文词的定义没有统一的标准 语言学家从不同 的角度对词进行定义的角度对词进行定义 Beijing University PKU Hong Kong City University CITYU Hong Kong City University CITYU Microsoft Research MSR di Academia SINICA AS 2011 11 1324 3 2 中文分词方法简介3 2 中文分词方法简介 早期基词典的最大配法 早期 基于词典的最大匹配法 正向最大匹配法 逆向最大匹配法 双向最大匹配法 双向最大匹配法 基于机器学习系列模型的方法 基于机器学习系列模型的方法 HMM ME CRF Perception 2011 11 1325 正向最大匹配法正向最大匹配法 设S 为句子S的个子串 词表中最长词的字数 设S 为句子S的一个子串 词表中最长词的字数 为m 初始化 指针p1指向句子的首位置 算法执行 1 如果p1到达句子末尾 分词结束 2 p2 p1 m 2 p2 p1 m 3 如果p1和p2之间的子字符串S 在词表中不存在 p2 重复步骤3 p2 重复步骤3 4 如果p1和p2之间的子字符串S 在词表中存在 则S 是一个词p1 p2 1转步骤1 则S是个词 p1 p2 1 转步骤1 2011 11 1326 举例举例 假设最长字的个数是7 词表 他 是 研究 研究生 生物 物化 化学 学 的 的 待切分的句子 他是研究生物化学的 练习 用正向最大匹配法切分中文句子 1 他从马上下来 2 他马上下来 2011 11 1327 基于机器学习系列模型的方法基于机器学习系列模型的方法 把分词问题转换成序列标注问题S 把分词问题转换成序列标注问题 S B M E 自然语言处理 自然语言 处理 自 B 然 M 语 M 言 E 处 B 理 E 自 B 然 M 语 M 言 E 处 B 理 E 通过机器学习的方法对未切分的句子进行标示 他是研究生物化学的他是研究生物化学的 他 S 是 S 研 B 究 E 生 B 物 E 化 B 学 E 的 S S 他 是 研究 生物 化学 的 他 是 研究 生物 化学 的 2011 11 1328 开源分词系统简介开源分词系统简介 目前有许多研究机构发布其源的分词系统 目前 有许多研究机构发布了其开源的分词系统 ICTCLAS Stanford Chinese Segmenter g 使用时需要注意输入文件的格式 使用时需要注意输入文件的格式
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 农村施工承包协议书3篇
- 新解读《GB-T 31208-2014再制造毛坯质量检验方法》
- 高级保姆合同范本
- 口头形式担保合同范本
- 工资外包合同范本
- 恋爱期间赠予合同范本
- 认购资产包合同范本
- 药店药品购销合同范本
- 公务用船船合同范本
- 五年级下册语文期末考试试卷作文小马过河
- 医院护理人文关怀实践规范专家共识
- 成人反流误吸高危人群全身麻醉管理专家共识(2025版)解读
- 初二体育课程教学计划及实施
- 高校物业现场管理方案(3篇)
- 浙江省金华市婺城区2024-2025学年七年级上学期语文期中考试试卷(含答案)
- 2025年10月自考00227公司法真题及答案
- 2025年广东二级造价师土建工程考试真题及答案
- 汽轮机油品基础知识培训
- 2026届高三地理复习策略+课件
- FZ∕T81012-2024机织围巾、披肩
- 作战指挥体制说课课件
评论
0/150
提交评论