电子商务-A-第08讲-补充.ppt

上传人：x*** IP属地：四川上传时间：2020-03-26 格式：PPT 页数：30 大小：920KB 积分：15 举报 版权申诉

已阅读5页，还剩25页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1 30 电子商务张文新副教授电话mail zhangwx 课程安排 2 30 3 30 第8讲电子商务搜索引擎技术电子商务搜索引擎技术搜索引擎的关键技术网络蜘蛛 Spider Robot Crawler 网页结构化信息抽取中文分词搜索结果排序 4 30 电子商务搜索引擎技术网络蜘蛛 Spider Robot Crawler 对URL链接进行遍历基本数据结构一个待扩展的URL表一个已经访问过的URL地址表 5 30 图网络蜘蛛基本数据结构图电子商务搜索引擎技术网络蜘蛛 Spider Robot Crawler 遍历URL地址遍历的策略广度优先深度优先 6 30 A B C D E F H G I A F GE H I 电子商务搜索引擎技术搜索引擎的关键技术提取文档中的文本内容网页结构化信息抽取 HTML文件中提取文本识别网页的编码STEP 1 从Web服务器返回的contenttype中提取编码 STEP 2 从网页的Meta信息中识别字符编码 STEP 3 从返回流的二进制格式判断确定网页语言对HTML文件进行解析识别三类节点 RemarkNode 注释 TagNode 标签 TextNode 文本 7 30 电子商务搜索引擎技术提取文档中的文本内容网页结构化信息抽取 HTML文件中提取文本续结构化信息提取DOM 文档对象模型结构HTML扫描器例如 Node getAttributes getNamedItem src 参考NekoHTML 8 30 电子商务搜索引擎技术 DOM树 9 30 电子商务搜索引擎技术提取文档中的文本内容网页结构化信息抽取 HTML文件中提取文本续网页结构相似度计算自动提取结构化信息的关键是从同样类型的实例中发现编码模板计算两个网页的结构相似度方法一从HTML编码字符串检测重复模式检测方法有字符串编辑距离和树编辑距离 10 30 请参阅相关文献及编程资源电子商务搜索引擎技术 HTML文件中提取文本续正文提取STEP 1 根据正文特征进行网页去噪正文详细页面的特征文字较多有明显段落标点符号较多 URL较长链接较少计算节点的链接文字比节点下链接数节点下文字数删除链接文字比大于某个阈值的节点 STEP 2 网页链接中锚点文本网页标题与网页正文关系分析STEP 3 自动模板 11 30 电子商务搜索引擎技术搜索引擎的关键技术中文分词两类方法机械匹配法和统计法机械法最大匹配法利用正向或反向或双向最大匹配的方法来分词借助标准的词典搜索词典统计法最大概率分词法一个待切分的汉字串可能包含多种分词结果将其中概率最大的那个作为该字符串的分词结果 12 30 电子商务搜索引擎技术中文分词机械法最大匹配法 13 30 例东北京西匹配算法数字搜索树Trie 三叉搜索树电子商务搜索引擎技术数字搜索树 14 30 例东北京西搜索最大高度是词典中最长词的长度每个节点都需要消耗很多内存电子商务搜索引擎技术 Trie树Trie树又称字典树单词查找树它来源于retrieval 检索中取中间四个字符构成用于存储大量的字符串以便支持快速模式匹配主要应用在信息检索领域 15 30 电子商务搜索引擎技术 Trie树 16 30 标准Trie树的结构所有含有公共前缀的字符串将挂在树中同一个结点下实际上trie简明的存储了存在于串集合中的所有公共前缀假如有这样一个字符串集合X bear bell bid bull buy sell stock stop 它的标准Trie树如下图电子商务搜索引擎技术标准Trie树的查找对于英文单词的查找我们完全可以在内部结点中建立26个元素组成的指针数组查找过程假如我们要在上面那棵Trie中查找字符串bull b u l l 1 在root结点中查找第 b a 1 号子指针发现该指针不为空则定位到第1号子结点处 b结点 2 在b结点中查找第 u a 20 号子指针发现该指针不为空则定位到第20号子结点处 u结点 3 一直查找到叶子结点出现特殊字符位置表示找到了bull字符串如果在查找过程中终止于内部结点则表示没有找到待查找字符串 17 30 电子商务搜索引擎技术中文词语的标准Trie树由于中文的字远比英文的26个字母多的多因此对于trie树的内部结点不可能用一个26的数组来存储指针如果每个结点都开辟几万个中国字的指针空间不仅内存消耗过大就连磁盘也消耗很大一般可以采取这样种措施 1 以词语中相同的第一个字为根组成一棵树这样的话一个中文词汇的集合就可以构成一片Trie森林这篇森林都存储在磁盘上森林的root中的字和root所在磁盘的位置都记录在一张以Unicode码值排序的有序字表中字表可以存放在内存里 2 内部结点的指针用可变长数组存储 18 30 电子商务搜索引擎技术中文词语的标准Trie树特点由于中文词语很少操作4个字的因此Trie树的高度不长查找的时间主要耗费在内部结点指针的查找将指向字的指针按照字的Unicode码值排序然后加载进内存以后通过二分查找能够提高效率 19 30 电子商务搜索引擎技术中文词语的标准Trie树标准Trie树的应用和优缺点 1 全字匹配确定待查字串是否与集合的一个单词完全匹配 2 前缀匹配查找集合中以匹配字为前缀的所有串 20 30 电子商务搜索引擎技术搜索引擎的关键技术中文分词两类方法机械匹配法和统计法机械法最大匹配法统计法最大概率分词法一个待切分的汉字串可能包含多种分词结果将其中概率最大的那个作为该字符串的分词结果 21 30 电子商务搜索引擎技术搜索引擎的关键技术中文分词统计法最大概率分词法 22 30 1 有意见分歧 2 有意见分歧电子商务搜索引擎技术搜索引擎的关键技术中文分词统计法最大概率分词法 23 30 W1 有意见分歧 W2 有意见分歧 S 有意见分歧分别计算 P W1 S 和P W2 S 电子商务搜索引擎技术搜索引擎的关键技术中文分词统计法最大概率分词法 24 30 要计算P W1 S 和P W2 S 先计算 P W S 假设每个词之间的概率是上下文无关的则电子商务搜索引擎技术搜索引擎的关键技术中文分词统计法最大概率分词法 25 30 电子商务搜索引擎技术搜索引擎的关键技术中文分词统计法最大概率分词法 26 30 表词语概率表可得 P W1 P W2 电子商务搜索引擎技术中文分词问题比较计算出词与词之间组合的概率差异后对于一个待分词的词串如何尽快找到最佳的分词路径呢 27 30 最佳概率最大分词路径左邻词对字串从左到右进行扫描可以得到W1 W2 Wi 1 Wi Wn 等若干候选词如果Wi 1的尾字与Wi的首字邻接就称Wi 1为Wi的左邻词最佳左邻词如果某个候选词Wi有若干个左邻词Wj Wk 等其中累计概率最大的候选词称为Wi的最佳左邻词电子商务搜索引擎技术中文分词问题根据以上数学原理如何开发一个最大概率分词算法呢 28 30 最大概率分词算法描述STEP 1 对一个待分词的字串S 按照从左到右的顺序取出全部候选词W1 W2 Wi Wn STEP 2 到词典中查出每个候选词的概率值P Wi 并记录候选词的全部左邻词 STEP 3 按照计算每个候选词的累积概率同时比较得到每个候选词的最佳左邻

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

电子商务-A-第08讲-补充.ppt

文档简介

温馨提示

最新文档

评论

电子商务-A-第08讲-补充.ppt

文档简介

温馨提示

最新文档

评论

相关文档