搜索引擎开发培训章节程提纲ppt课件_第1页
搜索引擎开发培训章节程提纲ppt课件_第2页
搜索引擎开发培训章节程提纲ppt课件_第3页
搜索引擎开发培训章节程提纲ppt课件_第4页
搜索引擎开发培训章节程提纲ppt课件_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、搜索引擎开发培训课程提纲前导知识w Core Javaw w 编译原理w w 概率论w w 数据构造w 了解搜索引擎w Google神话.w 体验搜索引擎w 把搜索范围限定在网页标题中intitle.w 把搜索范围限定在特定站点中site.w 把搜索范围限定在url链接中inurl.w 做本人的搜索代码w 实现制造索引的功能,实现搜索功能.遍历搜索引擎技术w 30分钟实现的搜索引擎 .w 预备任务环境10分钟 .w 编写代码15分钟w 发布运转5分钟w 实现一个基于WEB构造的搜索引擎。(代码)网络蜘蛛w 全文索引构造w Nutch网络搜索软件w 商业搜索引擎技术引见w 本人的网络蜘蛛代码w

2、广度遍历w 深度遍历w 正那么表达式BerkeleyDBw BerkeleyDB.原理与运用方法w B树讲解w 根本API运用代码抓取技术w 抓取网页w MP3 抓取w RSS 抓取w 图片抓取w 垂直行业抓取w 抓取数据库中的内容w 抓取本地硬盘上的文件提取文档中的文本内容w 从HTML文件中提取文本w 构造化信息提取w 网页去噪w htmlparser的根本运用代码正文提取w DOM树原理w NekoHTML讲解w NekoHTML简单运用代码w NekoHTML用法的深化了解代码w 递归调用方法的运用从非HTML文件中提取文本w TEXT文件w PDF文件w Word文件w Excel文

3、件w PowerPoint文件w 流媒体内容提取中文分词处置w Lucene 中的中文分词w Lietu中文分词的运用w 中文分词的原理w 正向最大匹配代码查找词典算法w 数字搜索树w Tire树w Trie树的生成过程代码w 运用Trie树的常规的API代码w 了解Trie树的平衡过程代码w Trie树的改造以及运用代码w 最正确前驱匹配代码w 语法解析树隐码模型w 发射概率概念w 转移概率概念w 统计一个词库中的发射概率和转移概代码w 隐码模型的实践运用代码文档排重w 语义指纹w 语义指纹的概念w 语义指纹的实践运用代码中文关键词提取w 关键词提取的根本方法w 关键词提取的设计w 从网页提

4、取关键词w 关键词提取的实践运用代码拼写检查w 英文拼写检查w 中文拼写检查w 英文拼写检查的实践运用代码自动摘要w 自动摘要技术w 自动摘要的设计w 详细的运用代码自动分类w 自动分类的接口定义w 自动分类的SVM方法实现w 多级分类自动聚类w 聚类的定义w K均值聚类方法w K均值实现语义搜索w 预备语义词库w 把语义词库转换成同义词索引库w 在SynonymAnalyzer中运用同义词索引库w 详细的代码解析代码w JUnit 引见跨言语搜索w 简繁转换代码 Lucene 的索引库w 了解 Lucene 的索引库构造w 设计一个简单的索引库代码创建和维护索引库w 创建索引库w 向索引库中

5、添加索引文档w 删除索引库中的索引文档w 更新索引库中的索引文档w 索引的合并w 索引的定时更新w 索引的备份和恢复w以上部分均有实现代码优化运用 Lucenew 索引优化w 查询优化w 实现字词混合索引w 定制Tokenizerw 查询大容量索引w以上部分均有实现代码w用户界面设计与实现w Lucene 搜索接口w 搜索页面设计w 用于显示搜索结果的 taglibw 用于搜索结果分页的 taglibw 设计一个简单的搜索页面w 实现一个日文搜索工程的页面设计代码实现搜索接口w 布尔搜索w 指定范围搜索w 设置过滤条件w 搜索结果排序w 搜索页面的索引缓存与更新w 以上部分均有实现代码关键词高亮显示w 结合以前学习的内容学会运用highlighter包代码w 了解其包中根本类的运用w 实践运用实现多维视图及相关搜索实现多维视图bitsSet引见计算机中进制转换和位移引见MoreLikeThis的详细运用以上部分均有实现代码实现AJAX自动完成w 用AJAX技术设计搜索页面代码用Solr实现分布式搜索w Solr效力器端的配置与中文支持w 把数据放进Solrw 从Solr删除数据w SolrJ客户端搜索界面w Solr搜索结果优化w Solr的.net客户端w Solr的PHP客户端图像的OCR识别w

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论