搜索引擎开发.ppt_第1页
搜索引擎开发.ppt_第2页
搜索引擎开发.ppt_第3页
搜索引擎开发.ppt_第4页
搜索引擎开发.ppt_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

FindRealMatter 搜索引擎开发培训课程提纲 FindRealMatter 前导知识 CoreJava Java技术手册 编译原理 ModerncompilerimplementationinJava 概率论 应用随机过程 概率模型导论 数据结构 JAVA算法 FindRealMatter 了解搜索引擎 Google神话 体验搜索引擎把搜索范围限定在网页标题中 intitle 把搜索范围限定在特定站点中 site 把搜索范围限定在url链接中 inurl 做自己的搜索 代码 实现制作索引的功能 实现搜索功能 FindRealMatter 遍历搜索引擎技术 30分钟实现的搜索引擎 准备工作环境 10分钟 编写代码 15分钟 发布运行 5分钟 实现一个基于WEB结构的搜索引擎 代码 FindRealMatter 网络蜘蛛 全文索引结构Nutch网络搜索软件商业搜索引擎技术介绍自己的网络蜘蛛 代码 广度遍历深度遍历正则表达式 FindRealMatter BerkeleyDB BerkeleyDB 原理与使用方法B树讲解基本API使用 代码 FindRealMatter 抓取技术 抓取网页MP3抓取RSS抓取图片抓取垂直行业抓取抓取数据库中的内容抓取本地硬盘上的文件 FindRealMatter 提取文档中的文本内容 从HTML文件中提取文本结构化信息提取网页去噪htmlparser的基本使用 代码 FindRealMatter 正文提取 DOM树原理NekoHTML讲解NekoHTML简单应用 代码 NekoHTML用法的深入了解 代码 递归调用方法的使用 FindRealMatter 从非HTML文件中提取文本 TEXT文件PDF文件Word文件Excel文件PowerPoint文件流媒体内容提取 FindRealMatter 中文分词处理 Lucene中的中文分词Lietu中文分词的使用中文分词的原理正向最大匹配 代码 FindRealMatter 查找词典算法 数字搜索树Tire树Trie树的生成过程 代码 使用Trie树的常规的API 代码 理解Trie树的平衡过程 代码 Trie树的改造以及应用 代码 最佳前驱匹配 代码 语法解析树 FindRealMatter 隐码模型 发射概率概念转移概率概念统计一个词库中的发射概率和转移概 代码 隐码模型的实际应用 代码 FindRealMatter 文档排重 语义指纹语义指纹的概念语义指纹的实际应用 代码 FindRealMatter 中文关键词提取 关键词提取的基本方法关键词提取的设计从网页提取关键词关键词提取的实际应用 代码 FindRealMatter 拼写检查 英文拼写检查中文拼写检查英文拼写检查的实际应用 代码 FindRealMatter 自动摘要 自动摘要技术自动摘要的设计具体的应用 代码 FindRealMatter 自动分类 自动分类的接口定义自动分类的SVM方法实现多级分类 FindRealMatter 自动聚类 聚类的定义K均值聚类方法K均值实现 FindRealMatter 语义搜索 准备语义词库把语义词库转换成同义词索引库在SynonymAnalyzer中使用同义词索引库具体的代码解析 代码 JUnit介绍 FindRealMatter 跨语言搜索 简繁转换 代码 FindRealMatter Lucene的索引库 理解Lucene的索引库结构设计一个简单的索引库 代码 FindRealMatter 创建和维护索引库 创建索引库向索引库中添加索引文档删除索引库中的索引文档更新索引库中的索引文档索引的合并索引的定时更新索引的备份和恢复 以上部分均有实现代码 FindRealMatter 优化使用Lucene 索引优化查询优化实现字词混合索引定制Tokenizer查询大容量索引 以上部分均有实现代码 FindRealMatter 用户界面设计与实现 Lucene搜索接口搜索页面设计用于显示搜索结果的taglib用于搜索结果分页的taglib设计一个简单的搜索页面实现一个日文搜索项目的页面设计 代码 FindRealMatter 实现搜索接口 布尔搜索指定范围搜索设置过滤条件搜索结果排序搜索页面的索引缓存与更新 以上部分均有实现代码 FindRealMatter 关键词高亮显示 结合以前学习的内容学会使用highlighter包 代码 理解其包中基本类的使用实际应用 FindRealMatter 实现多维视图及相关搜索 实现多维视图bitsSet介绍计算机中进制转换和位移介绍MoreLikeThis的具体使用 以上部分均有实现代码 FindRealMatter 实现AJAX自动完成 用AJAX技术设计搜索页面 代码 FindRealMatter 用Solr实现分布式搜索 Solr服务器端的配置与中文支持把数据放进Solr从Solr删除数据SolrJ客户端搜索界面Solr搜索结果优化Solr的 net客户端Solr的PHP客户端 FindRealMatter 图像的OCR识别 调用O

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论