已阅读5页,还剩28页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Find Real Matter,搜索引擎开发培训课程提纲,Find Real Matter,前导知识,Core Java Java技术手册 编译原理 Modern compiler implementation in Java 概率论 应用随机过程:概率模型导论 数据结构 JAVA算法,Find Real Matter,了解搜索引擎,Google神话. 体验搜索引擎 把搜索范围限定在网页标题中intitle. 把搜索范围限定在特定站点中site. 把搜索范围限定在url链接中inurl. 做自己的搜索(代码) 实现制作索引的功能,实现搜索功能.,Find Real Matter,遍历搜索引擎技术,30分钟实现的搜索引擎 . 准备工作环境(10分钟) . 编写代码(15分钟) 发布运行(5分钟) 实现一个基于WEB结构的搜索引擎。(代码),Find Real Matter,网络蜘蛛,全文索引结构 Nutch网络搜索软件 商业搜索引擎技术介绍 自己的网络蜘蛛(代码) 广度遍历 深度遍历 正则表达式,Find Real Matter,BerkeleyDB,BerkeleyDB.原理与使用方法 B树讲解 基本API使用(代码),Find Real Matter,抓取技术,抓取网页 MP3 抓取 RSS 抓取 图片抓取 垂直行业抓取 抓取数据库中的内容 抓取本地硬盘上的文件,Find Real Matter,提取文档中的文本内容,从HTML文件中提取文本 结构化信息提取 网页去噪 htmlparser的基本使用(代码),Find Real Matter,正文提取,DOM树原理 NekoHTML讲解 NekoHTML简单应用(代码) NekoHTML用法的深入了解(代码) 递归调用方法的使用,Find Real Matter,从非HTML文件中提取文本,TEXT文件 PDF文件 Word文件 Excel文件 PowerPoint文件 流媒体内容提取,Find Real Matter,中文分词处理,Lucene 中的中文分词 Lietu中文分词的使用 中文分词的原理 正向最大匹配(代码),Find Real Matter,查找词典算法,数字搜索树 Tire树 Trie树的生成过程(代码) 使用Trie树的常规的API(代码) 理解Trie树的平衡过程(代码) Trie树的改造以及应用(代码) 最佳前驱匹配(代码) 语法解析树,Find Real Matter,隐码模型,发射概率概念 转移概率概念 统计一个词库中的发射概率和转移概(代码) 隐码模型的实际应用(代码),Find Real Matter,文档排重,语义指纹 语义指纹的概念 语义指纹的实际应用(代码),Find Real Matter,中文关键词提取,关键词提取的基本方法 关键词提取的设计 从网页提取关键词 关键词提取的实际应用(代码),Find Real Matter,拼写检查,英文拼写检查 中文拼写检查 英文拼写检查的实际应用(代码),Find Real Matter,自动摘要,自动摘要技术 自动摘要的设计 具体的应用(代码),Find Real Matter,自动分类,自动分类的接口定义 自动分类的SVM方法实现 多级分类,Find Real Matter,自动聚类,聚类的定义 K均值聚类方法 K均值实现,Find Real Matter,语义搜索,准备语义词库 把语义词库转换成同义词索引库 在SynonymAnalyzer中使用同义词索引库 具体的代码解析(代码) JUnit 介绍,Find Real Matter,跨语言搜索,简繁转换(代码),Find Real Matter,Lucene 的索引库,理解 Lucene 的索引库结构 设计一个简单的索引库(代码),Find Real Matter,创建和维护索引库,创建索引库 向索引库中添加索引文档 删除索引库中的索引文档 更新索引库中的索引文档 索引的合并 索引的定时更新 索引的备份和恢复 (以上部分均有实现代码),Find Real Matter,优化使用 Lucene,索引优化 查询优化 实现字词混合索引 定制Tokenizer 查询大容量索引 (以上部分均有实现代码),Find Real Matter,用户界面设计与实现,Lucene 搜索接口 搜索页面设计 用于显示搜索结果的 taglib 用于搜索结果分页的 taglib 设计一个简单的搜索页面 实现一个日文搜索项目的页面设计(代码),Find Real Matter,实现搜索接口,布尔搜索 指定范围搜索 设置过滤条件 搜索结果排序 搜索页面的索引缓存与更新 (以上部分均有实现代码),Find Real Matter,关键词高亮显示,结合以前学习的内容学会使用highlighter包(代码) 理解其包中基本类的使用 实际应用,Find Real Matter,实现多维视图及相关搜索,实现多维视图 bitsSet介绍 计算机中进制转换和位移介绍 MoreLikeThis的具体使用 (以上部分均有实现代码),Find Real Matter,实现AJAX自动完成,用AJAX技术设计搜索页面(代码),Find Real Matter,用Solr实现分布式搜索,Solr服务器端的配置与中文支持 把数据放进Solr 从Solr删除数据 SolrJ客户端搜索界面 Solr搜索结果优化 Solr的.net客户端 Solr的PHP客户端,Find Real Matter,图像的OCR识别,调用
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年及未来5年市场数据中国智能家居机器人行业发展监测及投资战略咨询报告
- 水处理厂扩容提标工程节能评估报告
- 生猪免疫程序与疾病控制标准化方案
- 2025北方至信人力资源评价(北京)有限公司社会招聘笔试历年常考点试题专练附带答案详解试卷3套
- 2025中建四局一公司春季校园招聘100人笔试历年备考题库附带答案详解试卷3套
- 2025年及未来5年中国卫生杀虫剂行业市场供需格局及行业前景展望报告
- 2025东方有线网络有限公司校园招聘笔试历年备考题库附带答案详解试卷3套
- 佛山公务员考试义务兵试题及答案
- 城市道路快速化改造工程社会稳定风险评估报告
- 城关区 公务员考试试题及答案
- 油罐施工方案方案
- 互联网+零售业务创新
- 财务管理实务(第二版)高职PPT完整版全套教学课件
- 张锡纯的汇通观与用药心得
- 粒子群算法最全的详解
- 住院医师规范化培训临床实践能力结业考核专科技能操作评分表(骨科)膝关节穿刺
- GB/T 6068-2021汽车起重机和轮胎起重机试验规范
- GB/T 13477.8-2017建筑密封材料试验方法第8部分:拉伸粘结性的测定
- 超高层建筑的火灾特点
- 教育部十二五规划子课题申报
- Q∕GDW 10827-2020 三相智能电能表技术规范
评论
0/150
提交评论