




已阅读5页,还剩27页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
面向丝绸领域的垂直搜索关键算法研究 面向丝绸领域的垂直搜索关键算法研究面向丝绸领域的垂直搜索关键算法研究 答辩人: 导 师: *1/19面向丝绸领域的垂直搜索引擎关键 算法研究基于snake模型的医学序 列图像轮廓提取及应用研究 面向丝绸领域的垂直搜索关键算法研究 内容概要 一、研究意义 二、研究现状 三、研究内容 四、总结展望 date 2面向丝绸领域的垂直搜索引擎关键 算法研究 面向丝绸领域的垂直搜索关键算法研究 内容概要 一、研究意义 二、研究现状 三、研究内容 四、总结展望 date 3面向丝绸领域的垂直搜索引擎关键 算法研究 面向丝绸领域的垂直搜索关键算法研究 一、研究意义 v互联网的信息量呈爆炸趋势增长,数量的增加带 来的是搜索服务品质的下降,并且查询的结果里 存在大量的重复信息和垃圾信息,用户的查询效 率非常低。 v网络的发展客观上就需要一批能够满足某一特定 领域、特定人群或者说是某一特定需求的网站。 几十万 几百万 几千万 几十亿 网页信息量 date 4面向丝绸领域的垂直搜索引擎关键 算法研究 面向丝绸领域的垂直搜索关键算法研究 一、研究意义(续) v丝绸作为面料行业的一个种类,随着面料行业的科技含量逐步提高,企业的 发展与网络的联系也越来越紧密。企业可以通过网络获得本行业的原料、加 工、产品的最新信息,产业链上各个环节动态信息,可以发布自身的信息以 获得更多的商机,可以通过网络平台进行交易。 v如何对通用搜索引擎技术进行改进,使查询的结果更加贴近用户的要求,成 为搜索引擎行业近期的研究热点。 date 5面向丝绸领域的垂直搜索引擎关键 算法研究 面向丝绸领域的垂直搜索关键算法研究 内容概要 一、研究意义 二、研究现状 三、研究内容 四、总结展望 date 6面向丝绸领域的垂直搜索引擎关键 算法研究 面向丝绸领域的垂直搜索关键算法研究 二、研究现状 国外现状: v国外垂直搜索获得了1400万美元的融资,强力刺激了广告主对垂直搜索广告的认 可和期待。垂直搜索引擎广告将会在未来几年借助垂直搜索引擎的发展迎来更大 的发展空间和机遇。 v美国垂直搜索引擎的发展已经充分说明了这种经营模式的正确。m 公司通过发布有关疾病和治疗的详细内容,每月赢得高达2500万次的点击,有260 万患者和100万医生浏览。由此可见,专业化,垂直化已成为未来搜索引擎发展的 一个潮流和方向。 国内现状 v与美国方兴未艾的垂直搜索引擎发展相比,国内明显还处于落后状态,国内众多 网站虽然在自己的发展过程中做了许多有益的探索,但在内容垂直化、服务集中 化、访问经常化方面还有很长的路要走。 date 7面向丝绸领域的垂直搜索引擎关键 算法研究 面向丝绸领域的垂直搜索关键算法研究 内容概要 一、研究意义 二、研究现状 三、研究内容 四、特色创新 五、总结展望 date 8面向丝绸领域的垂直搜索引擎关键 算法研究 面向丝绸领域的垂直搜索关键算法研究 3.1 面向丝绸领域垂直搜索引擎的总体设计 功能需求分析 页面权值计算功能 网页信息的自动采集 信息的自动提取 存储爬行的网页url列表 存储各个网页的结构信息 存储不同url的权值 存储产品相关信息 提供信息检索功能 以页面的形式返回给用户 信息的自动采集 信息数据库的管理 信息的检索与显示 date 9面向丝绸领域的垂直搜索引擎关键 算法研究 面向丝绸领域的垂直搜索关键算法研究 3.1 面向丝绸领域垂直搜索引擎的总体设计 系统的总体框架图 web服务器 丝绸产品信息查询 ado组件 丝绸产品信息查询界面 internet 页面 spider服务器 网页分析 网页信息结构化抽取 url 信息库 丝绸产品 信息库 表示层 逻辑层 数据存储层 date 10面向丝绸领域的垂直搜索引擎关键 算法研究 面向丝绸领域的垂直搜索关键算法研究 3.1面向丝绸领域垂直搜索引擎的总体设计 系统的关键技术分析 系统的效率系统的效率 蜘蛛的抓取蜘蛛的抓取 速度速度 网页的权网页的权 值计算值计算 查询器的查询器的 分页机制分页机制 系统之间的系统之间的 自动协调自动协调 由于垂直搜索引擎是一个 复杂的综合系统,各个子系统 之间是相互协调,紧密相关。 所以在设计时需要全面考虑, 任何一个环节的效率都会影响 到整个系统的效率。 date 11面向丝绸领域的垂直搜索引擎关键 算法研究 面向丝绸领域的垂直搜索关键算法研究 3.2 面向丝绸领域的垂直搜索引擎的具体实现 自动搜索算法的具体实现 web 用户指定 词表? 元搜索 y 种子网址 n spider搜索 网页去重 页面存储器 丝绸产品信 息数据库 页面索 引库 用户首先指定与丝绸产品信息相 关的词表,利用元搜索引擎来查 询与这些词相关的种子网址,用 户也可以直接指定种子网址列表 ,得到需要搜索的url列表后,利 用spider去采集相关网页,经过 去重后存入页面存储器,再经过 网页分析和结构化信息的抽取后 ,把丝绸信息相关的内容存入数 据库,供用户查询。 date 12面向丝绸领域的垂直搜索引擎关键 算法研究 面向丝绸领域的垂直搜索关键算法研究 3.2面向丝绸领域的垂直搜索引擎的具体实现 自动搜索算法的具体实现(续) 利用元搜索引擎来限定搜索范围的流程 搜索函数部分相关代码: string search (string str, string url) /返回一个保存url地址字符串的字符串数组 url address=new url(url);/建立http连接 string host=url.gethost();/获取主机号 int port=url.getport();/获取端口号 socket socket=new socket(host,port);/实例化socket inputstream in=socket.getinputstream();/获取输入流 printwriter out=new printwriter(socket.getoutputstream();/输出流 out.print(“post”+“查询式”+);/向商用引 擎提交查询式 搜索关键词 提交查询式 包含查询结 url是 否重复 网页过滤 插入数据库 否 是 否 是 果的url date 13面向丝绸领域的垂直搜索引擎关键 算法研究 面向丝绸领域的垂直搜索关键算法研究 3.2面向丝绸领域的垂直搜索引擎的具体实现 自动搜索算法的具体实现(续) 为了提高搜索效率,在上述基础上我们编写了一个可以同时采用多个商 用引擎的java函数。相关代码如下: void mutisearch (string str, string engaddress) /str为用户的查询关键字;engaddress 为商用引擎地址 string temp =; temp = search ( str, engaddress); for (int i=0; i”为分隔符分隔文档内容; 去掉文档中无用内容和tags标记; 提取文档中head,title,body等内容; if 是简体中文分词 建立文档倒排索引,提取文档中href,text等内容,并按照一定的优先 算法加载到url队列中去。 更新链接表。 date 17面向丝绸领域的垂直搜索引擎关键 算法研究 面向丝绸领域的垂直搜索关键算法研究 3.2面向丝绸领域的垂直搜索引擎的具体实现 自动搜索算法的具体实现(续) v为了进一步确定我们设计的网页爬行控制模块的稳定,特地作了该 模块的性能测试。我们设定的爬行测试条件如下:搜索深度为3(这 样做的目的是为了防止搜索规模过大,而导致死机等现象的发生。 ),蜘蛛个数为3,起始种子为5个。 date 18面向丝绸领域的垂直搜索引擎关键 算法研究 面向丝绸领域的垂直搜索关键算法研究 3.2面向丝绸领域的垂直搜索引擎的具体实现 自动搜索算法的具体实现(续) v人工分析存储器中的url与url队列存储中的url进行比对数据。 date 19面向丝绸领域的垂直搜索引擎关键 算法研究 面向丝绸领域的垂直搜索关键算法研究 3.2面向丝绸领域的垂直搜索引擎的具体实现 页面分析与丝绸产品信息的自动抽取 通常对于页面信息的抽取方式有两种: 手动抽取:需要人去阅读和分析该网页的信息,而且对所要抽取的 页面的结构也要相当的熟悉后,再定位和抽取该页面中的数据。这种 方式较耗费人力,对于某一些固定的网站,具有较高的查全率和查准 率。 自动抽取:由于领域本身的一些特点,使得该领域的页面文档普遍 具有类似的结构。 因此在本系统中我们采用的自动抽取规则。 date 20面向丝绸领域的垂直搜索引擎关键 算法研究 面向丝绸领域的垂直搜索关键算法研究 3.2面向丝绸领域的垂直搜索引擎的具体实现 页面分析与丝绸产品信息的自动抽取(续) date 21面向丝绸领域的垂直搜索引擎关键 算法研究 面向丝绸领域的垂直搜索关键算法研究 3.2面向丝绸领域的垂直搜索引擎的具体实现 页面分析与丝绸产品信息的自动抽取(续) v以后每次抽取之前先到数据 库中去检索看看是不是存在 相应的url,利用sql查询语句 :select * from siledetail where url=对 应的url地址如果查找到了 ,则读取这些设置来抽取网 页内容。如果没有的话,则 手动(利用sql语句中的 insert into silkdetail( ) values () 将抽取的配置信息存入到数 据库中表sample里去。 date 22面向丝绸领域的垂直搜索引擎关键 算法研究 面向丝绸领域的垂直搜索关键算法研究 3.2面向丝绸领域的垂直搜索引擎的具体实现 lucene倒排文件索引结构 v索引结构主要有以下三种:倒排索引,后缀数组和签名文件。其中 ,倒排索引技术在当前大多数的信息检索系统中得到了广泛的应用 ,它对于关键词的搜索非常有效。 v本课题是针对丝绸产品的,因此其主要内容是word格式和图像格式 的,所以在数据库中我们专门设立了一个第一检索项的字段。它是 由产品名称、生产厂家、产地组成。索引的单位是document对象, 每个document对象包含多个字段field对象,针对不同的字段属性 和数据输出需求。 date 23面向丝绸领域的垂直搜索引擎关键 算法研究 面向丝绸领域的垂直搜索关键算法研究 3.2面向丝绸领域的垂直搜索引擎的具体实现 用户查询功能的实现 date 24面向丝绸领域的垂直搜索引擎关键 算法研究 面向丝绸领域的垂直搜索关键算法研究 3.2面向丝绸领域的垂直搜索引擎的具体实现 用户查询功能的实现(续) date 25面向丝绸领域的垂直搜索引擎关键 算法研究 面向丝绸领域的垂直搜索关键算法研究 3.2面向丝绸领域的垂直搜索引擎的具体实现 用户查询功能的实现(续) date 26面向丝绸领域的垂直搜索引擎关键 算法研究 面向丝绸领域的垂直搜索关键算法研究 3.2面向丝绸领域的垂直搜索引擎的具体实现 用户查询功能的实现(续) date 27面向丝绸领域的垂直搜索引擎关键 算法研究 面向丝绸领域的垂直搜索关键算法研究 内容概要 一、研究意义 二、研究现状 三、研究内容 四、总结展望 date 28面向丝绸领域的垂直搜索引擎关键 算法研究 面向丝绸领域的垂直搜索关键算法研究 五、总结展望 总结 从研究和设计的角度对垂直搜索引擎的相关技术作了详细的分析和 讨论,论述了目前搜索引擎的国内外发展现状和趋势。分析了搜索 引擎的工作原理及其各部分主要功能,抓住如何评价页面的主题相 关性和设计高效的爬行策略这两个关键问题,提出一个基于丝绸信 息的定题搜索器,完成了面向丝绸领域的垂直搜索引擎的设计与实 现。 date 29面向丝绸领域的垂直搜索引擎关键 算法研究 面向丝绸领域的垂直搜索关键算法研究 五、总结展望 下一步工作 v搜索引擎的工作效率和准确度有待于进一步的提高,这样网页的爬 行策略和选择算法必须再作进一步的改进和优化。 v在抽取丝绸产品信息时,虽然对于大多数网页可以实现有效抽取。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 专业职业技能试题及答案
- 药学专业自荐试题及答案
- 能源专业试题及答案
- 测绘专业考研试题及答案
- 黑龙江省新时代高中教育联合体2024-2025学年高一上学期期末联合考试政治试卷(含答案)
- 内墙腻子拆除施工方案
- 2026届安徽省合肥市高三物理第一轮复习综合检测试卷2(力学部分B卷)
- 在线直播行业发展报告
- 婚礼主持人开场白模版
- 金乡蔬菜冷库施工方案
- GB/T 18277-2025收费公路收费制式和收费方式
- 高一语文学法指导(绝对经典)
- 包装车间基础知识培训课件
- 2025年贵州建筑中级试题及答案
- 古代服饰复原与租赁服务创新创业项目商业计划书
- 河北社区工作管理办法
- 超声内镜检查及护理配合
- 数字人文与档案重构-洞察及研究
- 关于密码的课件
- 小儿腹泻患者的健康宣教
- 企业有限空间培训课件
评论
0/150
提交评论