南邮网络信息资源检索课内实验二_第1页
南邮网络信息资源检索课内实验二_第2页
南邮网络信息资源检索课内实验二_第3页
南邮网络信息资源检索课内实验二_第4页
南邮网络信息资源检索课内实验二_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

网络信息资源检索与利用 课程实验第 2 次实验报告 实验内容及基本要求 实验项目名称 实验项目名称 网络搜索引擎的应用 实验类型 实验类型 验证 每组人数 每组人数 1 实验内容及要求 实验内容及要求 1 请分别针对网络资源目录使用的分类方法进行举例 2 在 google 的分类目录中分别找到一条路径指向网站 中国日报网及中国新闻漫画网 3 在 yahoo 的分类目录中找到一条路径指向网站论文 ctr stanford edu Summer98 koumoutsakos pdf 4 在新浪网的分类目录中找到一条路径指向学校的网站 5 在 sohu 的分类目录中找到一条路径指向网站 6 请指出 google yahoo sina sohu 的分类目录之间的异同和优劣 500 字以内 7 请了解 google 和 baidu 在进行关键词检索中语法的异同 并举例说明这两者在针对某 一主题进行检索时检索结果的差异以及对检索意图理解准确度的差异 8 搜索并了解主流的 rss 订阅软件 完成用 rss 在两个以上网站订阅两个以上专题 实验结果 1 1 请分别针对网络资源目录使用的分类方法进行举例 请分别针对网络资源目录使用的分类方法进行举例 1 主题分类法 如雅虎 2 学科分类法 如搜狐的社会科学分类 3 图书分类法 如中国图书馆图书分类法 4 分面组配法 如图书馆类型 2 2 在在 googlegoogle 的分类目录中分别找到一条路径指向网站 中国日报网及中国新闻漫画网 的分类目录中分别找到一条路径指向网站 中国日报网及中国新闻漫画网 1 打开 265 主页 2 在分类中找到新闻 3 在新闻中搜索中央媒体 4 搜索中国日报网 中国新闻漫画网的搜索方法同上 1 先打开 265 主页 搜索分类 动漫 2 单击 动漫 搜索动漫综合 可以找到中国新闻漫画网的搜索路径 3 3 在在 yahooyahoo 的分类目录中找到一条路径指向网站论文 的分类目录中找到一条路径指向网站论文 ctr stanford edu Summer98 koumoutsakos pdfctr stanford edu Summer98 koumoutsakos pdf 在 Yahoo 主页中输入 ctr stanford edu Summer98 koumoutsakos pdf 即可 4 4 在新浪网的分类目录中找到一条路径指向学校的网站 在新浪网的分类目录中找到一条路径指向学校的网站 1 打开新浪首页 在分类中选择新浪教育 2 在教育中搜索 5 5 在在 sohusohu 的分类目录中找到一条路径指向网站 的分类目录中找到一条路径指向网站 1 打开搜狐导航 在分类中选择游戏 2 在游戏分类中选择 TOM 游戏 6 6 请指出请指出 google yahoo sina sohugoogle yahoo sina sohu 的分类目录之间的异同和优劣 的分类目录之间的异同和优劣 500500 字以内 字以内 一 Yahoo Yahoo 是世界上最著名的网络资源目录 Yahoo 的魅力 就在于它的可浏览式等级主题 目录 Yahoo 按照主题建立分类索引 提供全面的分类体系结构 并结合高质量的检索 软件 成为网络检索工具的佼佼者和等级式风络资源目录的典型代表 Yahoo 采用多标 准高类 多维展开的方式 能够为某一信息源在其巨大的分类等级结构中提供不同的路 径分支入口 保证了从不同的路径 为检索相同内容的不同用户提供服务 对于交替类 目 Yahoo 利用了符号 来表示 起到了类似于相关参照的作用 能够指引用户由 某一子类目进入 Yahoo 的浏览性等级结构的其他分支中 二 Open Directory http dmoz org Open directory 是手工编辑的目录导航式搜索引擎 它由四万多名志愿者编辑标引加工 数据并组织类目 自称为世界上最权威的人工编辑的搜索引擎 大多数志愿者都对自己 负责的部分相当感兴趣 有的就是该领域的专家权威 因此 Open directory 中有不少 分类的内容 特别是一些边缘学科或冷门学科 要比 Yahoo 提供的全面得多 有的甚至 在 Yahoo 中根本找不到对应的分类 Open Directory 开放目录专案提供了一种以互 联网自我组织与管理的方式进行发展用来满足快速增长的网站数量 随着互联网的增长 网民数量也随之增加 这些网民能够编辑管理一小部分网站 并且提供负责更多的编辑 工作 整理清除没有用的信息内容 只保留最好的内容 Open directory 也提供关键词 检索 分为简单检索和高级检索 在简单检索中 支持布尔逻辑检索 在高级检索中提 供了相关的选择 包括选择只检索类目 只检索站点等 同时它还提供了与其他搜索引 擎的链接 Open directory 是一个非常有前景的网络资源目录 它可无限扩展的编辑人 员 为其今后的发展注入了极大的活力 它的资源收录的增长速度 内容的更新频次 都是其他网络资源目录所无法比拟的 同时 它详尽的类目体系 开放的管理体制 都 形成了其独用的特色 成为用户获取网络信息资源的重要门户网站 三 搜狐 搜狐的网络资源目录堪称是我国第一部系统的网站分类法 对其他中主文网络资源目录 的发展起到了积极的促进作用 搜狐网络资源目录的分类体系的编制 基本上坚持了在 符合科学性原则的前提下 充分考虑网站资源和用户的查询习惯的原则 在搜狐的分类 体系结构中包括 18 个大类 涵盖了 50000 多个不同层次的子类目 形成了一个十分庞 大的树状结构 几乎涉及所有的行业或者领域 它采用了 纵向成枝 横向成网 主题法与分面组配法 结合 的分类方式 根据网站的主题 首先把网站分为 18 个大类 再按细分主题层层 分下去 然后 再根据不同用户的使用习惯 以及不同的分类标准 把不同类目下 相 关 的类目 链接 起来 从而形成搜狐的 网状 分类体系 搜狐的网站分类法以主 题分类为主设立了娱乐休闲 工商经济 电脑网络 分司企业 教育培训 文学 艺术 体育健身 新闻媒体 卫生健康 科学技术 生活服务 旅游交通 社会文化 政法军 事 社会科学 个人主页 17 个大类 另外结合分面组配的方法设立 国家与地区 类 目 把其他 17 个大类下的所有网站又按所属地域进行分类 因为大多数网站都具有地 域性 也便于用户直接查找 搜狐的网站资源目录同样是按照信息所属的类别 层层点 击查找信息 所以用目录时首先要考虑清楚想要查找的信息属于哪个类别 除此之外 搜狐作为一个综合性很强的搜索网站 还提供多项的检索功能 搜狐提供强大的关键词 检索功能 它采用的是百度的搜索引擎技术 7 7 请了解请了解 googlegoogle 和和 baidubaidu 在进行关键词检索中语法的异同 并举例说明这两者在针对在进行关键词检索中语法的异同 并举例说明这两者在针对 某一主题进行检索时检索结果的差异以及对检索意图理解准确度的差异 某一主题进行检索时检索结果的差异以及对检索意图理解准确度的差异 1 百度搜索引擎的特点 1 基于字词结合的信息处理方式 巧妙解决了中文信息的理解问题 极大地提高了搜 索的准确性和查全率 2 支持主流的中文编码标准 包括 GBK 汉字内码扩展规范 GB2312 简体 BIG5 繁 体 并且能够在不同的编码之间转换 3 智能相关度算法 采用了基于内容和基于超链分析相结合的方法进行相关度评价 能够客观分析网页所包含的信息 从而最大限度保证了检索结果相关性 4 检索结果能标示丰富的网页属性 如标题 网址 时间 大小 编码 摘要等 并 突出用户的查询串 便于用户判断是否阅读原文 5 百度搜索支持二次检索 又称渐进检索或逼进检索 可在上次检索结果中继续检索 逐步缩小查找范围 直至达到最小 最准确的结果集 利于用户更加方便地在海量信息 中找到自己真正感兴趣的内容 6 相关检索词智能推荐技术 在用户第一次检索后 会提示相关的检索词 帮助用户 查找更相关的结果 统计表明可以促进检索量提升 10 20 7 运用多线程技术 高效的搜索算法 稳定的 UNIX 平台 和本地化的服务器 保证了 最快的响应速度 百度搜索引擎在中国境内提供搜索服务 可大大缩短检索的响应时间 一个检索的平均响应时间小于 0 5 秒 8 可以提供一周 二周 四周等多种服务方式 可以在 7 天之内完成网页的更新 是 目前更新时间最快 数据量最大的中文搜索引擎 9 检索结果输出支持内容类聚 网站类聚 内容类聚 网站类聚等多种方式 支持用户 选择时间范围 提高用户检索效率 10 智能性 可扩展的搜索技术保证最快最多的收集互联网信息 拥有目前世界上最大 的中文信息库 为用户提供最准确 最广泛 最具时效性的信息提供了坚实基础 11 分布式结构 精心设计的优化算法 容错设计保证系统在大访问量下的高可用性 高扩展性 高性能和高稳定性 12 高可配置性使得搜索服务能够满足不同用户的需求 13 先进的网页动态摘要显示技术 14 独有百度快照 15 支持多种高级检索语法 使用户查询效率更高 结果更准 已支持 AND NOT OR site link 还将继续增加其它高效的搜索语法 2 Google 搜索引擎的特点 Google 作为全球最大的多语言搜索引擎 在国际上占有的市场越来越大 成为互联网最 具潜力的企业 以下就介绍下 GOOGLE 搜索引擎的主要特点 一 特有的 PR 技术 PR 能够对网页的重要性做出客观的评价 PR 是 GOOGLE 评价一个 网站质量高低的重要标准 PR 分为十个等级 从容不 1 至 10 PR 越高代表网站质量和 权威性越高 排名也就越靠前 二 更新和收录快 GOOGLE 收录新站一般在十个工作日左右 是所有搜索引擎收录最快 的 更新也比较稳定 一般一个星期都会有大的更新 三 重视链接的文字描述和链接的质量 链接的文字描述也就是做链接用的文字 这个 文字对 GOOGLE 排名起一定作用 因此我们建议如果网站要做某些关键词 在交换链接 时要用这个关键词做链向你网站 链接的质量与链接网站的权威性和与你站是否相关有 关 权威越高侧你站获得的排名越好 四 重视 Description 描述 多次研究发现 那些在 GOOGLE 排名好的网站在描述中匀 含有关键词 而且有些重复二次 因此可推断其对描述还是相当重视 五 超文本匹配分析 Google 的搜索引擎同时也分析网页内容 并不采用单纯扫描基于 网页的文本 网站发布商可以通过元标记控制这类文本 的方式 而是分析网页的全部内 容以及字体 分区及每个文字精确位置等因素 同时还会分析相邻网页的内容 以确保 返回与用户查询最相关的结果 8 8 搜索并了解主流的搜索并了解主流的 rssrss 订阅软件 完成用订阅软件 完成用 rssrss 在两个以上网站订阅两个以上专题 在两个以上网站订阅两个以上专题 抓虾订阅 雅蛙订阅 Newsgato

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论