版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、项目编号: 衡阳师范学院大学生课外学术 科技创新基金项目申报表 项目名称: 搜索引擎垃圾页面检测技术研究 申请者: _ 系(院)专业: 计算机科学与技术(非师范) 联系电话: _ 申请日期: _ 项目类别: 自然科学类学术论文 哲学社会科学类社会调查报告和学术论文 科技发明制作 共青团衡阳师范学院委员会制 二O三年三月 、项目基本情况 项目名称 搜索引擎垃圾页面检测技术研究 项目类别 科技发明 研究期限 1年 申请经费 300元 项目负责人姓名 专业 计算机科学与技术 所属系(院) 计算机科学系 主要 合作 人员 姓名 系(院)及专业 指导 老师 姓名 工作单位及称谓 项 目 简 介 搜索引擎
2、是现代人类在互联网上获取信息必不可少的手段。 由于在主流 搜索引擎上获得较高的排名可以引起更多人的注意 ,从而带来巨大的利益。 因此很多网站,特别是内容提供商,千方百计试图通过非法的手段欺诈搜索引 擎,从而提咼自己的排名。这类欺诈网站或页面被称为垃圾页面。垃圾页面 的存在给搜索引擎用户带来巨大麻烦,用户不得不搜索结果中人工寻找有 用的信息。因此,如果一个搜索引擎对垃圾页面处理不好,它的用户满意度将 会迅速降低。垃圾页面检测技术被认为是现代搜索引擎所面临的最的挑战之 一。本文详细描述了搜索引擎垃圾页面的各种情况,讨论了搜索引擎垃圾页 面的各种技术,也介绍了国外的一些研究动态以及解决问题的方法,在
3、实际 应用中及时准确地检测并清理搜索引擎垃圾页面仍然是个挑战, 正如文中所 强调的,只有准确地掌握了搜索引擎垃圾页面的各种技术特征,才能根据不 同的特征有针对性的设计检测算法, 把搜索引擎垃圾页面的检测看成一个分 类问题,并使用决策树和支持向量机模型进行检测,根据搜索引擎垃圾页面 的链接结构设计出图算法检测链接工厂。 我们将结合先进的计算机科学与技 术学习,链接分析,页面内容分析等手段,提高垃圾页面检测的准确率,确保 用户搜索到满意的结果,提高用户的满意率。 二、立论依据(项目的意义、现状分析、参考文献等) 1. 项目背景 百度自称是目前全球最大的中文搜索引擎, 每天的搜索人次超过1亿。在其官
4、 方网站,竞价排名被称为一种按效果付费的网络推广方式,用少量的钱就可以提升 企业的销售额和品牌知名度。然而百度竞价排名被指过多地人工干涉搜索结果,被 指为“勒索营销,”引发公众质疑,并引来谷歌等搜索巨头的“围攻”。2008年15、16 日,央视新闻30分连续两天报道百度的竞价排名黑幕,百度竞价排名被指过 多地人工干涉搜索结果,引发垃圾信息,涉及恶意屏蔽,被指为“勒索营销”,并引 发了公众对其信息公平性与商业道德的质疑。这是继“三鹿门”之后再次将第一大中 文搜索引擎推向风口浪尖。 2. 项目的意义 索引擎与传统媒体的赢利模式一样,以人气、用户的数量和质量为最终衡量手 段,因此增加用户信赖度仍然是
5、搜索引擎保持旺盛生命力的最重要前提。但是,由 于搜索结果中掺杂了太多的利益因素而影响普通用户搜寻合适信息。 本项目通过搜 索引擎垃圾页面检测技术来实现信息资源共享的目标, 为网络服务带来合理的商业 利益,同时又能最大程度地保护信息提供者的合法权益。从而促进网络搜索业健康 持续发展。 3. 现状分析 如何在海量的信息中查找用户需要的信息,已成为这个时代的一个重要课题。在 这种情况下,互联网搜索引擎因应而生,并且不断发展壮大,形成了一个新兴产业。 随着互联网各种页面数量爆炸式增长, 用户使用搜索引擎查找信息已经成为了最近 几年信息检索的主要方式大多数网站管理者都希望他们的网站在搜索引擎的搜索 结果
6、中排名靠前,在同一查询下排名靠前的页面所在的站点会被更多的用户点击, 很多的网站管理者会采取合理的搜索引擎优化技术 (SEO),通过在页面中提供给用 户更多、更有效的信息,以提升他们的网站在搜索引擎的搜索结果中的排名 而有 些网站则通过一些”不道德的方式来提升在搜索引擎的搜索结果中的排名 .更有甚 者,为了吸引访问量,手动或自动地制造一些页面,而这些页面没有提供给用户任 何有效信息这些页面是直接针对搜索引擎的,但是在搜索引擎的搜索结果中获得 了很高的排名,当用户查询某些关键词的时候, 就有可能访问这些搜索引擎垃圾页 面。 搜索引擎检索结果的排序会对相关的网站产生直接的影响 ,从而获得更多的经
7、济效益。因此,为了使自己的网站在搜索引擎的检索结果中排名靠前 ,一些网站的所 有者会采用各种各样的手段来提高自己的排名 ,于是产生了专门为其他网站提供提 高网站排名服务的盈利组织一SEO(搜索引擎优化组织)。SEO采用的技术手段有 些是合法有益的,能够使对用户有用的信息排名靠前;而有些技术则是利用一些非 法手段来提高页面的排名,这会造成大量垃圾信息。 作为搜索引擎目前主要赢利模式的竞价排名还是刚刚起步, 其中仍然存在很多 弊端,但是从目前来看,竞价排名仍然能够令搜索引擎保持高速增长的势头。 雅虎子公司Overture于2000年首次开始使用竞价排名的收费方式,这种收费 方式推出以后很快被推广,
8、在国内 Baidu公司率先使用。竞价排名的应用原理,首 先确定按照用户的点击率进行收费的收费模式, 在用户搜索的结果中,付费企业的 推广信息优先显示在用户面前,如果顾客没点击该广告,则不收取费用;若点击该 广告信息则收取一次费用,最后根据点击的次数来收取总的广告费用。而广告的位 置排名,即出现在客户搜寻信息的位置,取决于企业支付单次点击费用的高低,为 每次点击支付价格最高的广告会排在第一位,然后依次排列。 目前,国内主要有三家搜索引擎,基本处于垄断地位。百度作为全球最大的中 文搜索引擎,在国内首创“竞价排名”概念,并早在2001年10月申请了竞价排名专 利并推广使用。Google作为世界上最大
9、的搜索引擎公司曾说“我们的广告业务绝不 以任何方式影响我们的搜索”,“每一个搜索结果都是程序按规则自动排出,是纯粹技 术选择的结果,这个结果神圣不可侵犯”。 但其却在2003年4月3日与电子商务网 站弧马逊签署了一份搜索排名的服务协议,开始了竞价排名服务。随后, 2004年 11月22日Yahoo在中囝推出“雅虎中国”搜索竞价这预示着雅虎与老对手Google 开始了正面交锋。 目前,搜索引擎对页面的排名主要依靠内容相关度和页面重要程度两方面来确 定。内容相关度可以由tfidf等信息检索的方法计算,而重要程度往往由PageRank 和HITS等基于链接分析的算法得出。相应地,Spam技术也主要分
10、为针内容对相关 度的Spam和针对页面重要程度的Spam(或者称为基于超级链接的Spam)两大 类。这些Spam技术往往会干扰搜索引擎的正常排名结果。 综上所述可知,搜索引擎垃圾页面导致的主要后果为索引擎检索结果质量下 降,搜索引擎公司的资源的消耗和用户体验的降低 为解决数量日益增长的垃圾页 面产生的各种问题,所以搜索引擎垃圾页面检测技术在搜索引擎优化中显得尤为重 要, 4. 参考文献 1 王利刚.搜索引擎中的反SEO作弊研究J.2009,(06) 2 贾志洋.基于内容的搜索引擎垃圾页面检测J. 2009,(11) 3 徐启华一种新的软间隔支持向量机分类算法J.2005,(09) 4 祝伟华.
11、基于Lucene.Net具有用户权限的全文检索系统的应用J.2009,(01) 5 谭龙江.基于搜索引擎优化的网络宣传机模型J.2010,(08) 武磊.基于结构信息和时域信息的垃圾页面检测技术 J.2008,(04) 7 刘玮,王丽宏.基于统计特征的垃圾博客过滤J.2008,(06) 8 余慧佳,茹立云.基于目的分析的作弊页面分类J.2009,(02) 9 周平.Lucene全文检索引擎技术及应用J.2007,(04) 10 徐启华.基于支持向量机的航空发动机故障诊断J.2005,(02) 11 祁亨年.支持向量机及其应用研究综述J.2004,(10) 12 欧阳柳波.专业搜索引擎搜索策略综
12、述J.2004,(13) 13 王晓丹.支持向量机研究与应用J.2004,(03) 14 许建华.支持向量机的新发展J.2004,(05) 15 管建和.基于Lucene全文检索引擎的应用研究与实现J.007,(02) 16 肖冉.搜索引擎竞价排名法律规制研究J.新学术.2007,(5) 17 黄武双.搜索引擎服务商商标侵权责任的法理基础J.2008,(5) 18 侯丽娟.竞价排名一一让客户主动找到你 EJJ.2006,(4) 19 李银莲.竞价排名,您了解吗J. 2006,(8) 20 孙钦东,管晓宏,周亚东.网络信息内容审计研究的J. 2009, (8) 22 程光,龚俭,丁伟等.面向IP
13、流测量的哈希算法研究J.软件学报.2005, (5) 23 李晓明,闫宏飞.搜索引擎-原理、技术与系统M.北京:科学出版社.2005 24 梁斌.走进搜索引擎.北京:电子工业出版社M .2007 25 郭军.Web搜索.北京:高等教育出版社M.2009三、研究方案 a)研究目标、研究内容和拟解决的关键问题 1. 研究目标: 了解掌握搜索引擎垃圾页面检测技术, 分析当前,发表学术论文,为促进网 络搜索业健康发展提供科学的理论依据。 2. 研究内容 1) 搜索引擎的基本工作原理(爬虫、倒排表、查询排序) 2) 搜索引擎算法,TrustRank算法,找出其中的缺陷不足 3) 识别垃圾页面的识别特征
14、4) 查询,关键字匹配与排序 5) 检测算法与优化 3. 拟解决的关键问题 1) 不良网络内容快速识别技术 基于URL的不良页面识别方法及处理办法 基于 Web页面文本信息的不良页面识别方法及处理办法 2) 算法的时间复杂度 3) 如何实现在搜索中过滤掉垃圾页面 b)拟采取的研究方法及可行性分析 1 .研究方法 1) 文献分析法:对大量相关文献资料进行阅读分析,了解和掌握前人研究所 取得的成果以及尚存的不足。 2) 数学论证方法:用数学的方法对搜索引擎检测算法进行论证。 3) 科学实验对照法:对不同的搜索引擎的工作原理进行科学实验对照, 分析 出优势和不足。 2.可行性分析 1 )可以立即进行
15、项目但技术研究开发周期长。 2) 网络资源获取方便,经济成本低。 3) 指导老师的专业知识提供了技术指导和支持。 c)本项目的特色与创新之处 本项目是以现有搜索引擎的相关技术为基础, 这样在一定程度上提高了系统 设计和开发的可行性。另一方面,本项目以垃圾页面的检测为研究对象, 并结合 目前比较流行的框计算、云计算等先进技术,突破了如今搜索引擎搜索结果竞价 排名的局限性,在技术上具有很强的创新性。同时,此项垃圾页面检测技术从基 于内容的、基于链接结构的、结合内容特征和链接信息垃圾页面三种模型出发, 为用户提供最需要的信息和服务,而且也改善了用户体验,因此垃圾页面检测技 术在功能上具有很强的实用性。 d)预期的研究进展和成果 寻找这些垃圾页面的识别特征,根据页面的内容特征识别,包括词频的分布 情况(主关键词、助词、停用词等词频分布)、辅助信息情况(比如标点符号出 现的规律)、页面标题在内容出现的比例等理解当前搜索算法 TrustRank寻找到 当前算法的不足,在此基础上研究垃圾页面检测技术, 写出1 2篇学术论文, 发表到相关的刊物上,为搜索引擎垃圾页面检测技术的发展提供
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 214-2026煤中全硫的测定方法
- GB/T 9872-2026橡胶和热塑性弹性体卤素含量的测定
- GB/T 47305-2026土壤有效硼的测定
- 成人院内体外心肺复苏临床实践流程专家共识意见总结2026
- 2025-2026学年人教版小学一年级下册数学口算专项练习(口算技巧专项含答案)
- 车辆使用免责协议书
- 智慧社区电力大脑解决方案
- 5G技术在通信工程中的应用分析
- 城市轨道交通应急处理教案6-项目二-客运组织突发事件应急处理-任务3车站乘客疏散应急处理
- 1.古诗三首 三衢道中(教学课件)语文统编版五四制三年级下册(新教材)
- 盘锦北方沥青股份有限公司招聘笔试题库2026
- 《半纤维素》团体标准(征求意见稿)-0629
- 2025年南阳农业职业学院单招综合素质考试题库带答案解析
- 锦州市三支一扶考试真题2025
- 铣床夹具课件
- 有害生物消杀安全培训课件
- 丙烯酸地面施工技术方案规范
- 药用植物育种学课件
- 雨课堂学堂在线学堂云《药学实践(暨南 )》单元测试考核答案
- 2025年四川综合评标专家库试题及答案
- 【小升初】2025-2026学年江苏省连云港市东海县苏教版六年级下册期中测试数学试题(含答案)
评论
0/150
提交评论