




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、项目编号: 衡阳师范学院大学生课外学术科技创新基金项目申报表项目名称: 搜索引擎垃圾页面检测技术研究 申 请 者: 系(院)专业: 计算机科学与技术(非师范) 联系电话: 申请日期: 项目类别: 自然科学类学术论文哲学社会科学类社会调查报告和学术论文科技发明制作共青团衡阳师范学院委员会制二一三年三月一、项目基本情况项目名称搜索引擎垃圾页面检测技术研究项目类别科技发明研究期限1年申请经费300元项目负责人姓名专业计算机科学与技术所属系(院)计算机科学系主要合作人员姓 名系(院)及专业指导老师姓 名工作单位及称谓项目简介 搜索引擎是现代人类在互联网上获取信息必不可少的手段。由于在主流搜索引擎上获得
2、较高的排名可以引起更多人的注意,从而带来巨大的利益。因此很多网站,特别是内容提供商,千方百计试图通过非法的手段欺诈搜索引擎, 从而提高自己的排名。这类欺诈网站或页面被称为垃圾页面。垃圾页面的存在给搜索引擎用户带来巨大麻烦, 用户不得不搜索结果中人工寻找有用的信息。因此,如果一个搜索引擎对垃圾页面处理不好,它的用户满意度将会迅速降低。垃圾页面检测技术被认为是现代搜索引擎所面临的最的挑战之一。本文详细描述了搜索引擎垃圾页面的各种情况,讨论了搜索引擎垃圾页面的各种技术,也介绍了国外的一些研究动态以及解决问题的方法,在实际应用中及时准确地检测并清理搜索引擎垃圾页面仍然是个挑战,正如文中所强调的,只有准
3、确地掌握了搜索引擎垃圾页面的各种技术特征,才能根据不同的特征有针对性的设计检测算法,把搜索引擎垃圾页面的检测看成一个分类问题,并使用决策树和支持向量机模型进行检测,根据搜索引擎垃圾页面的链接结构设计出图算法检测链接工厂。我们将结合先进的计算机科学与技术学习, 链接分析, 页面内容分析等手段,提高垃圾页面检测的准确率, 确保用户搜索到满意的结果,提高用户的满意率。二、立论依据(项目的意义、现状分析、参考文献等)1.项目背景百度自称是目前全球最大的中文搜索引擎,每天的搜索人次超过1亿。在其官方网站,竞价排名被称为一种按效果付费的网络推广方式,用少量的钱就可以提升企业的销售额和品牌知名度。然而百度竞
4、价排名被指过多地人工干涉搜索结果,被指为“勒索营销”,引发公众质疑,并引来谷歌等搜索巨头的“围攻”。2008年15、16日,央视新闻30分连续两天报道百度的竞价排名黑幕,百度竞价排名被指过多地人工干涉搜索结果,引发垃圾信息,涉及恶意屏蔽,被指为“勒索营销”,并引发了公众对其信息公平性与商业道德的质疑。这是继“三鹿门”之后再次将第一大中文搜索引擎推向风口浪尖。2.项目的意义索引擎与传统媒体的赢利模式一样,以人气、用户的数量和质量为最终衡量手段,因此增加用户信赖度仍然是搜索引擎保持旺盛生命力的最重要前提。但是,由于搜索结果中掺杂了太多的利益因素而影响普通用户搜寻合适信息。本项目通过搜索引擎垃圾页面
5、检测技术来实现信息资源共享的目标,为网络服务带来合理的商业利益,同时又能最大程度地保护信息提供者的合法权益。从而促进网络搜索业健康持续发展。3.现状分析 如何在海量的信息中查找用户需要的信息,已成为这个时代的一个重要课题。在这种情况下, 互联网搜索引擎因应而生,并且不断发展壮大, 形成了一个新兴产业。随着互联网各种页面数量爆炸式增长,用户使用搜索引擎查找信息已经成为了最近几年信息检索的主要方式.大多数网站管理者都希望他们的网站在搜索引擎的搜索结果中排名靠前,在同一查询下排名靠前的页面所在的站点会被更多的用户点击,很多的网站管理者会采取合理的搜索引擎优化技术(SEO),通过在页面中提供给用户更多
6、、更有效的信息,以提升他们的网站在搜索引擎的搜索结果中的排名.而有些网站则通过一些不道德的方式来提升在搜索引擎的搜索结果中的排名.更有甚者,为了吸引访问量,手动或自动地制造一些页面,而这些页面没有提供给用户任何有效信息.这些页面是直接针对搜索引擎的,但是在搜索引擎的搜索结果中获得了很高的排名,当用户查询某些关键词的时候,就有可能访问这些搜索引擎垃圾页面。搜索引擎检索结果的排序会对相关的网站产生直接的影响 ,从而获得更多的经济效益。因此, 为了使自己的网站在搜索引擎的检索结果中排名靠前,一些网站的所有者会采用各种各样的手段来提高自己的排名,于是产生了专门为其他网站提供提高网站排名服务的盈利组织S
7、EO(搜索引擎优化组织) 。SEO采用的技术手段有些是合法有益的, 能够使对用户有用的信息排名靠前; 而有些技术则是利用一些非法手段来提高页面的排名, 这会造成大量垃圾信息。作为搜索引擎目前主要赢利模式的竞价排名还是刚刚起步,其中仍然存在很多弊端,但是从目前来看,竞价排名仍然能够令搜索引擎保持高速增长的势头。雅虎子公司Overture于2000年首次开始使用竞价排名的收费方式,这种收费方式推出以后很快被推广,在国内Baidu公司率先使用。竞价排名的应用原理,首先确定按照用户的点击率进行收费的收费模式,在用户搜索的结果中,付费企业的推广信息优先显示在用户面前,如果顾客没点击该广告,则不收取费用;
8、若点击该广告信息则收取一次费用,最后根据点击的次数来收取总的广告费用。而广告的位置排名,即出现在客户搜寻信息的位置,取决于企业支付单次点击费用的高低,为每次点击支付价格最高的广告会排在第一位,然后依次排列。目前,国内主要有三家搜索引擎,基本处于垄断地位。百度作为全球最大的中文搜索引擎,在国内首创“竞价排名”概念,并早在2001年10月申请了竞价排名专利并推广使用。Google作为世界上最大的搜索引擎公司曾说“我们的广告业务绝不以任何方式影响我们的搜索”,“每一个搜索结果都是程序按规则自动排出,是纯粹技术选择的结果,这个结果神圣不可侵犯”。但其却在2003年4月3日与电子商务网站弧马逊签署了一份
9、搜索排名的服务协议,开始了竞价排名服务。随后,2004年11月22日Yahoo在中囝推出“雅虎中国”搜索竞价,这预示着雅虎与老对手Google开始了正面交锋。目前, 搜索引擎对页面的排名主要依靠内容相关度和页面重要程度两方面来确定。内容相关度可以由tfidf等信息检索的方法计算,而重要程度往往由PageRank和HITS等基于链接分析的算法得出。相应地, Spam技术也主要分为针内容对相关度的Spam和针对页面重要程度的Spam( 或者称为基于超级链接的Spam) 两大类。这些Spam技术往往会干扰搜索引擎的正常排名结果。综上所述可知,搜索引擎垃圾页面导致的主要后果为索引擎检索结果质量下降,搜
10、索引擎公司的资源的消耗和用户体验的降低.为解决数量日益增长的垃圾页面产生的各种问题,所以搜索引擎垃圾页面检测技术在搜索引擎优化中显得尤为重要,4.参考文献1 王利刚.搜索引擎中的反SEO作弊研究J.2009,(06)2 贾志洋.基于内容的搜索引擎垃圾页面检测J. 2009,(11)3 徐启华.一种新的软间隔支持向量机分类算法J.2005,(09)4 祝伟华.基于Lucene.Net具有用户权限的全文检索系统的应用J.2009,(01) 5 谭龙江.基于搜索引擎优化的网络宣传机模型J.2010,(08)6 武磊.基于结构信息和时域信息的垃圾页面检测技术J.2008,(04)7 刘玮,王丽宏.基于
11、统计特征的垃圾博客过滤J.2008,(06)8 余慧佳,茹立云.基于目的分析的作弊页面分类J.2009,(02)9 周平.Lucene全文检索引擎技术及应用J.2007,(04)10 徐启华.基于支持向量机的航空发动机故障诊断J.2005,(02)11 祁亨年.支持向量机及其应用研究综述J.2004,(10)12 欧阳柳波.专业搜索引擎搜索策略综述J.2004,(13)13 王晓丹.支持向量机研究与应用J.2004,(03)14 许建华.支持向量机的新发展J.2004,(05)15 管建和.基于Lucene全文检索引擎的应用研究与实现J.007,(02)16 肖冉.搜索引擎竞价排名法律规制研究
12、J.新学术.2007,(5)17 黄武双.搜索引擎服务商商标侵权责任的法理基础J.2008,(5)18 侯丽娟.竞价排名让客户主动找到你EJJ.2006,(4)19 李银莲.竞价排名,您了解吗J. 2006,(8) 20 孙钦东,管晓宏,周亚东.网络信息内容审计研究的J. 2009, (8)22 程光,龚俭,丁伟等.面向 IP 流测量的哈希算法研究J.软件学报.2005, (5)23 李晓明,闫宏飞.搜索引擎-原理、技术与系统M.北京:科学出版社.2005 24 梁斌.走进搜索引擎.北京:电子工业出版社M .2007 25 郭军. Web 搜索.北京:高等教育出版社M.2009 三、研究方案a
13、)研究目标、研究内容和拟解决的关键问题 1.研究目标:了解掌握搜索引擎垃圾页面检测技术,分析当前,发表学术论文,为促进网络搜索业健康发展提供科学的理论依据。 2.研究内容1) 搜索引擎的基本工作原理(爬虫、倒排表、查询排序)2) 搜索引擎算法,TrustRank算法,找出其中的缺陷不足3) 识别垃圾页面的识别特征4) 查询,关键字匹配与排序5) 检测算法与优化 3.拟解决的关键问题1) 不良网络内容快速识别技术 基于 URL的不良页面识别方法及处理办法基于 Web 页面文本信息的不良页面识别方法及处理办法2) 算法的时间复杂度3) 如何实现在搜索中过滤掉垃圾页面b)拟采取的研究方法及可行性分析
14、1研究方法1) 文献分析法:对大量相关文献资料进行阅读分析,了解和掌握前人研究所取得的成果以及尚存的不足。2) 数学论证方法:用数学的方法对搜索引擎检测算法进行论证。3) 科学实验对照法:对不同的搜索引擎的工作原理进行科学实验对照,分析出优势和不足。 2.可行性分析1)可以立即进行项目但技术研究开发周期长。2)网络资源获取方便,经济成本低。 3)指导老师的专业知识提供了技术指导和支持。c)本项目的特色与创新之处本项目是以现有搜索引擎的相关技术为基础,这样在一定程度上提高了系统设计和开发的可行性。另一方面,本项目以垃圾页面的检测为研究对象,并结合目前比较流行的框计算、云计算等先进技术,突破了如今搜索引擎搜索结果竞价排名的局限性,在技术上具有很强的创新性。同时,此项垃圾页面检测技术从基于内容的、基于链接结构的、结合内容特征和链接信息垃圾页面三种模型出发,为用户提供最需要的信息和服务,而且也改善了用户体验,因此垃圾页面检测技术在功能上具有很强的实用性。d)预期的研究进展和成果寻找这些垃圾页面的识别特征,根据页面的内容特征识别,包括词频的分布情况(主关键词、助词、停用词等词频分布)、辅助信息情况(比如标点符号出现的规律)、页面标题在内容出现的比例等理解当前搜索算法TrustRank寻找到当前算法的不足,在此基础上研究垃圾页面检测技术, 写
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 黑龙江省国有资产监督管理委员会直属事业单位招聘考试真题2025
- 质量异常处理课件
- 河南省南阳市重点中学校2023-2024学年高三上学期语文第二次月考试卷(含答案)
- 2025年苏州油气钻采设备项目可行性研究报告范文模板
- 中国氰化银项目商业计划书
- 中国堵漏材料项目投资计划书
- 中国碘化亚汞项目商业计划书
- 中国电子级氟化氢铵项目投资计划书
- 儿科小儿呼吸道感染护理规范
- 2025年中国染料木素项目创业计划书
- 妊娠期高血压疾病诊治指南(2025版)解读
- 巡回护士的职责及流程
- 中石油2025年招聘笔试真押题
- 外伤性肝破裂护理
- 档案质量控制方法试题及答案
- 中国科技发展史与未来趋势
- 医药行业中医药现代化研发方案
- 1.2 坚持两个毫不动摇 课件-高中政治统编版必修二经济与社会
- 2024年江苏南通中考满分作文《前进我有我的姿态》13
- 《中央空调系统维护与故障排查》课件
- 小班科学活动:玩具动起来
评论
0/150
提交评论