




已阅读5页,还剩6页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
E网情深创业计划 E网情深创业计划-1-E网情深使用网络信息技术寻找朋友邱康敏赵永光丁鑫谢烨E网情深创业计划-2-我们每天都使用网络,网络上的信息丰富多彩,尤其是搜索引擎出现之后,获取想要的信息变得越来越容易。 但是,网络也不是万能的,网上信息虽多,但是也是冰冷死板的,缺乏人与人的交流,有人说网络使世界变得很小很小,但是也使得人与人之间的距离越来越远。 广大网民迫切需要与人的交流,本计划就是针对这种需求提出的。 从网络热潮兴起以来,交友的网站也是层出不穷,这些网站的外观各不相同,但是基本功能却是很类似的无非是注册-列表-查询,也有些包括博客和论坛之类的功能,它们大体上都是由前台界面和后台数据库构成,用户注册就是插入一条记录大数据库,查询也是使用很简单的关键字从指定的字段查询。 这类网站最大的缺陷之一就是各自为政,互相之间信息并无往来也因为它们之间原本也是竞争的关系。 一个交友网站,注册用户虽多,但是仍然很不够,毕竟许多的交友平台分流了不同的用户,就好像网上信息虽多,但是就每个单独的网站来说,还是显得信息不足,因此有了搜索引擎,如google,baidu等。 E网情深计划就是一个架设在众多交友网站上层的搜索引擎,它通过从多个网站收集众多的交友信息来构建搜索信息源,然后采用搜索引擎的界面,根据用户输入的查询条件,通过某种算法返回给用户符合条件的交友注册信息这些信息许多不同的网站,其一大大丰富了选择的范围,其二也因为使用课上学到的搜索技术,可以使得到的结果更贴近使用者的要求。 和普通的搜索引擎不同,本网站也提供注册的功能,也提供搜索的功能,注册用户由于提供了更多的信息,因此能获得更好的相关度检索。 用户在看到搜索结果之后,点击结果就会像搜索引擎一样被引导到信息原本所在的网站(有可能就是本网站),在目标网站,可以看到更详细的信息,甚至图片等。 E网情深搜索引擎用户普通交友网站普通交友网站普通交友网站信息提取用户用户查询E网情深创业计划-3-本系统采用crawling技术,用于获取各个网站上的交友信息网页;IE技术,用于将网页上的信息提取出来并保存在数据库中;并设计了相似度的算法,用于将查询的结构排序,输入的查询语句需要符合某种事先规定好的规则。 工作流程如下?首先crawler获得网页并保存在本地磁盘中?随后IE程序根据事先规定的模板分析网页的tag,将对应的数据存入数据库中?程序的前台是一个网站,根据用户输入的查询条件,通过数据库的操作和相似度的算法将查询结果排序,并输出。 (如下图)将crawler和IE分开,一方面是因为程序由多人合作完成,另一方面也可以降低每个程序的复杂度,便于控制。 项目利用了数据库,主要是根据“交友”这种需求的数据规模而定,因此不需要自行设计文件结构保存信息;同时使用了数据库降低了查询程序的设计难度。 程序使用java,可以在多个平台上运行,数据库也选择的可以在多个平台上运行的mysql,web服务器使用的是Tomcat,结合jsp,总体都较为统一。 虽然相互之间的代码都是由不同的人分别写成的,但是如果需要,整合也会相对容易一些。 本地文件系统Inter上的网页数据库系统结果网页爬虫技术信息提取技术数据库检索、相似度比较E网情深创业计划-4-3.1.1被抓网站介绍我们选取了网易交友栏目作为抓取对象,该网站信息内容较丰富,并且格式清晰明确,抓取比较简单。 作为一个演示程序,只抓取了这一个网站,真正的交友搜索引擎应该抓去很多的网站内容。 3.1.2程序介绍我们使用了java作为开发语言,java支持多平台,并且功能丰富,实现简单。 使用爬虫到目标网站抓取网页并保存在本地磁盘,但是并不是所有的网页都保存,我们只保存含有交友信息的网页,因此需要解析网址,过滤掉不需要的网页。 由于各个网站结构和功能都会有些区别,因此对于不同的网站,程序的相应参数也会有所修改。 网址解析中主要使用正则表达式技术。 我们使用了java里的java.util.regex.Pattern类和java.util.regex.Matcher类。 使用这些方法过滤掉一些不需要的网址。 网址过滤含有notice、news、send、mail、article、javascript等词的网址。 抓取到网页之后,保存在本地磁盘,便建立一个文本文件作为说明,格式是每行一个文件名,对应被抓网页的URL,便于下一步入库。 3.1.3抓取程序的类图E网情深创业计划-5-3.2.1程序介绍程序按照爬虫所建立的文本文件,逐一提取网页文件,在信息提取之前先进行文档处理,以提高正则表达式匹配的速度。 处理文档时主要除去与之间、与之间、与之间、 之间的内容。 提取出自我介绍网页中的昵称、性别、年龄、出生日期、身高、体重、出生地、现居地、学历、毕业院校、职业、月收入、爱好等属性信息。 然后用正则表达式匹配所获得的信息,并将这些信息连同网页所在的URL(从刚才的文本文件中获得)保存到MySQL数据库中。 3.2.2数据库结构ID bigint (20)unsigned NOTNULL auto_increment,Sex tinyint,Age int,BirthDate date,Height int,Weight int,nativePlace varchar (20),livingPlace varchar (20),degree varchar (20),school varchar (40),oupation varchar (20),salaryPerYear int,salaryPerMonth int,hobby varchar (200),fromWebsite varchar (200),nickname varchar (20),URL varchar (200),PRIMARY KEY(ID) (1)出*生*日*期|生*日|出生年月 (2)现*居*地|居s*住s*地|所s*在s*地 (3)月*薪|月*收*入|收入水平 (1)dd (2)博士|硕士|研究生|本科|学士|大本|专科|大专|高中|初中|中学|小学E网情深创业计划-6-3.2.3信息提取模块的类图3.3.1界面介绍如下图和普通的交友网站搜索方式不同,使用简单的单一输入框。 3.3.2分析查询要求主要是通过输入关键语句进行交友搜索功能。 该过程的主要功能是将用户输入关键语句解析成搜索的查询条件,使得查询条件可以让搜索引擎识别,进行搜索。 例如,当用户输入语句“岁年薪喜欢电影身高超过cm的上海帅哥”我们的工作是从这句查询语句中解析出搜索识别的条件。 上面的语句中,彩色为E网情深创业计划-7-解析输入语句的查询关键字,黑体和斜体代表查询的条件。 相应的,我们根据关键字对应查询条件的方法提取查询条件,如“岁”向前对应“26”,“年薪”向后对应“8000”,“的”字和“帅哥”中间对用“上海”等。 最后,我们根据解析出来的条件生成标准格式的查询语句发给搜索引擎。 上述语句的查询结果返回为附录测试语句(成功) 1、26岁年薪8000喜欢电影身高超过170cm的上海帅哥 2、喜欢电影的美女 3、身高超过170cm的上海帅哥 4、26岁喜欢电影的帅哥 5、喜欢旅游的美女 6、年薪10000身高超过175cm的江苏帅哥3.3.3计算相关度并输出说明该部分的相似度算法已经实现,但由于时间问题并没有嵌入到程序中。 E网情深创业计划-8-我们主要思路是图中的粉色小人代表我们的注册用户,其余的小人为我们搜索到的结果用户。 从图中可以看出,红色小人距离粉色小人最近,因此,我们就把他的用户信息优先推荐给注册用户,当然,我们也可以推荐多个信息给注册用户。 交友领域中的数据,往往比较规整,如:用户通常都有性别、年龄、年薪、身高、体重、居住地、爱好等属性。 因此,我们可以按照根据这些信息,进行注册用户和结果进行查询相似度比较。 具体的说,我们首先按照用户各个属性进行相似度比较,然后综合计算用户和结果查询用户的相似度。 相似度的值范围为0,1。 设用户User=age,height,weight,livingPlace,hobby,括号内为用户属性。 设用户实例u1,u2。 则用户u1和u2的相似度为:Sim(u1,u2)=Sim(u1.age,u2.age)+Sim(u1.height,u2.height)+Sim(u1.weight,u2.weihgt)+Sim(u1.livingPlace,u2.livingPlace)+Sim(u1.hobby,u2.hobby)3.3.4计算相似度类图E网情深创业计划-9-整个系统全部使用java语言编程,由不同的人完成各自的模块,考虑到整合的方便性,并没有将所有的功能放在一个程序中,而是通过中间的结果来传递信息,从而使得各部分分工明确,而且便于调试。 爬虫的结果是抓获的网页文件和一个文本文件列表;信息提取得结果是数据库;搜索引擎除了搜索功能之外,其副产品是访问者的log,分析每个使用者的log,可以对使用者的倾向有所了解,相信对相关度和聚类的计算会有进一步的帮助。 只是时间不允许,因此没有在这方面进行进一步的工作。 第一次作业对于爬虫的编程有很大的帮助,借助这次作业的经验,对于爬虫类的构建有很大的启发作用。 在这个框架的基础上,由于没有现成的库函数可用,我们自行实现了协议的简单功能,并通过这个功能获取了所需的网页。 另外爬虫还需要分析网页中的各个超链接,使用正则表达式使得获取超链接变得较为简单,并且过滤掉了不需要的网页。 信息提取有很多方法,模板法是最传统的方法,先进的技术有自动学习和半自动的方法。 我们时间有限,采用基本的模板法,配合正则表达式,使得信息的提取成为可能。 提取信息的过程遇到了一些问题比如信息不完全,网页中无关信息多等,但是最终克服了这些困难,将数据保存到了数据库中。 前台的部分使用Tomcat配合jsp程序,jsp功能较强,效率上也比asp,php要高些。 首先我们实现了最近本的查询字符串的解析,并且根据解析结果进行了初步的查询。 下一步的工作是完成相似度的算法,我们有很多的想法,包括地域之间的距离,用户的血型和星座,根据用户的行为判断用户的喜好等等,可惜时间有限,未能最终实现。 分工合作是软件开发中关键的一环。 在完成这个项目的过程中,互相之间的交流也是很重要的。 我们在利用每周上课后的时间碰头,讨论这一周的成果和遇到的问题,平时开发的过程中我们使用qq进行实时的讨论,一步步地定下了抓取的格式,数据库的格式,搜索的界面,查询的算法等等,分头实现了各模块的功能,并联合完成了整合的调试。 虽然获得的成果只是个雏形,但是无论从知识、技术、经验和合作态度上都有很多收获。 我们都意识到团队精神的重要性。 E网情深创业计划-10-邱康敏总体协调,文档,环境的搭建谢烨确定搜索目标,完成爬虫赵永光设计数据库,完成信息提取丁鑫完成前台界面,搜索算法E网情深创业计划-11-?Pa
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 学校监球馆管理制度
- 学校计水量管理制度
- 学校饮用奶管理制度
- 学生纪检部管理制度
- 安保部门卫管理制度
- 安全警示日管理制度
- 安装工工具管理制度
- 定边县财务管理制度
- 实训室借用管理制度
- 客服部考勤管理制度
- 南邮综评面试题目及答案
- 2025国家开放大学《人文英语1》综合测试形考任务答案
- 2025年人教版小学数学一年级下册期末考试卷(带答案)
- 23G409先张法预应力混凝土管桩
- DL∕T 1498.2-2016 变电设备在线监测装置技术规范 第2部分:变压器油中溶解气体在线监测装置
- 天津大学化工传质与分离过程贾绍义柴诚敬化学工业出版ppt课件
- 集装箱正面吊作业安全措施及流程要点
- 射流器计算软件
- SCH系列钢管通径壁厚对照公制版
- 18无财产无债务1个子女——离婚协议书范本模版
- 202X—202X学年第二学期教学工作总结
评论
0/150
提交评论