![[基于垂直搜XX擎的旅游线路评价模型的设计]有些垂直搜XX擎_第1页](http://file1.renrendoc.com/fileroot_temp2/2020-5/18/1878df45-98c6-4022-a4f6-1d4fe14e5d26/1878df45-98c6-4022-a4f6-1d4fe14e5d261.gif)
![[基于垂直搜XX擎的旅游线路评价模型的设计]有些垂直搜XX擎_第2页](http://file1.renrendoc.com/fileroot_temp2/2020-5/18/1878df45-98c6-4022-a4f6-1d4fe14e5d26/1878df45-98c6-4022-a4f6-1d4fe14e5d262.gif)
![[基于垂直搜XX擎的旅游线路评价模型的设计]有些垂直搜XX擎_第3页](http://file1.renrendoc.com/fileroot_temp2/2020-5/18/1878df45-98c6-4022-a4f6-1d4fe14e5d26/1878df45-98c6-4022-a4f6-1d4fe14e5d263.gif)
![[基于垂直搜XX擎的旅游线路评价模型的设计]有些垂直搜XX擎_第4页](http://file1.renrendoc.com/fileroot_temp2/2020-5/18/1878df45-98c6-4022-a4f6-1d4fe14e5d26/1878df45-98c6-4022-a4f6-1d4fe14e5d264.gif)
![[基于垂直搜XX擎的旅游线路评价模型的设计]有些垂直搜XX擎_第5页](http://file1.renrendoc.com/fileroot_temp2/2020-5/18/1878df45-98c6-4022-a4f6-1d4fe14e5d26/1878df45-98c6-4022-a4f6-1d4fe14e5d265.gif)
已阅读5页,还剩11页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于垂直搜XX擎的旅游线路评价模型的设计有些垂直搜XX擎 科技创新导报xx NO.18 Technology Innovation Herald 技 术 创 新 基于垂直搜索引擎的旅游线路评价模型的设计 陈高维1 邓天权1,2 曾云磊1 王维国3 张龙1 (1.电子科技大学 四川成都 611731; 2.常州大学 江苏常州 213164; 3.成都登巅科技有限公司 四川成都 610041)摘 要:本文设计了一个基于垂直搜索引擎技术的旅游线路评价推荐模型系统。该系统首先采用垂直搜索引擎技术针对旅游行业网站抓取特定信息,提取旅游路线及相关旅游资讯信息,并辅以人工资讯录入方式,建立旅游路线、旅游资讯数据库。关键词:垂直搜索引擎 信息提取 旅游线路评价模型:TP3:A:1674-098X(xx)06(c)-0024-02 1 引言 随着互联网的普及,人们越来越习惯于在出门旅游之前通过互联网了解一些旅游相关的资讯。但是,在浩如烟海的互联网上人们想要获取特定的旅游资讯并不是一件容易的事情。为了满足越来越多游客的旅游资讯搜索需求,帮助游客轻松获取旅游路线信息和旅途上的各类资讯。本课题研究了基于垂直搜索引擎的旅游线路评价推荐系统,为游客提供旅游线路的搜索服务,推荐最优路线,提供旅游路线上相关旅游资讯。 2 垂直搜索引擎 垂直搜索引擎1,也被称为专业或专用搜索引擎,就是专为查询某一学科或主题的信息而产生的查询工具,专门收录某一行业或某一主题的信息。垂直搜索引擎在技术实现上有以下的特点:(1)垂直搜索引擎针对特定行业的站点进行特定信息的搜索,执行定向采集的网络蜘蛛程序。(2)垂直搜索引擎往往需要从采集到的网页中提取出有格式化的信息。(3)垂直搜索引擎的搜索结果,往往以一种行业特有的方式展示出来。 垂直 搜索引擎实现的流程大致如下:spider抓取网页后,对网页中信息进行抽取,然后对上述非结构化数据进行清洗、去重、分类、分析比较、数据挖掘,抽取出结构化的数据储存到数据库中,最后通过中文分词建立索引提供用户搜索。其关键技术有: (1)面向主题的高效蜘蛛程序 主题蜘蛛程序2是垂直搜索引擎的重 要组成部分。其抓取范围一般只限于特定的主题或专门的领域。主题蜘蛛的设计通常需要解决好主题相关度的预测、种子站点的选择方案、URL的搜索策略等问题。 (2)网页信息的格式化提取 信息抽取(information Exaction,IE)3一般定义为从一段文本中抽取指定的预先想要的信息(事件、事实),表示为结构化的、统一的形式,供信息查询、文本深层挖掘,问答系统、抽样统计等应用目前比较比较常 4 用的方法有:基于特征模式匹配的信息抽取。基于归纳学习的信息抽取。基于网页结构特征分析的信息抽取。基于on-tology的Web信息抽取。前3几种信息抽取的方法虽各有其特点,但技术上主要是通过为待提取的目标建立相应的模板库,并将文档内容与模板库中的模板匹配而实现提取。模板的表达能力直接影响系统的准确度。第四种方法引入本体(Ontology)的概念较好的解决了词序、多义等问题,本体论从语义信息入手进行抽取。但是对特定领域本体构建是一件非常困难的事情。 3 旅游线路推荐系统的设计与实现 3.1系统的主要功能 为了给游客提供高质量、个性化的旅游资讯服务。本文在旅游信息的获取、提取、存储、展示技术研究的基础上,综合考虑了旅游周期、旅游价格、景区类型、景区动态、交通状况、旅游安全、旅游季节、服务质量等等影响游客旅游体验的因素,设计了旅游路线评价模型。通过该模型可以计算满足游客搜索请求的每一个条旅游路线 图1 基于垂直搜索引擎的旅游线路推荐系统主要包含以下三大部分:旅游数据采集系统、决策数据生成产系统、旅游线路搜索推荐系统。 (1)数据采集系统数据的采集、格式化存储是本系统的核心之一。数据有两种方式:爬虫程序采集、管理端人工录入。主题爬虫在Heri-trix的基础上进行扩展定制,实现面向旅游的主题爬虫程序。由于本系统对数据的准确度要求比较高,因此对一些结构化显示的数据采用模板匹配的方式进行较为准确的抽取。对于一些非结构化的网页数据,信息往往蕴含在长篇的文章中。这类信息首先采用向量模型的方法进行分类过滤,然后采用HTMLParser与正则表达式技术相结合的方法提取主体信息。由人工参与信息的提取与审核。 (2)决策数据生成系统 在数据采集的基础上,将所有的数据进行格式化存储。系统数据分为三个部分:路线数据、路线相关动态信息、其他旅游资讯。将路线数据以XML的格式进行存储,并建立索引,方便路线搜索。路线相关动态信息是进行路线推荐评分的重要依据。其他旅游资讯将做为路线辅助资讯在用户界面上予以显示,增加信息量,提高友好度。 (3)路线搜索评价推荐系统 系统根据用户给出的初始条件(例如:出发城市、目的城市、景区类型、旅游天数、费用预算)在路线索引中进行筛选,获取符合用户要求的旅游路线,并根据路线评价模型进行排序推荐。最后将推荐结果返回到用户的界面上,并从数据库中查询出与路线匹配的旅游资讯信息进行异步展示。3.4旅游线路推荐的动态评分模型设计与验证 3.4.1旅游线路推荐的动态评分模型设计 不同的旅游线路之间的评分是一件比较困难的事情。因为旅行线路有长有短,景点也有不同等级。很多路线往往不具有可 致谢:在此感谢本文研究的资助方:登巅科技sget文旅数字化项目组的全资支持,和电子科技大学和常州大学DIR研究中心同事们的 共同努力。 24 科技创新导报 Science and Technology Innovation Herald 技 术 创 新 比性。因为很难找到一个通用的可以量化的计算方法对差异化的旅游线路进行公平的评价。因此本系统将在路线相当的情况下对旅行线路进行评价。所谓路线相当在此理解为旅游费用相当、旅游时间相当。 游客们对旅游线路的评价多于游客自己的亲身体验。我们可以从游客体验的角度来设计旅游线路动态评价模型。所谓动态,就是由该模型计算出来的推荐值应该随着影响游客体验的事情的发生而发生变化。 3.4.1.1动态评分模型设计需满足的要求 (1)对同一旅游线路在不同时期的推荐值,应该随影响因素的变化而变化。(2)能够考虑到不同路线的实际差异性,要做到灵活、通用。(3)对不同的路线进行评价应该考虑到公平性。 旅游线路推荐会受到一定因素的影响,我们进行仔细分析,得出影响因子分为以下两种类型: (1)决定性因子F(影响到景区旅游的可行度)如:道路故障、卫生安全(传染病)、自然灾害(山洪)、景点整修等不可预料的其它情况。(2)非决定性因子f(影响景区的完美度)如:天气因数、服务质量。 3.4.1.2动态评分模型的设计 对一条旅游路线的评价,分为两个步骤。 第一步,对路线中所有的节点进行评价,计算景点的当前推荐值。第二步,综合路线中所有景点进行评价,对路线进行综合评价。 动态评分模型是本系统的 核心部分,其结构如图1。 风景点的推荐值计算公式为: xx NO.18 Science and Technology Innov科技创新导报 g:风景区的等级 fj:的取值范围01,最好状态下 Fi、 值为1,最差状态下值为0 r的值越大 推荐度越高,值越小推荐 度越低。等于0时表示此线路不可行。 线路推荐值计算方法 : 假设线路上有n个景点, ri表示第i个景点 mi表示景点间线路因子,表示路线的推荐值。 的通畅程度。M表示整条路线的通畅因子。 M (2) 则线路的推荐 R (3) r=g f i m (1) F:第i个决定性因子的状态值;j:第j个非决定性因子的当前状态值 n:决定性因子的个数; m:非决定性因子的个数; 公式(3)综合考虑了景点质量、决定性影响因子、非决定性影响因子、线路通畅因子等等因素。通过公式(3)可以计算出每个可能的路径(线路库中线路、游客自定义线路)的推荐值。给出旅游路线当前推荐排名,同时也可以十分容易的分析得出影响推荐值的景区及因子,让游客知道评分的客观依据。 3.4.2旅游线路推荐的动态评分模型的测试 旅游路线推荐公式综合考量了景点质量、决定性影响因子、非决定性影响因子等因素。我们设置了几组数据,来模拟测试一下结果。 F3卫生 F2景区交通、设: F1景点状态、 f2星期因 f1季节因素、 F4自然灾害、安全、 f3服务因素素、 计算结果为: r1=3.98、2.21、2.39 R1=2.76 r2=2.24、2.21、2.39 R2=2.28 r3=3.98、3.31、2.39 R3=2.99 r4=0、2.08、2.39 R4=0测试一个关键因素变化的影响: R1=2.76 R2=2.28 测试一个非关键因素变化的影响: R1=2.76 R3=2.99测试一个关键因素、非关键因素为0的影响: 表1测试数据1 R1=2.76 R4=0 通过模拟测试我们发现,我们发现公式(3)具有以下特性: (1)关键因子的浮动对线路推荐值的影响比较大。(2)非关键因子的变化对线路推荐值的影响相对较小。(3)当某一关键因子出现严重问题时(值为0)对线路的推荐影响是致命的,某一非关键因子出现严重问题时(值为0)不会对线路推荐值造成致命的影响。(4)由于F的可扩展性,系统比较灵活,能够较好的包容不同旅行的差异性。(5)本公式是在旅游天数、旅游费用相近(路线的可比性比较强)的前提条件下进行的评比,还是能较好的体现公平性的。 综上所述,经过试验分析说明公式(2)完全满足我们设置旅游路线推荐评分公式的3个基本条件。 4 结语 本文介绍的基于垂直搜索引擎的旅游线路推荐系统,有两个主要特色,一是能根据旅客的初始要求搜索满足要求的旅行线路,并能根据线路推荐模型计算推荐值,将推荐度高的旅行线路展示在用户面前;二是系统可以在上形象的展示与每条旅行线路相关的所有常见的旅游资讯。 本系统在旅行线路推荐的基础上,通过旅游线路将相关的旅游资讯关联起来,游客通过本系统可以十分便捷的获取想要的旅游信息。在节省信息搜索时间的同时,大大提升了信息搜索的服务体验。 _ 1肖冬梅.垂直搜索引擎研究J.图书馆 学研究,xx(2):87. 2李盛韬.主题WEB信
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025版全国性猎头公司战略合作合同下载
- 2025版保姆与老人长期护理服务合同-温馨相伴每一天
- 2025年会议中心场地租赁合同模板
- 2025版外贸出口货物风险评估与控制合同
- 2025导游劳动合同范本:含导游行为规范与奖惩措施的导游服务合同
- 2025版新能源汽车售后服务专项委托代理合同
- 基于物联网的2025年城市轨道交通智慧运维系统创新实践报告
- 咖啡连锁品牌在2025年市场布局中的社区商业饮品品牌市场潜力分析报告
- 生物信息学育种应用-洞察及研究
- 2025版通勤车辆安全驾驶培训服务合同
- DBJ04-T487-2025 高大模板支撑体系监测技术标准
- T/CGAS 026.1-2023瓶装液化石油气管理规范第1部分:安全管理
- PEP人教版六年级上册英语课后辅导计划
- 餐饮劳务合同协议书样本
- 中医护理灸疗技术操作规范:督灸
- 泌尿外科手术分级管理制度
- 阿尔茨海默病药物治疗指南(2025)解读
- 报酬协议模板
- 《贵阳市公共交通场站设计导则》
- 新时代中小学教师职业行为十项准则
- 职业指导师考试题库及答案(含各题型)
评论
0/150
提交评论