我国主流电子商务网站站内搜索技术比较分析研究_第1页
我国主流电子商务网站站内搜索技术比较分析研究_第2页
我国主流电子商务网站站内搜索技术比较分析研究_第3页
我国主流电子商务网站站内搜索技术比较分析研究_第4页
我国主流电子商务网站站内搜索技术比较分析研究_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

本科生毕业论文题目我国主流电子商务网站站内搜索技术比较分析研究姓名学号学院经济与管理学院专业行政管理年级2011级校内指导教师(签名)校外指导教师(签名)2015年6月福州大学本科生毕业设计(论文)诚信承诺书学生姓名兰芳林年级2011学号231100217所在学院经济与管理学院所学专业行政管理中文我国主流电子商务网站站内搜索技术比较分析研究毕业设计(论文)题目外文COMPARATIVEANALYSISOFSITESEARCHONMAJORECOMMERCESITESINCHINA学生承诺我承诺在毕业设计(论文)活动中遵守学校有关规定,恪守学术规范,在本人的毕业设计(论文)中未剽窃、抄袭他人的学术观点、思想和成果,未篡改实验数据,如有违规行为发生我愿承担一切责任,接受学校的处理。学生(签名)年月日指导教师承诺我承诺在指导学生毕业设计(论文)活动中遵守学校有关规定,恪守学术规范,经过本人认真的核查,该同学的毕业设计(论文)中未发现有剽窃、抄袭他人的学术观点、思想和成果的现象,未发现篡改实验数据。指导教师(签名)年月日我国主流电子商务网站站内搜索技术比较分析研究摘要随着互联网的迅速发展,电子商务已经成长为中国经济的重要力量。网上商品的种类日益繁多,电子商务网站(简称电商网站)的站内搜索技术也因此越来越重要。本文试图对市场占有率较高的、具有代表性的电商网站所采用的站内搜索技术进行比较与分析,归纳和概括每种站内搜索技术的特点。通过对国内主流电商网站进行搜索测试后,基于实验结果,对电商网站站内搜索技术进行评价,从而对我国电商网站站内搜索技术提出合理的改进建议。本文采用5个主要的评价指标对国内主流电商网站的站内搜索技术进行测试和比较分析(1)准确率(2)召回率(3)商品综合特征(4)分类和过滤(5)提供搜索帮助,得出了站内搜索技术的综合排名天猫,苏宁易购,京东,亚马逊中国和当当网。基于测试结果,本文对国内电商网站提出一些改进建议(1)准确率方面提高分词技术水平,禁止应用单个字检索,使用诸如字符串词匹配、词义分词、统计分词等技术;选取重要的排序指标,按照最相关、最符合的结果进行排序,同时提高排序算法的效率,缩短计算时间。(2)召回率方面扩大商品主题词的范围,使用字父类结合、改用布尔运算符等方法,提升召回率;处理好与准确率的关系,应用PR曲线,将准确率和召回率控制在最佳点。(3)商品综合特征方面增加商品的特征选项,提升准确率;在相同特征的情况下,以价格优惠为先。(4)分类过滤方面增加商品特有的分类;分类选项卡置于用户可以看到的地方。(5)搜索帮助方面提供贴士帮助,建立帮助中心;提供便利的检索框,可以随时看到并使用;提供最受欢迎的搜索建议;提供客户在线帮助,提升用户体验。关键词电子商务网站站内搜索评价指标COMPARATIVEANALYSISOFSITESEARCHONMAJORECOMMERCESITESINCHINAABSTRACTASTHEINTERNETSRAPIDDEVELOPMENT,SEARCHTECHNOLOGIESONECOMMERCESITESBECOMEMOREANDMOREIMPORTANTFROMTHELASTCENTURYNINETYSTONOW,THEDOMESTICECOMMERCESUPPLIERSHAVEGROWNTOTHEIMPORTANTPOWEROFTHECHINESEECONOMYTHISPAPERDEVOTESTOCOMPAREANDANALYZETHEFEATURESOFTHESEARCHTECHNOLOGYOFEACHSTATIONINCHINAWHICHHASAHIGHERMARKETSHAREANDREPRESENTATIVEFEATURETHROUGHTHEDOMESTICMAINSTREAMECOMMERCEWEBSITEONTHESEARCHTEST,EXPERIMENTALRESULTS,EVALUATIONOFELECTRONICWEBSITESEARCHTECHNOLOGY,PUTFORWARDREASONABLESUGGESTIONSFORIMPROVEMENTTOOURCOUNTRYELECTRONICCOMMERCEWEBSITESEARCHTECHNOLOGYINTHISPAPER,5MAINEVALUATIONINDICATORSFORDOMESTICMAINSTREAMELECTRICITYSUPPLIERWEBSITESEARCHTECHNOLOGYTOTESTANDCOMPARETHEANALYSIS1PRECISION2RECALL3THEINTEGRATEDFEATUREOFTHEPRODUCT4CLASSIFICATIONANDFILTERING5PROVIDESEARCHHELP,ANDGETTHECOMPREHENSIVERANKINGSOFTHESTATIONSEARCHTECHNOLOGYTMALL,SUNING,JINGDONG,AMAZONCHINAANDDANGDANGTHROUGHTHETEST,THEDOMESTICECOMMERCESUPPLIERWEBSITEMADESOMESUGGESTIONSFORIMPROVEMENT1PRECISIONRATIOTOIMPROVETHELEVELOFWORDSEGMENTATIONTECHNOLOGY,FORBIDDENTOAPPLYASINGLEWORDRETRIEVAL,USINGWORDSSUCHASSTRINGMATCHING,THEMEANINGOFTHEWORDSEGMENTATIONANDSTATISTICALWORDSEGMENTATIONTECHNOLOGYSELECTINGIMPORTANTSORTINGINDEX,ACCORDINGTOTHEMOSTRELEVANTINACCORDANCEWITHTHERESULTSOFSORTING,ALSOIMPROVETHEARRANGEMENTSEQUENCEALGORITHMEFFICIENCY,SHORTENTHECALCULATIONTIME2RECALLRATIOEXPANDTHERANGEOFGOODS,USINGTHEPARENTWORDCLASSCOMBINATION,USEBOOLEANOPERATORSMETHOD,ENHANCINGRECALLDEALWITHTHEACCURATERATEOFPRCURVE,MAKETHEPRECISIONRATEANDRECALLRATECONTROLATTHEOPTIMALPOINT3THECOMPREHENSIVEFEATURESOFTHECOMMODITYINCREASETHEFEATUREOPTIONOFTHECOMMODITY,IMPROVETHEACCURACYRATEINTHESAMECHARACTERISTIC,THEPRICEPREFERENCEISTHEFIRST4THECLASSIFICATIONANDFILTRATIONINCREASECOMMODITYSPECIFICCLASSIFICATIONCLASSIFICATIONTABPLACEDONUSERSCANSEEPLACE5SEARCHHELPPROVIDESTIPSHELP,ESTABLISHHELPCENTERPROVIDECONVENIENTSEARCHBOX,CANALWAYSSEEANDUSEPROVIDETHEMOSTPOPULARSEARCHSUGGESTIONSPROVIDEONLINEHELPTOENHANCETHEUSEREXPERIENCEKEYWORDSECOMMERCESITE,SITESEARCH,EVALUATIONINDEX目录摘要ABSTRACT一、绪论1(一)研究背景及研究意义1(二)国内外文献综述2(三)本文的研究内容与研究方法2(四)本章小结4二、相关概念及理论基础5(一)电子商务及其行业现状5(二)国内主流的电子商务网站6(三)站内搜索及其技术原理7(四)站内搜索技术的发展历史8(五)本章小结9三、电子商务网站站内搜索技术的评价体系10(一)评价体系11(二)评价测试步骤12(三)我国主流电子商务网站站内搜索技术比较分析15(四)本章小结16四、电子商务网站站内搜索技术改进建议17(一)准确率18(二)召回率18(三)商品综合特征19(四)分类和过滤19(五)搜索帮助20五、结论与展望22参考文献23致谢25我国主流电子商务网站站内搜索技术比较分析研究一、绪论(一)研究背景及研究意义1研究背景随着互联网的空前发展,网上商品的种类日益繁多,电子商务网站的站内搜索技术越来越来重要。数据显示,2014年第一季度中国网购用户数量已超过31亿1。根据商务部电子商务司测算,2015年电子商务交易额将达到约15万亿元,同比增长24。根据预测未来几年中国网上购物用户数量将继续保持高速增长态势。同时,网上购物市场巨大的发展潜力也吸引了众多企业的参与,纷纷建立起自己的电子商务网站。在网上商品的种类和数量逐渐增多的背景下,每一种商品又具有多种多样的特征,如商品数量、价格、评价、类型等,使得网站商品分类越来越复杂。与此同时,消费者的网上购物行为变得越来越理性,面对种类繁多的商品,通常会搜集大量相关信息,比较各种同类产品,从而降低消费风险,做出合理的购买决策。但是消费者自身信息获取的能力是有限的,因此对于功能强大的搜索引擎的需求变得越来越迫切。通用搜索技术应用在电子商务网站上并不理想,它并不能及时、全面地抓取网站最新页面内容,这对电子商务网站具有经常更新信息的特点来说是致命的。同时,通用搜索技术的搜索结果不能按照一定的特征进行排序、过滤,这也是通用搜索引擎应用于电子商务网站的不足之处。对此,电子商务网站需要设计一种适合其自身特色、功能强大且充分尊重用户个性化和用户体验的搜索方式,在此情况下,站内搜索开始引起人们的广泛关注。从上世纪九十年代到如今,国内电商已经成长为中国经济的重要力量。本文试图对市场占有率较高的、具有代表性的电子商务网站的站内搜索技术进行比较与分析,归纳和概括每种站内搜索技术的特点。通过对国内主流电子商务网站进行搜索测试后,获得较为准确的实验结果,对电子网站站内搜索技术进行评价,从而对我国电子商务网站站内搜索技术提出合理的改进建议。2研究意义针对电子商务站内搜索技术的比较分析,按照客户自身检索需求来建立科学合理的评价体系及方法,这对于改善电子商务搜索引擎、促进电子商务发展有着重要的意义。理论方面,可以弥补现有理论在站内搜索技术比较研究方面的不足。将顾客需求、用户体验至上的理念作为研究的切入点,有助于得出电子商务站内搜索技术存在的真正价值,促进电子商务行业的进步,推动相关理论的发展。实践方面,电子商务网站站内搜索技术的比较与分析有助于了解技术方面的差距,对搜索平台进行改进,减少使用者所面临的困惑,提升用户的搜索体验。(二)国内外文献综述1国内研究现状国内对电子商务的搜索技术评价指标的研究并不多。李林枫和刘雅琪在国外文献的基础上,提出了以用户需求为主导的四大评价指标准确率、分类、商品综合特征和提供搜索帮助3。侯志伟在这一基础上,提出了更为细分的评价指标,将广告以及推广链接、多媒体搜索支持和更新速度也纳入进来4,提出更为智能化的搜索技术。在评价算法方面,许多学者提出不同的方案。李林枫和刘雅琪采用的是测试评分的方法,将检索词进行分类,针对不同的指标,在搜索平台上进行实测,从而对结果进行打分。该方法涉及面广、实地实验,具有较高的可信度。唐先富提出层次分析法应用于评价指标研究,先罗列32个广泛应用的指标,再进行问卷调查,通过层次分析法,提炼出较为重要的评价指标5。该方法能够考虑到用户的主观态度,利于改进搜索技术的用户体验。2国外研究现状国外对搜索技术评价指标的研究从上世纪七十年代开始的。LANCASTER和FAYEN提出了评价信息搜索技术的六大项指标覆盖率、召回率、准确率、输出方式、响应时间和用户负担6。他们强调用户负担和响应时间对用户体验的重要性,这一说法至今被人们所沿用,从而逐步开始关注搜索技术的交互性。随着研究的深入,许多研究者提出了不同的评价标准。LISA将电子商务网站从可用性、整合性和功能性三个方面分成七类,并根据这三个方面设计出相应的测试方法,最后通过SPSS软件获得了统计结果7。LISA将改善用户服务质量作为出发点,认为电子商务网站必须将人性化、智能化考虑进来,以适应用户的搜索需求。37SIGNALS公司对25家电子商务网站的搜索引擎进行了测评,重点测评其可用性和人文性8。给出了包括准确度、拼写错误提醒、搜索分类、近义词搜索、综合特征词检索和是否有结果显示等六项评价指标,并且根据上述指标提出了改进建议。(三)本文的研究内容与研究方法1研究内容本文主要分为五个部分。分别为1绪论主要研究了国内外关于电子商务网站站内搜索技术的文献资料,并简要介绍了本论文的结构和概要,提出了研究方法,为后续工作提供了基础。(2)相关概念及理论基础本章主要采用文献资料研究的方法,尽量收集相关文献,并进行总结提炼。首先,介绍了电子商务的概念,对电子商务这一热门行业进行了行业分析,认为电子商务行业在将来仍将继续对国家经济做出更大的贡献。接着简要介绍了我国主流电子商务网站的大概情况,主要是市场占有、企业现状等的情况。然后,介绍了站内搜索技术的概念、原理,原理这块主要采用演示代码的方法,力图展现搜索技术的实例,介绍了站内搜索技术的发展历史,对智能化搜索技术提出了展望。3电子商务网站站内搜索技术的评价体系本章分为两个部分一、提出评价体系,及五大评价指标准确率、召回率、商品综合特征、分类和过滤、提供搜索帮助。二、对这五大评价指标进行了网络测试,得出的结果进行数据分析,进而为提供建议奠定了基础。4我国主流电子商务网站站内搜索技术改进建议通过对五国主流电子商务网站的测试,发现许多不足的地方,为了提高用户体验,提升网站的搜索效率,作者针对这些不足,提出了合理的建议。(5)结论与展望对全文进行总结,得出结论,并对移动电子商务行业进行展望,提出移动电子商务搜索技术的几点特征。2研究方法本文将采用文献资料法、实例测试法、比较分析法三种方法。(1)文献资料法通过梳理国内外针对电子商务网站站内搜索技术相关文献资料,概述电商行业现状和我国主流电商的发展情况,总结和分析相关专业领域取得的研究成果。(2)实例测试法通过选定测试的电子商务网站,选定测试检索词,进行评分,从而准确地评定各电子商务网站站内搜索技术的性能水平。(3)比较分析法运用相关的评价指标和分析方法,对电子商务网站站内搜索技术整体进行评价。(四)本章小结在商品种类繁多的背景下,用户处在不对称信息的弱势方。创建评价指标,增强搜索技术的性能,成为各大电商需要面对的问题。本文力图对国内主流电商的站内搜索技术进行比较和分析,从而提出改进建议。二、相关概念及理论基础(一)电子商务及其行业现状1电子商务定义电子商务通常是指在因特网的网络环境下,基于浏览器/服务器应用方式,进行各种商贸活动,实现消费者的网上购物、商户之间的网上交易和在线电子支付以及各种商务活动、交易活动、金融活动和相关的综合服务活动的一种新型的商业运营模式。电子商务可划分为广义和狭义的电子商务。广义的电子商务认为,电子商务是利用各种电子技术从事商务活动;狭义电子商务的定义认为,主要利用INTERNET从事商务活动。无论是广义的还是狭义的电子商务的概念,电子商务都包涵这两个要素一是互联网平台,失去互联网搭建的网络平台,无所谓电子商务;二是它是一种商贸活动。2电子商务行业现状“十二五”时期,我国电子商务行业发展快速,行业逐步壮大,一些大型互联网公司已经走向了世界,行业产值不断攀升。2014年中国电子商务市场交易额已达13万亿元,同比增长2510。2015年中国网络购物市场规模将超过3600亿美元,仅2014年天猫双十一当天9小时支付宝交易额达250亿元。网购用户规模稳步增长,2014年我国网络购物用户数量达到361亿11。艾瑞咨询预测今后几年电商行业仍将高速发展,2017年交易规模有望突破20万亿元(如图21所示),其市场潜力可见一斑。网购人数也是逐年创新高,到2017年将达到4亿,一个重要的变化就是移动网络用户增长的很快,移动网络将成为电商争夺的主要战场12,如图22所示。图212011年2018年中国电子商务交易规模柱状图图222011年2018年中国网购用户数量柱状图(二)国内主流的电子商务网站1天猫天猫,是中国,甚至是整个亚洲最大的B2C购物网站,多为知名品牌的直营旗舰店和授权专卖店组成,拥有将近10万种品牌入驻。作为中国B2C网购平台的老大,2014年其网上购物市场占有率达到了573,其地位至今无人能撼动13,如图23所示。图232014年中国各大电商网上购物市场占有率饼状图2京东京东是中国最大的自营电商企业,京东2015财年第一季度财务报告显示,2015年第一季度交易总额达到了878亿元人民币,同比增长9914。并且京东年度活跃用户量首次突破1亿大关。2014年5月22日,京东成功在美国纳斯达克上市,市值达464亿元。京东商城无论在访问流量、销售量以及知名度和影响力上,都在国内网购平台中具有较高影响力。3苏宁易购苏宁易购,是苏宁电器旗下新建立的B2C网上购物平台,现有的上架的商品就已经有上百万种,包括家用电器、电脑手机、生活百货等品类。苏宁易购将进一步促进网络与实体店的同步协调发展。苏宁电器将依托采购渠道和实体店的优势,与众多家电厂商公司合作,力争占据中国家电网购市场超过20的份额,将苏宁易购打造成为中国最大的家电B2C网站,强化与实体门店协同作战的虚拟网络,实现全面发展。4亚马逊中国亚马逊中国是全球最大的电子商务公司亚马逊网站在中国设立的子网站。亚马逊中国主要经营的商品包括图书、音像等。近年来随着业务的扩展和物流平台的不断完善,亚马逊中国开始将商品扩展到衣食住行各个方面,包括电子产品、服装、穿戴等,具有货到付款、在线付款等多种支付方式。亚马逊公司具有全球领先的网上零售技术和卓越网广大的中国市场占有率,将进一步提升客户体验,为中国消费者提供高效、便利的网购体验,从而提升中国电子商务行业的整体进步。5当当网当当是知名的综合性网上购物商城。商品涵盖书籍、服饰、生活用品、手机数码、家居、家用电器等品类,上百万种商品,提供货到付款和各类线上支付手段等服务。从1999年11月正式开通至今,当当已从早期的单纯网上书店演变成了网上百货商城。当当于美国时间2010年12月8日在纽约证券交易所正式挂牌上市。(三)站内搜索及其技术原理1站内搜索的定义站内搜索是指在网站内,为了应对信息更新快、信息内容复杂等的问题,通过中文分词、页面抓取、建立索引和结果排序等技术,对网站内的信息内容进行检索,满足用户的信息需求的一种搜索技术。以往由于信息没有那么繁多,网页较为简单,容易管理,因此站内搜索技术的建设并不多见。但随着网络信息的井喷式增长,通用的搜索技术已经无法满足检索信息的需求了。具有处理信息快、抓取方便等特点的站内搜索技术初步取代了通用搜索技术,成为新兴搜索行业。2站内搜索技术原理1抓取网页抓取页面就是通过程序代码抓取网页的链接地址,先从一个网页开始抓取,查找网页里面的超级链接,然后通过这些超级链接再继续寻找下一个网页,如此循环下去,直到把这个网站所有的网页都抓取完为止。这一方法也称为网络爬虫,是作为搜索技术中最为核心的部分。事实上,爬虫抓取网页的策略会因用户的搜索需求不同而改变。一般搜索策略包括广度优先搜索、最佳优先搜索、深度优先搜索。网络爬虫系统由三部分组成控制器,解析器和资源库。控制器主要是负责分配工作任务;解析器主要负责下载网页并进行处理,该部分是爬虫的核心部件;资源库是用于储存网页资源,便于检索。2建立索引索引的建立主要是解决索引结构问题。解决该问题的主要方法是叫做倒排索引。倒排索引主要解决的就是海量数据管理问题,用来存储单词在文档是的映射。该方法由两部分组成单词词典和倒排文件。3分词技术分词技术就是对用户提供的关键词进行的一系列处理过程,包括检测关键词,分解关键词等步骤。分词技术可以分为三种字符串匹配的分词方法;词义分词法;统计分词法。比较常用的是字符串匹配分词法中的正向最大匹配法。该方法就是将一个词句从左到右进行分词,百度搜索应用了该法。4排序排序就是按照一定的排序规则,对搜索结果页面进行排列的方法。排序算法的好坏决定着是否能够有效的达到目的,减少不必要的资源浪费。现在排序算法非常多,普遍的有冒泡排序,插入排序,递归排序和希尔排序。(四)站内搜索技术的发展历史上世纪90年代,随着GOOGLE,雅虎和百度等搜索引擎的出现,经过技术的不断更新和市场的优胜劣汰,搜索引擎经历了目录检索、全文检索的阶段。到了二十一世纪,网民人数膨胀,网页数量呈几何数级增加。特别是对于具有时效性的购物性网站来说,利用传统的GOOGLE,雅虎和百度等搜索引擎已经无法满足网上购物者对信息的需求了,应运而生的就是自建的站内搜索技术。随着用户个性搜索的需求,智能搜索技术开始兴起,受到业界的广泛关注。站内搜索技术发展历程大致可以分为三个阶段。1第一代站内搜索技术第一代站内搜索技术是以GOOGLE,雅虎和百度等代表的通用搜索引擎。通用搜索引擎一般会提供站内搜索功能,以嵌入网页代码的方法进行网页的爬取。使用通用搜索引擎作为网站的站内搜索引擎,可以极大提高编程效率,且维护成本很低。但其弊病也很明显无法抓取更新的信息;需要大量的流量,严重会造成网络拥堵;无法细化分类,如价格,销量,好评等搜索。致命的缺点使得第一代站内搜索技术很快被淘汰。2第二代站内搜索技术第二代站内搜索技术就是自建站内搜索技术。自主开发的站内搜索技术,大致可以分为完全自主开发和非完全自主开发。完全自主开发的搜索技术一般采用JAVA编程语言进行开发。非完全自主开发的搜索技术一般是使用开源进行开发。目前搜索引擎相关的开源项目主要有LUCENE,SOLR等。第二代站内搜索技术已经成为开发主流。3第三代站内搜索技术第三代站内搜索技术是所谓智能搜索技术。信息量的膨胀无疑导致信息使用者更难查找到自己所需要的信息,虽然自建站内搜索技术可以提供数十个关键词供网站使用者缩小检索范围,但是这种技术仍然包含大量无效的检索结果,且无法满足用户的个性化需求,出现诸如词汇搜索孤岛、语义表达差异、搜索匹配过于机械化等问题。该引擎是通过网页文本分析从而对搜索结果进行优化。随着搜索技术的不断发展,第三代搜索引擎的功能将会不断被开发出来,为检索用户提供更方便、更准确、更人性化的检索服务。(五)本章小结电子商务的概念随着时代的变化不断改变,其范畴不断扩大。但其核心概念是不变的,那就是利用互联网平台实现商贸活动。随着中国市场经济的发酵,电商行业持续壮大起来,出现了诸如阿里巴巴、京东、当当等大互联网公司。另一方面,为适应信息爆炸式增长的环境,通过搜索技术已经被淘汰,取而代之的是站内搜索技术,它具有更新速度快、能够多特征搜索的特点,满足了电商搜索平台的需求。随着用户对个性化搜索的需求,智能搜索技术被开发出来,预计不久的未来,智能搜索技术将代替第二代站内搜索技术,为用户提供更为人性化、智能化的服务。三、电子商务网站站内搜索技术的评价体系(一)评价体系1准确率这个指标主要是评价搜索技术实际正确的商品数与搜索出商品数的比例,用于衡量该搜索技术噪声比的一种指标。该文中我们用这个指标来检测商品的查准率。它的公式为WM,式中W实际正确的商品数,M是搜索出来的商品数。建立一个22的表格,将准确率用数学公式表达出来,如表31所示。表31相关的不相关的总计检出的A命中的B噪音的AB未检出的C漏检的D应拒的CD总计ACBDABCD上述的W即为A,M即为AB,这样准确率即为AAB。比如用户搜索出了100件商品,其中有60件是用户想要搜索到的,则准确率即为6010060。2召回率也叫查全率,是检索出的相关商品数和搜索平台中所有的商品数的比率,用于衡量搜索平台检出相关商品成功度的一项指标。应用于本文中,它的数值等于W/X,式中W为实际相关的商品数,X为搜索平台中全部N种商品中实际与某一商品相关的商品数。由表31可知,上述M即为AB,W为A,X为AC,从而召回率可表述为A/AC。式中C值的确定用的是随机抽样的方法。3商品综合特征这个指标主要是评价当检索词包含多个商品特征时,搜索引擎反映的结果。商品的特征种类繁多,通常的特征包括价格、销量、品牌、好评数等,对于常用的特征本文不予考虑。4分类和过滤这个指标主要通过检测搜索引擎是否能够将搜索结果进行分类、过滤。一个有分类功能的网站会将用户的搜索结果按照价格、销量、好评率、品牌等特征进行分类。5搜索帮助这个指标主要是针对搜索平台在无法检索到相关商品时,能否提供必要的搜索帮助,处理这类特殊问题的能力。例如,用户检索出现错别字时,搜索平台能否识别它,并提出建议。(二)评价测试步骤1准确率测试对准确率的测试是通过输入不同类型的测试检索词(商品),看看是否会出现与检索词有异的商品,如果出现则说明其搜索技术并不准确。为了量化结果,易于最终的评分分级,制定分数计算方法。该项测试有10个不同类型的测试检索词,10分的初始分,如果出现一个不同于检索词表示的商品时,将扣一分。测试检索词的选取至关重要,为了测试的准确性,建立五类不同类型的检索词库单独商品名称、复合的商品名称、商标名、商标名和商品名、特定的名字。我们为每个检索类型分别选取了10个检索词,创建准确率测试检索词表,如表32所示。表32准确率测试检索词表综合类书籍手机数码生活用品单独商品名称牛仔裤毛衣水浒传狂人日记单反相机平板电脑香水洗发水复合的商品名称夏季牛仔裤冬季毛衣四大名著鲁迅文集入门级单反相机16G平板电脑男士香水控油洗发水商标的名称森马恒源祥人民文学出版社人民日报出版社宾得苹果古龙宝洁商标名和商品名森马夏季牛仔裤毛衣恒源祥人民文学出版社的社水浒传人民日报出版社的狂人日记宾得单反相机苹果平板电脑古龙香水宝洁洗发水特定的名字李钟硕李宁施耐庵鲁迅尼康乔布斯古龙联合利华将上表格的检索词分别输入各大电子商务网站搜索平台,统计检索正确的商品数量,采用随机抽取的办法,求得正确的数量,从而得出准确率,再将其求平均。表33各大电商搜索技术准确率表()天猫京东苏宁易购亚马逊中国当当单独商品名称808887703514272复合的商品名称78425544478482商标的名称92323468418315商标名和商品名723218575404221特定的名字56123321440平均数(得分)759820457254056338从表33可以看到,京东的搜索准确率是最低的,一个原因是该搜索平台的分词技术并不完善,检索出的商品往往与用户所需的大相径庭。2召回率测试事实上,召回率是很难实现的,因为很难统计出商品总量。为了简化问题,先将其中一个电子商务网站检测出的正确的数量设定为“锚点”,其他电子商务网站的检测结果对比这个“锚点”,所得检索正确数见表34。所得分数就是检索出来的正确的商品数量。本文将天猫作为“锚点”,以此对比出其他搜索平台的召回率。表34各大电商搜索技术检测正确商品数天猫京东苏宁易购亚马逊中国当当单独商品名称1191657450045001780950复合的商品名称74500530201430310630商标的名称5230580230265460商标名和商品名420610232340特定的名字125200134平均数(得分)398882578212368476241683商品综合特征测试通过综合多个商品特征来检测该项评价目标。复合特征采用以下五种类型检索词性别和商品、价格和商品、细节和商品、折扣和商品、尺码和商品。每种类型选取8个检索词,建立表格,如表35所示。表35商品综合特征测试检测词表综合类书籍手机数码生活用品综合性别和商品男士皮鞋女士短裤孕妇必读女性化妆图书男士刮胡刀粉色MP3女士香水男士润肤露综合价格和商品10元以下袜子50元以下球鞋1元书籍10元图书3000元手机4000元以下电脑100元彩妆10元洗面奶综合细节和商品白色T恤时尚杂志幼儿连环画双面刻录DVD真皮笔记本电脑瘦身霜修护精华液综合折扣和商品5折首饰1折图书9折笔记本电脑惊喜价晚霜特价窗帘综合尺码和商品加大号衬衣高二数学书迷你型电脑50ML香水100G润肤露将以上测试检索词输入各大搜索平台,所得见过见表36,按照搜索结果的完善程度对搜索平台进行排名,排名即为所得分数。表36商品综合特征检测排名得分天猫京东苏宁易购亚马逊中国当当综合性别和商品13754211537652477032811综合价格和商品22036517389344综合细节和商品3338319911014595537940综合折扣和商品15528综合尺码和商品6871911410得分(排序)543124分类和过滤测试主要是检测搜索时是否出现分类功能,细分类别越多,该项目标就越完善。所得分数就是检测出类别细分的数量。同样,我们选8个测试检索词,测试搜索平台的细分能力,选取词见表37。表37分类和过滤测试检测词选取准则综合类书籍手机数码生活用品选取词皮带手表小说漫画智能手机电脑香水洗发水得出细分数表格,如表38所示。从表格分析可以看到,各搜索平台的细分数有很大的差别的,其中天猫的细分数最为稳定,可见天猫的分类能力较其他电子商务网站要高。表38分类和过滤测试得分表综合类书籍手机数码生活用品平均数(得分)天猫111591171112910625京东726610106107125苏宁易购561669665625亚马逊中国7941178346625当当61023132114755搜索帮助测试这项测试用于检测在出现严重搜索问题时,能否提供必要帮助。最直接的办法就是选取有严重拼写错误的词语进行检索。这里选取两种类型错误的检索词一种是拼写错误,测试是否会提醒用户拼写错误等信息;一种是完全错误的检索词,测试是否会提供必要的搜索帮助。本文采用“首表”和“AMANBIY”作为测试词,在各搜索平台测试,结果如下表所示。为了评分方便,有提供搜索帮助的可记一分,得分见表39。表39搜索帮助测试表天猫京东苏宁易购亚马逊中国当当首表AMANBIY得分202116数据处理根据上述五项测试,得出了最终五大电商搜索平台的检索能力得分,见表310。表310五大电商搜索平台检索能力得分表天猫京东苏宁易购亚马逊中国当当准确率759820457254056338召回率39888257821236847624168商品综合特征54312分类和过滤10625712556256625475搜索帮助20211显然每项检测的所得分数会出现个体的差异,为了避免个体差异影响整体测评,将对数据进行齐性处理,较常见的方法是进行排名处理,最后加总,得出最终得分,见表311。表311齐性处理后的检索评价得分表天猫京东苏宁易购亚马逊中国当当准确率51432召回率54321商品综合特征54312分类和过滤54231搜索帮助20211总得分221314107(三)我国主流电子商务网站站内搜索技术比较分析综合上述数据分析所得的结果,通过绘制折线图,可以对比看出各大网站搜索技术的总体效果以及各指标的对比,如图31所示。图31网站站内搜索技术评价指标得分折线图从图31可以看到,圆点折线是各大网站的总得分,天猫得分最高,下方的折线分别是准确率、召回率、商品综合特征、分类和过滤以及搜索帮助方面反馈的情况。条形图能够比较直观的反应各个比较项目间的特征情况,它能直接反应数量间的多少、大小关系。图32是按照网站总体排名的升序排列进行绘制的总排名与各网站五大指标部分的关系对比堆积条形。图32网站站内搜索技术评价指标得分柱形图(四)本章小结本文选取五大评价指标准确率、召回率、商品综合特征、分类和过滤、搜索帮助,对我国主流电商搜索平台进行评测。准确率强调提个搜索平台的噪音比,通过不同类型的检索词可以很全面的检测出来。召回率看重检索出的商品数在搜索平台所有相关商品中的比例,强调成功率。由于无法确定各大搜索平台的所有商品数量,因此只能选取某一电商作为“锚点”。商品综合特征的测试采用的是不同类型组合的检索词,从结果来看会出现很大差别,说明该方法是有效的。分类和过滤的检索方法较为简单,采用搜索平台提供的分类栏进行统计。搜索帮助的测试直接用错误测试的方法,发现只有天猫和苏宁易购能够提供较为全面的搜索帮助。为了便于评价得分统计,将各大指标得分进行排序,从而加总,得出电商搜索能力的得分。该方法虽然简单,但能很好的反映搜索技术能力上的差别,是一个有效的方法。四、电子商务网站站内搜索技术改进建议通过分析国内电子商务网站站内搜索技术的测评结果,提出了相应的改进建议(一)准确率1分词技术在测试准确率时,本文发现,有的电子商务网站(如,京东)的站内搜索技术所基于的分词技术存在问题词的切分是以一个汉字为单位,而不是按词语划分,这样会导致搜索结果与用户的要求严重的不符。因此,本文建议,改进基础的分词技术,采用词语分词,诸如字符串匹配分词、词义分词、统计分词等方法,禁止出现单个字的分词方法。2排序方法排序算法的效率至关重要,如何快速得出排序结果,缩短用户的等待时间,从而提升网站用户体验。比较流行的排序算法有词频位置加权排序算法,DIRECTHIT算法,PAGERANK算法。电商网站站内搜索技术的排序算法常用的是词频位置加权排序算法,该算法根据词语出现的次数和位置进行排序。(二)召回率1商品主题词商品特征除了价格、销量、品牌等固定信息外,还包括作为搜索对象的商品主题词。通过商品主题词,用户可以更容易搜索到想要的商品。为了提高召回率,扩大主题词的范围很重要。应用子父类结合、改用布尔运算符等办法,可以有效提升检索到的概率。值得注意的是,固然扩大主题词可以提升召回率,但另一方面也导致准确率的下降,因此在提升召回率的同时,要注意准确率的稳定。2处理与准确率的关系召回率与准确率存在着反向关系,如何处理两者的关系一直是学者关注的课题。PR曲线能很好的描述两者的关系,如图41所示。P值是指准确率(PRECISION),即A/AB,R值为召回率RECALL,即A/AC。从图41可知,随着准确率的提高(P值的增加),召回率(R值)相应的降低。极端的情况是,准确率(P值)达到100时,召回率(R值)几近0;同样的,召回率(R值)达到100时,准确率(P值)降到0。因此,片面强调任何一方,都会导致检索系统性能降低。图41PR曲线图(三)商品综合特征1综合检索搜索平台应该允许用户用综合特征来检索,如性别、颜色、季节等,增加搜索的准确率。从商品综合特征检测中,我们发现有的电子商务网站商品分类特征单一,只有简单的通用特征价格、销量、品牌。另外,商品特征选项会出现不稳定的情况,有些商品特征过多,导致用户难以选择,由此则太过简单,不能提供足够的特征供用户选择。因此,提供丰富多样的商品特征,即时更新商品信息数据库,尽量在平台展示上展现商品的特色,都有便于用户进行商品搜索。2价格为先在商品综合特征都相同的情况下,将价格更合理的商品放到优先的位置,这样可以增加用户购买的几率。有的电子商务网站提供价格排序,但排名靠前的却与用户的需求大相径庭,因此在价格可控的情况下,有必要兼顾商品特征的匹配。另外,出了价格为先的策略外,也可考虑将促销商品放置靠前的位置。(四)分类和过滤1多样分类除了价格、销量、品牌等通用型的分类项外,应该增添商品特有的分类项如颜色、图案、款式、季节、生产日期、是否打折、特卖等。添加针对商品特征的分类选项可以快速找到用户所需的商品,提高搜索速度。商品分类的方法多样,包括通用型价格、销量、评价;外表型颜色、图案、款式、季节等。分类不求精细,不能千篇一律,要根据用户所需的特征进行分类。2分类选项卡由于搜索出来的商品会很多,因此要将选项卡一直放在用户可以看到的地方,这样便于用户随意更改分类选项,提供便利。有的电子商务网站搜索界面缺乏人性设计,无法让用户及时进行商品分类选择。另外,假如分类选择过多的话,反而会造成用户的反感,起到相反的作用。建立简洁、方便、高效的分类选项卡,充分发挥选项卡方便的作用。(五)搜索帮助1贴士帮助网站页面要提供诸如购买指南、支付帮助等标签,帮助遇到相应问题的用户解决问题。比如,天猫网建立了一个帮助中心,可以对遇到的问题进行搜索,找到问题的应对措施。大部分在购物中遇到的问题都可以从贴士帮助中找到。另外,贴士帮助会出现在整个购物过程中,包括搜索、购买、填写信息、物流跟踪、到货、评价或退货,都能找到常用的帮助。2提供检索条为了便于用户随时能检索商品,应该将检索框始终显示在固定位置,不会随着网页的下拉而消失,这样的设置可以大大提供便利。检索条的设置要简洁、大方,能够提供检索提示。可以提供多样的检索对象,比如品牌、商场等。3提供最近受欢迎的搜索建议用户上网可能是随便逛逛,因此电商可以做商品推广,一个直接的方法就是在搜索框附近添加最近受欢迎的商品建议。这种办法不仅可以增加商品的查看率,还能提高用户体验。另外,检索建议可以是用户搜索最多的字条,充分与用户互动,提升社区化的体验。4提供客户在线帮助客户在线帮助可以帮助那些无法在贴士帮助找到解决方案的用户,也可用于用户的投诉建议的处理。良好的后台服务对用户的回头率有重大的作用,及时、周到、人性化的在线服务能够很大程度上提升用户的使用体验。有的电子商务网站没有提供用户与网站的互动,缺乏沟通交流,一方面可能会造成用户的流失;另一方面,缺乏用户的网购体验,减少网店的品牌认知。提供客户在线服务,不仅仅是解决用户问题,还可以进行推广服务,如金融服务。五、结论与展望本文研究的重点是对中国主流电子商务网站站内搜索技术进行了分析评价。第一章对国内外文献资料进行了分析和综合,提出本文的研究方法,为全文研究的展开奠定了理论和方法的基础;第二章介绍电子商务网站和站内搜索技术的相关概念以及我国主流电子商务网站的基本情况。然后对站内搜索技术的发展历史进行梳理,提出智能搜索将成为下一代新的搜索技术主流。第三章建立了评价体系,并进行网站实测,对实验数据进行统计分析,得出网站排名。针对网站实测的结果,在第四章提出了我国电商网站站内搜索技术改进建议。改进建议分为五个部分(1)准确率方面提高分词技术水平,禁止应用单个字检索,使用诸如字符串词匹配、词义分词、统计分词等技术;选取重要的排序指标,按照最相关、许最符合的结果进行排序,同时提高排序算法的效率,缩短计算时间;(2)召回率方面扩大商品主题词的范围,使用字父类结合、改用布尔运算符等方法,提升召回率;处理好与准确率的关系,应用PR曲线,将准确率和召回率控制在最佳点;(3)商品综合特征方面增加商品的特征选项,提升准确率;在相同特征的情况下,以价格优惠为先;(4)分类过滤方面增加商品特有的分类;分类选项卡置于用户可以看到的地方;(5)搜索帮助方面提供贴士帮助,建立帮助中心;提供便利的检索框,可以随时看到并使用;提供最受欢迎的搜索建议;提供客户在线帮助,提升用户体验。未来电子商务行业将继续蓬勃发展,移动电子商务将引领新的经济增长点,移动电商的站内搜索技术会出现与以往不同的特征(1)安全性。移动客户端很容易获取用户的个人信息,提高用户信息的安全,防止安全漏洞,是未来移动电子商务需要考虑的;(2)智能型。获取用户信息已经不再是难题,电商可

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论