基于移动互联网日志的搜索引擎用户行为研究.doc_第1页
基于移动互联网日志的搜索引擎用户行为研究.doc_第2页
基于移动互联网日志的搜索引擎用户行为研究.doc_第3页
基于移动互联网日志的搜索引擎用户行为研究.doc_第4页
基于移动互联网日志的搜索引擎用户行为研究.doc_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于移动互联网日志的搜索引擎用户行为研究摘要:随着移动互联网的迅速发展,移动搜索用户大规模增加,移动搜索引擎用户行为分析对改进搜索引擎性能,提高用户体验具有重要意义。该文选取某移动搜索引擎2011年6月第一周的日志,对移动互联网用户搜索行为进行分析和研究。我们从查询词分析、会话分析以及用户点击分析3个角度出发,对查询词长度和频度、问题式查询和网址查询比例、会话内查询个数、查询词修改方式以及用户点击位置进行研究,并与互联网搜索引擎相应指标进行对比。相关分析结论对于移动搜索引擎算法改进与系统优化具有一定参考意义。关键词:移动搜索引擎;搜索引擎日志;用户行为分析1引言随着通信技术的进步、终端设备硬件水平的提升以及三网融合政策的逐步推进,移动互联网得到迅速发展,网络应用内容进一步增加,用户应用体验不断提高,我国由此进入移动互联网的大时代。据CNNIC第29次中国互联网络发展状况统计报告n显示,截至2011年12月底,中国手机网民规模达到356亿,占整体网民比例的693,用户规模增速已超过宽带用户。鉴于如此大规模的用户,互联网应用提供商纷纷布局移动互联网,主流应用提供商均推出了相应的WAP版本或客户端,为客户提供移动互联网服务,以移动搜索为代表的信息获取已发展为移动互联网的主流应用。当前,移动搜索引擎用户数量众多,应用门槛较低,适用范围较广。在未来竞争中,搜索结果的精确程度与个性化服务将会成为保持用户黏性的重要因素。为提高搜索准确性,移动搜索服务提供商需要挖掘用户特点和行为习惯,预测用户潜在需求,以应对市场竞争。移动互联网搜索服务提供商每天记录大量的用户搜索数据,比如访问者唯一标志符、检索词、点击页面、访问时间等,这些数据构成了搜索引擎日志。搜索引擎日志包含很多对服务商非常有用的信息,可以反映出用户的兴趣及其行为特点,是研究搜索引擎用户行为的重要载体。本文将通过对一周内中文移动搜索引擎日志的分析,研究真实环境下移动搜索引擎用户的行为特点。本文安排如下:第2节总结目前搜索引擎用户行为的研究现状;第3节介绍本文使用的移动互联网搜索引擎日志数据;第4节根据上述日志数据进行实证分析,分别研究移动互联网环境下用户查询行为与用户点击行为;最后进行总结和展望。2相关工作概述目前,对互联网的大规模搜索引擎日志的用户行为分析已有一些研究成果,主要集中在搜索引擎用户独立查询、查询会话分析以及用户点击行为等方面,但基于移动互联网的用户行为分析相对极少。Silverstein等(1998)对AltaVista用户检索行为进行分析,提出在一个查询会话中,用户只进行一次点击的大约占638,约有352的用户对于搜索词进行了完全的改变,12的用户增加或减少了搜索词的数目123。SoyeonPark等(2005)选取韩国著名搜索引擎NAVER一周内的日志数据,经过会话识别、查询分类、数据预处理等操作后,对用户检索行为进行分析,结果显示同一会话中用户输入的查询倾向于彻底更换查询内容,而不是增删检索词项或修改检索词项。Liwei等(2011)统计了同一会话中检索词的个数,发现同一会话中只有一个检索词的会话占所有会话数的708669,6。王继民等(2004)选取北大天网的用户日志,对用户访问时间、用户查询类型、用户查询长度、用户点击次数进行了统计分析,结论表明用户访问时间分布并不均等,多数用户只输入一个词项查询。余慧佳等(2007)选取搜狗搜索引擎一个月内的查询日志,就用户查询长度、查询频度、查询会话内的查询数目、查询会话内的查询内容以及用户点击行为进行了分析,将相应特征同英文搜索引擎用户行为进行对比,发现中文搜索引擎用户使用高级检索的比例远远低于英文搜索引擎,查询重复率远高于英文搜索引擎。岑荣伟等(2OLO)在文献工作的基础上,对用户搜索需求进行区分,从查询集合中提取了导航集和色情集这两类特殊的查询集合,针对不同检索目的对上述统计特征进行分析。针对以上工作中用户查询会话分析的不足,王晓春等(2011)定义了8种查询修改,在查询会话基础上分析了查询修改动作、用户点击结果数同查询修改次数之间的关系,发现查询修改动作和查询修改次数有关,而点击结果数量保持稳定。张磊等(2009)对于现有的网页搜索引擎查询日志中查询会话的划分方法进行了分析和总结,提出了可以使用时间作为划分会话的一种标准。马少平等(2011)基于搜狗搜索引擎2006年至2011年的搜索日志,对用户查询行为与用户点击行为进行分析,分析总结了中文搜索引擎用户行为的演化规律。而移动搜索引擎同桌面搜索引擎存在一定的差异,如用户可以不受固定终端限制,随时随地搜索信息,具有很强的时效性;移动搜索可以同定位服务相结合,为用户提供更具针对性以及精确的服务;移动搜索屏幕有限,每页显示结果数量有限。这些差异在搜索引擎的使用上造成了一些不同,因此有必要对移动搜索引擎的用户行为进行分析,帮助移动搜索算法的改进,更好地为用户服务。3实验数据本文实验数据取自于某无线搜索服务提供商2011年6月1日至2011年6月7日共一周的日志记录。其中日志中每条查询记录的格式如表1所示。为正确把握基于移动搜索引擎的用户行为特征,本文首先进行了数据处理,其中有以下几个问题需要说明。(1)cookie问题。由于该无线搜索服务提供商采用cookie技术标识用户,本文假定用户不主动删除cookie,则同一用户仅拥有一个cookie,不同用户拥有不同cookie,cookie作为用户唯一标志;(2)数据格式问题。考虑到用户的异常操作,日志文件中存在极少量异常数据,如用户cookie格式错误等,在数据处理时,本文将cookie格式有误,检索词长度大于100以及URL长度大于600的记录予以删除。4基于日志的用户行为研究经过数据处理之后,我们共得到4997416条查询记录,其中含用户1751612个,非重复查询971197个,非重复网页1613762个,查询会话2317215个。41查询词分析411查询词长度查询词长度在本文中定义为用户查询词中被空格所隔开的词语或字的个数。本文从两个层面分析查询词长度:一为分词之前,即用户自主输入的用空格分开的查询词长度;二为分词之后词语个数。本文在进行用户查询词分词操作时,充分考虑了用户查询需求以及这一时间段内的热点话题,将常用名词如人名、流行词、导航网址以及游戏名称等导入分词词典,提高分词准确率。分析结果表明,分词之前查询词平均长度为110个词,分词之后查询词长度为345个词,这与文献中关于互联网搜索引擎平均查询长度的分析相一致。图1显示了查询词长度和相应查询数量之间的变化情况。通过对图1进行分析,分词之前,用户查询词长度多为1个词,占总数的91919,6;而分词之后查询词长度为2和3的检索数目相对较多,查询词长度为1和4的检索数目相对较少,但其差距不是很大。查询词长度在5以及5以上的检索数目在分词之前数量极少,但在分词之后占了总数的23。通过上述对比可以看到,用户往往习惯直接输入一个短语或短句进行搜索,没有自主分词行为,这一点与互联网搜索是一致的。但是,就查询词长度分布而言,查询词长度在分词之前集中在1个词,分词之后查询词长度分布比较均匀,这与互联网搜索中查询词长度同用户数目呈指数分布这一点是截然不同的。412查询词频度查询词频度指的是在这一段时间内,该查询词一共被提交的次数。本文对查询次数排名前200的查询词,将其检索次数与排名绘成图2。通过图2可以看到,查询频度排名与检索次数之间呈幂律分布分布关系,随着查询频度排名的增加,检索次数迅速下降,少数查询出现的次数很多。这说明在搜索引擎每天处理的大量查询中,存在大量重复查询。这与文献中互联网搜索引擎的查询频度分析是一致的。对相应用户查询词内容进行分析,发现用户需求集中在导航网址、生活信息、手机阅读以及应用程序下载这几个领域,且与每一时段热点密切相关。这说明移动搜索引擎服务与桌面搜索引擎相比更具有便利性,更贴近生活。413问题式查询用户使用搜索引擎时存在多种检索方式,问题式查询则是用户提出问题时最直接、最简单的方式,我们统计了这部分查询的比例。按照现代汉语语言习惯以及英语语言习惯,我们收集了44个疑问词,比如“哪”、“什么”、“怎么”、“如何”等,如果用户提交的查询中使用到了某个疑问词,就认为此查询为问题式查询。统计之后,我们共得到255375条问题式查询,占总查询数的5110A,远远大于文献7中互联网搜索引擎问题式查询比例296,这说明了移动搜索引擎用户检索习惯落后,检索行为相对不成熟。414直接输入URL作为查询词的比例在使用移动搜索引擎时,存在一部分用户直接输入网址或网址的一部分进行检索的情况。我们综合考虑了各种手机网站域名情况,如手机域名“mobi”,商业域名“biz”、“cc”等,同时考虑用户只输人URL一部分的情况,统计发现有50590条记录是以URL作为检索词的,占总检索数目的1O1,远远低于文献6中相应比例。分析其原因,我们认为由于移动设备输入法限制,英文输入较困难,而由于URL往往字符较多,增加了用户输入的难度,所以用户更倾向于输入网站名称进行检索,输入URL的情况相对较少。42查询时间分析在分析用户检索与时间的分布关系时,考虑到工作日与节假日对用户搜索引擎使用次数存在影响,我们分别统计了每天每小时内用户检索次数,结果如图3所示。图3显示,不论工作日或节假日,每天21时、22时或23时是全天的最高峰,4时是全天的低谷。一天内,用户检索次数自4时开始增长,在上午10时达到第一个高峰,之后略有下降,后又缓慢增长,在12时或l3时达到第二个高峰,21时、22时或23时达到全天最高峰。这同人们的生活娱乐习惯是一致的,工作日内10时是进行工作、学习的时段,节假日内10时则是人们计划娱乐的时段,这段时间人们需要检索相关信息;12时或13时是午休时段,晚21时以后为睡前休闲娱乐时段,在娱乐时间往往会需要检索相关信息。与文献中互联网搜索引擎用户检索时间进行对比,发现移动搜索引擎用户访问时间集中在休闲娱乐时段。43查询会话分析查询会话(以下简称会话)可以理解为用户在较短时间段内,针对某一特定话题而进行的有目的的查询。会话能够更集中地反映出用户在有特定目标情况下的搜索、点击行为,为研究用户行为模式提供了更为准确集中的数据基础。我们参考文献关于会话划分方法的总结,结合对于数据的观察,将每一个用户30分钟内的查询定义为一个会话,认为在每一个会话中,用户围绕特定目标进行连续的操作。经过处理,除去日志中点击时间格式有错误的8593条数据,共区分出会话2317215个。431查询数目分析本文统计了一个会话中用户的查询次数,发现在每个会话中用户平均进行215次查询。图4显示,有58的用户在一个会话中只进行过一次查询,这与文献中637的数字接近。这可能是用户通过一次查询就已经找到了令自己满意的结果,所以不再进行后续的查询。也有可能是由于用户发现使用手机的搜索并不能满足自己的需求而使用其他工具(如电脑)进行搜索。其中查询数目小于3个的占到8696。由此可以看出,大部分用户在3次查询以内找到了自己需要的结果,搜索引擎提供的结果是比较令用户满意的。同时我们发现,有1的用户进行了10次以上的查询,说明用户对于找到自己需要的结果是比较有耐心的。432查询词修改方式分析如果用户对于现有的查询词查询结果不满意,就有可能修改查询词,从而找到最适合的结果。本文中我们对于一个查询会话中用户修改查询词的方式进行了统计,如表2所示。其中,Adding方式指后一个查询词在前一个查询词的基础上增加了新的词语;Deleting方式指后一个查询词在前一个查询词的基础上减少了搜索词;OrderChange方式是指后一个查询词只是改变了前一个查询词的词语排列顺序;PartlyChange方式指后一个查询词语对前一个查询词中的一部分进行了改动,其余部分不变;TotallyChange方式指后一个查询词较前一个查询词完全不同。我们可以看到,增加和减少搜索词的用户大约占25,这与文献中的12有较大的差距,有03的用户只是把原来的查询词顺序进行了调整,357的用户选择更换掉原有搜索词的一部分再进行搜索,即共有61左右的用户会在原有的查询词基础上进行一定的修改再搜索,而不是完全更换为新的查询词。我们认为这可能是移动互联网用户修改搜索内容较固定终端用户更为困难的缘故(手机输入检索词成本更高)。而完全修改查询词的用户约有387,与文献中的英文搜索引擎结果相近,但与文献中文搜索引擎结果差距较大。44用户点击行为分析441点击位置分布当搜索引擎返回用户提交查询的结果集之后,用户会点击其中可能相关的结果。本文就每天用户点击位置与点击次数之间的关系进行了分析,如图5所示。通过对用户点击位置的分析,我们发现用户点击行为与时间无关,每天点击位置与点击次数分布基本一致。具体来说,用户仅点击了18、1012、22、4O这14个位置,说明用户仅仅查看了返回结果的前几页位置。与互联网搜索引擎用户点击行为进行比较,用户点击位置与点击次数之间的分布存在很大差异。其中,图中的点击位置0表示用户并没有在搜索引擎返回的结果集中进行点击,这里不予以考虑。文献7中指出互联网搜索引擎用户点击次数与点击行为呈现幂律分布规律,而图5显示移动搜索引擎环境下该分布没有明显规律。究其原因,根据移动设备屏幕大小,搜索引擎每页返回的检索结果数为6个、7个或9个,每页底部显示5个分页结果,用户点击集中在第一页,其中搜索结果中排名第2的结果点击次数最多,第二页前几个结果也存在少量点击,这之后用户直接点击第4页或第5页的结果,而受网页传输速度或操作的限制,用户一般不会点击下一组分页结果。442首次点击位置分布在有特定目的的搜索中,用户通过浏览搜索引擎反馈回的结果列表,点击浏览,这时用户的首次点击位置反映了用户在结果中最感兴趣的内容。如果这时用户无法在第一页获得自己满意的结果,则搜索引擎对于结果的排列不够优化。图6表明,92以上的用户的首次点击位置在15之间,这表明搜索引擎提供的结果是比较符合用户的期望的。5结论本文中通过对某移动搜索引擎提供商2011年6月第一周日志记录

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论