已阅读5页,还剩70页未读, 继续免费阅读
(管理科学与工程专业论文)基于商务智能的中文搜索引擎用户行为模式研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
南开大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,进行 研究工作所取得的成果。除文中已经注明引用的内容外,本学位论文 的研究成果不包含任何他人创作的、已公开发表或者没有公开发表的 作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集 体,均己在文中以明确方式标明。本学位论文原创性声明的法律责任 由本人承担。 学位论文作者签名:署擞 。 埘年兰只曼。日 搜索引擎作为互联网的基础应用,得到越来越广泛的应用,而它凸显出的巨大 的商业价值,是人们关注的焦点。而目前的大多数研究都是从搜索引擎的角度进行 研究,事实上我们还需要从搜索引擎用户的角度对用户搜索行为进行研究,只有这 样才能把握用户的需求,最终实现搜索引擎的用户满意度。 首先本文分析了搜索引擎的前景,介绍有关背景和搜索引擎返回搜索结果排序 所具有的特点,说明这个结果并不是单纯的搜索引擎算法排序的结果;接着对本文 研究目的和研究构架进行介绍;然后将国内外多搜索引擎用户行为及搜索引擎日志 的相关研究做了回顾。 论文在信息检索行为理论和用户查询过程分析的基础上,构建了搜索用户点击 模型,将用户点击过程分解成浏览、判断和点击三个行为,对这三个行为相互之间 的影响关系和用户点击过程的特点及影响因素进行了分析,指出用户点击行为实际 上是由用户主导的,受搜索引擎环境等因素影响的过程。 本文使用商业智能技术对搜狗公司提供的搜索引擎日志进行处理,利用处理结 果分别对r a n k 值点击数、点击序列、点击顺序、页内排序与点击数的关系等方面进 行研究,同时归纳了不同长度序列模式的序列类型。通过这些结果验证了模型的有 效性,对查询词、搜索结果链接的位置、搜索引擎结果排序等影响因素在用户点击 行为中的作用进行分析。 最后对本研究的贡献做了说明,对网站和搜索引擎的发展方向提出自己的看 法,并在研究不足的基础上提出未来研究方向。 本文通过研究认为用户搜索的过程是一个由被动收集信息到主动选择信息的过 程,由被动到主导的过程。这个过程始终是用户自己在主导着,并没有被搜索引擎 结果排序所主导。 关键词:用户点击行为搜索引擎日志商务智能 a b s t r a c t a b s t r a c t a st h eb a s i so ft h ea p p l i c a t i o nt ot h ei n t e r n e t ,s e a r c he n g i n eh a sb e e nw i d e l y u t i l i z e d w h i l et h eh u g eb u s i n e s sv a l u ei ta r i s e sc o u l db ef o c u sw h i c ha t t r a c t e dp e o p l e s a t t e n t i o n s oh o wt or e a l i z et h eb u s i n e s sv a l u ew o u l db et h em a i np r o b l e mt or e s e a r c h w es h o u l di n v e s t i g a t et h eb e h a v i o r so fs e a r c he n g i n eu s e rb e s i d e si m p r o v et h ep r e c i s i o n o nt h es e a r c h i n gw e b ,w h i c hi st h eo n l yw a yt oe n s u r et h en e c e s s i t yt o u s e r s ,a n d h e i g h t e nu s e r ss a t i s f a c t i o nd e g r e ef i n a l l y f i r s to fa l l ,w ea n a l y z et h ep r o s p e c t sf o rt h es e a r c he n g i n eo nt h eb a c k g r o u n da n d t h ef e a t u r e so f s e q u e n c et os e a r c hr e s u l t st ot h i sa r t i c l ew h i c ha r es o r t e dn o to nt h es e a r c h e n g i n ea l g o r i t h mm e r e l y ;a r e rt h a tw ei n t r o d u c et h er e s e a r c hp u r p o s ea n df r a m e w o r ko f t h i sp a p e r ;a n dt h e nw er e v i e wr e l e v a n ts t u d i e st ob e h a v i o rt os e a r c he n g i n eu s e ra n d s e a r c he n g i n el o g b a s e do nt h ei n f o r m a t i o nr e t r i e v a lp r o c e s st h e o r ya n dt h ea n a l y s i so fc l i c k i n gl o g s t ou s e r , w eb u i l dt h eu s e rc l i c k i n gm o d e l ,w h i c hd i v i d e st h ec l i c k i n gp r o c e s si n t ot h r e e a c t i o n :b r o w s i n g ,j u d g m e n ta n dc l i c k i n g w ea n a l y z er e l a t i o n s ,t h ef e a t u r e st oc l i c k i n g p r o c e s sa n df a c t o rt oi m p a c tf r o mt h ea c t i o n s ,p o i n to u tt h ef a c tt h a tt h eu s e rc l i c k sl e a d b yu s e rt h e m s e l v e sa n dt h ep r o c e s si m p a c t e db ys e a r c he n g i n ec o n d i t i o n h e r e a f t e r , w ed e a lw i t ht h el o gp r o v i d e db ys o g o u c o ms e a r c he n g i n eb yu s i n gt h e b u s i n e s si n t e l l i g e n c et e c h n o l o g y a c c o r d i n gt or e s u l t sf r o mb u s i n e s s i n t e l l i g e n c e t e c h n o l o g y , w ee x p l o r ea s p e c t si nr a n kv a l u e s c l i c k s ,c l i c k i n gs e q u e n c e ,c l i c k i n go r d e r s , c l i c k i n go nt h eo r d e rp a g ea n dt h er e l a t i o nb e t w e e nt h eo r d e ri nt h ep a g ea n dc l i c k i n g n u m b e r ,a n ds oo n a tt h es a m et i m e ,w eg e n e r a l i z es e q u e n t i a lt y p e so fs e q u e n t i a l p a t t e r n si nd i f f e r e n tl e n g t h t h e s er e s u l t sa r er e c o m m e n d e dt oc o n f i r m a t i o no fm o d e l e f f i c i e n c y t h e nw ea n a l y z et h ei m p a c to ft h eq u e r yt e r m ,t h el o c a t i o no ft h es e a r c h r e s u l t sl i n k s ,s e a r c he n g i n es o r t i n gr e s u l t so nt h eu s e r sc l i c k i n gb e h a v i o r f i n a l l y , w e i l l u s t r a t ec o n t r i b u t i o ni nr e s e a r c ha n d p r o p o s eo u rv i e wf o r w a r d a b s t r a c t d e v e l o p i n gd i r e c t i o nt ow e ba n ds e a r c he n g i n e t h ec o n c l u s i o nt oo u rs t u d yi st h es e a r c h i n gp r o c e s st h a td e v e l o p i n gi n t oai n i t i a t i v e p r o c e s sf r o mp a s s i v ep r o c e s sf o rg a t h e r i n gi n f o r m a t i o n i ti sl e a d e db yu s e r si n s t e a do f s e q u e n c ei ns e a r c he n g i n er e s u l t sf r o mb e g i n n i n g t ot h ee n d k e yw o r d s :u s e r c l i c k i n gb e h a v i o r s e a r c he n g i n el o gb u s i n e s si n t e l l i g e n c e i i 三、问题的提出3 第二节研究目标和研究内容4 一、研究目标4 二、研究内容5 第三节主要研究方法和研究框架6 一、研究方法6 、研究框架7 第二章国内外研究综述9 第一节用户搜索行为研究分类9 一、用户搜索行为研究方式的分类9 二、用户信息检索行为研究方向的分类1 0 第二节关于搜索行为研究1 0 一、国外关于搜索行为研究1 0 二、国内关十搜索行为的研究1 4 第三节基于搜索引擎日志的用户行为研究1 5 一、国外基于搜索引擎日志的用户行为研究1 5 二、 国内基于搜索引擎日志的用户行为研究1 6 三、基于日志的算法研究1 8 第四节研究评述1 9 一、搜索用户行为模型的相关研究评述1 9 二、基于搜索引擎日忠的相关研究评述1 9 三、本文的研究点2 0 目录 第三章用户点击行为模型的构建2 1 第一节用户点击行为模型的理论基础2 1 一、d e r v i n 理论2 l 二、e 1 l i s 模型与k u h l t h a u 模型2 2 三、w i l s o n 模型2 4 第二节用户点击行为的描述性分析2 5 一、用户点击行为描述2 5 二、点击行为解析2 8 第三节用户点击行为模型的构建及其解析2 9 一、用户点击行为模型3 0 二、用户主导点击行为3 1 三、点击行为是信息收集判断的结果3 2 四、搜索环境对用户的影响3 3 第四章基于用户搜索行为日志数据的模型验证3 5 第一节日志数据处理3 5 一、商务智能3 5 、多维数据集的设计和建立3 7 三、序列模式挖掘4 0 四、日志处理结果说明4 2 五、名词定义4 2 第二节用户主导点击行为分析4 3 一、卜序列中用户点击行为特点分析4 3 二、序列中存在大量的“回溯”与重复点击行为分析4 4 三、2 一序列模式挖掘结果中存在“回溯”和重复点击分析4 7 四、3 一序列模式挖掘结果中存在“回溯”和重复点击分析4 8 第三节搜索引擎结果排序对用户判断的影响4 9 一、不同r a n k 值的点击数统计分析5 0 二、用户点击序列中首次点击r a n k 值点击数的统计分析5 0 三、用户点击序列中点击距离分析5 l 第四节其它影响因素对用户判断的影响5 4 一、搜索结果在页面中的位置对用户点击的影响5 4 二、点击顺序与链接的页内排序关系分析5 5 三、页数与页内排序之间的关系分析5 6 四、查询词长度对用户点击的影响5 8 第五章研究发现和结论6 0 第一节数据验证的研究发现6 0 一、用户自主性在点击行为中的体现6 0 二、搜索引擎结果排序在用户点击行为中的作用6 1 第二节研究结论和本文贡献6 2 一、研究结论6 2 二、研究贡献6 3 第三节研究局限性和未来研究方向6 3 一、研究局限性6 3 二、朱来研究方向6 4 第一章绪论 第一章绪论 本章首先介绍了本文的研究背景,然后提出研究的问题和目的,对研究构架和 流程做了说明,同时展示了研究所用的数据,对其进行简要的说明。 第一节研究背景和问题的提出 一、搜索引擎成为互联网焦点 搜索引擎作为瓦联网的基础应用,是网民在浩如烟海的互联网中获取所需信息 的必备工具。目前瓦联网上比较有影响的中文搜索工具有:g o o g l e 、百度、雅虎、 搜狗等搜索引擎,此外还有大量的专用搜索引擎,例如,专门搜索音乐的s o g u a ; 专门搜索f t p 文件下载的天网、星空搜索等。 随着瓦联网的飞速发展,中国网民的规模也越来越大。依据中国互联网信息中 心( c n n i c ) 于2 0 0 9 年1 月发布的第2 3 次中国互联网络发展状况统计报告,截 至2 0 0 8 年1 2 月3 1 日,中国网民的规模达到2 9 8 亿人,普及率达到2 2 6 ,超过全球 平均水平;网民规模较2 0 0 7 年增长8 8 0 0 万人,年增长率为4 1 9 。 截至2 0 0 8 年底,中国网页总数超过1 6 0 亿个,较2 0 0 7 年增长9 0 。面对这种情况, 搜索引擎已经成为人们获取信息的主要途径。目前百度宣称收录的中文网页数已经 超过百亿瞳1 ,而搜狗也宣称收录中文网页数达到了1 0 0 亿口1 。 依据2 0 0 8 搜索引擎报告h 3 搜索频率的变化将在很大程度上显示网民在网络 生活中对搜索的依赖程度。依据搜索频率的高低对网民的搜索依赖度进行分类,可 将搜索用户分为:重度用户( 每天多次使用搜索引擎) 、中度用户( 每星期至少使 第2 3 次中国互联网络发展状况统计报告,中国互联网络信息中心( c n n i c ) , h t t p :w w w c n n i c n e t c n u p l o a d f i l e s d o c 2 0 0 9 l 1 3 9 2 2 0 9 d o c ,2 0 0 9 年1 月 拉百度简介,百度公司,h t t p :w w b a i d u c o m a b o u t i n d e x h t m l 璐关于搜狗,搜狐公司,h t t p :w w w s o g o u c o m d o c s a b o u t h t m “1 2 0 0 8 搜索引擎报告,中国互联网络信息中心( c n n i c ) , h t t p :t e c h 1 6 3 c o m s p e c i a i o 0 0 9 3 8 5 q c n n i c 0 3 0 5 h t m l ,2 0 0 9 年3 月 1 第一章绪论 用2 次) 、轻度用户( 每星期使用不到2 次) 。调查显示:有3 8 1 的用户属于 度用户,4 3 5 属于搜索中度用户,1 8 4 属于搜索轻度用户,如图1 1 所示。 分析认为,搜索引擎用户的收入水平高于全国网民的整体水平,具有较高的 值:中国的搜索引擎用户中,1 0 0 0 元以下收入的用户约占4 0 8 ,月收入在1 0 0 元的用户所占比例为2 5 9 9 6 ,月收入在2 0 0 0 元以上的用户占总体的3 3 3 。与全国网 民整体的收入水平相比,搜索引擎用户的月收入水平高于全国网民的月收入水平, 拥有较高的消费支付能力,所以搜索引擎具有较高的商业价值。 轻度用户 1 8 4 鬈 图1 1 搜索用户的搜索依赖度 资料来源:网易,2 0 0 8 搜索引擎报告,h t t p :t c c h 1 6 3 c o m s p e c i a v 0 0 0 9 3 8 5 q e n n i c 0 3 0 5 h t m l 二、搜索引擎结果排序的特点 搜索引擎( s e a r c he n g i n e ) 并不是即时搜索互联网,它搜索的实际上是预先 整理好的网页索引数据库。通常搜索引擎服务提供商会收集互联网上大量的网页, 然后对网页中的关键词进行索引,建立关键词的索引数据库。当用户输入某个查询 词时,所有在页面内容中包含了该查询词的网页都将作为搜索结果从数据库中列出 来;然后通过经过复杂的算法进行排序后,将这些结果按照某种规则进行排列,以 网页的形式展示在用户面前。 第一章绪论 帮助搜索用户迅速的定位所需要的资源,是搜索引擎的目标之一。检索结果的 排序也直接影响了用户对信息的获取,因此搜索引擎将排序策略一直视为重中之 重。一般搜索引擎排序算法思想主要有以下几种n 1 : 1 词频和位置加权排序算法:是搜索引擎早期排序算法的主要思想,算法简 单容易实现; 2 p a g e r a n k 算法:它是g o o g l e 的算法中很重要的一部分,其源于学术引文机 制,当a 网页链接了b 网页时,就认为a 给b 投了一票,b 的重要性就增加了, 统计这些链接互相链接情况通过特定的算法可以计算网页的重要性,从而 决定它们的排序; 3 相似算法:主要考察查询词和结果记录的相似程度,从而决定搜索结果的 排序。 搜索引擎很少单独使用这些算法,往往是综合使用几种算法,得出一个综合结 果返回给用户。尽管搜索引擎尽力在为用户搜索提供种种算法和便利,使用户按照 搜索引擎返回的结果顺序就可以方便查找到自己所需要的信息。搜索引擎算法总是 将与查询词比较接近的结果链接排在前面,所以结果序号越大,该结果链接内容中 包含的查询词越少。 但是互联网上大量的s e o ( 搜索引擎优化,s e a r c he n g i n eo p t i m i z a t i o n ) 行 为存在,对搜索引擎的排序结果形成很大的干扰,例如针对词频和位置加权排序算 法,可以通过增2 h 标记中的提示词密度和广度来干扰;针对p a g e r a n k 算法, 则可以通过建立大量网站互相链接,从而提高某个页面的p a g e r a n k 值。这些搜索引 擎优化行为可以在搜索引擎结果中提升某个网站网页的排名,从而达到提高网站访 问量的目的。所以搜索引擎返回的结果排序并不是纯粹的搜索引擎产生的排序结 果,而是有大量搜索引擎优化在其中干扰的混合结果。 三、问题的提出 当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用 ”张印海,何中市,陈永锋搜索引擎结果中e b 文档的排序研究计算机数字工程,v 0 1 3 5 ,n o 2 ,2 0 0 7 3 第一章绪论 户要求内容相符的网站,便采用特殊的算法计算出各网页的相关度及排名等级,然 后根据关联度高低,按顺序将这些网页链接返回给用户,这个过程对于用户来说是 透明的。依据搜索引擎调查报告,搜索用户对搜索结果的排列规则认知度较低,近 2 3 的用户表示不知道搜索结果的排列规则是什么。 搜索引擎成为网民进入互联网的主要入口,同时又具有很大的商业价值,引起 了诸多关注。为了获取更多的流量和更高的关注度,很多网站都进行了s e o ,使得 自己的网站在搜索引擎中获得靠前的位置,从而更容易得到搜索用户的点击;而某 些搜索引擎厂商被商业利益所诱惑,对某些网站收取服务费通过竞价排名修改网页 排名的方式谋取商业利益。 而无论是搜索引擎优化,还是搜索引擎厂商作弊,他们这些行为的假设前提条 件是用户会受搜索引擎结果排序的影响,即用户很大程度上是按照搜索引擎的排序 机械的点击,被搜索引擎所主导。但是搜索用户是否受搜索引擎排序丰导是需要进 行研究才能确定的。目前的研究大多数注意力都集中在查询词分词、查询习惯以及 中英文查询的对比等方面,对用户具体使用某一个查询词进行搜索点击的行为过程 较少涉及。大多数研究都是以搜索引擎为中心,以提高检准率为目的进行的,较少 有研究从搜索引擎用户的角度来研究用户如何进行链接选择和点击的过程。 本文就搜索用户如何在搜索结果中选择满足自己信息需要的链接来进行点击 需要进行如下研究:用户的搜索时的点击行为是否完全是由搜索引擎排序结果主导 的,除了搜索引擎排序结果以外搜索引擎还可能在什么方面对用户施加影响,对这 些问题进行研究有助于我们对用户的点击行为有更进一步的了解,从而为评价s e o 和搜索结果中插入广告的行为的具体效果打下基础。在上述的背景下研究搜索用户 的点击行为,具有很现实的意义。 一、研究目标 第二节研究目标和研究内容 本文拟以信息检索行为模型作为基础,通过对搜索引擎用户的点击行为进行分 4 第一章绪论 析和描述,为搜索引擎用户的点击行为建立模型,通过模型来描述用户点击行为是 如何发生的;并讨论在这个过程中用户是如何选择点击链接;最后利用搜狗公司提 供的搜索引擎用户查询行为日志对模型进行验证,最终达到以下三个研究目标: 通过信息检索的理论模型和对搜索用户点击过程的分析,建立搜索引擎用户点 击行为模型; 利用所建立的搜索引擎用户点击行为模型对用户点击行为进行分析,讨论用户 选择点击链接的具体过程; 利用搜狗公司提供搜索引擎用户行为日志对搜索用户点击行为模型进行验证。 二、研究内容 本文首先介绍了研究背景,对本文所研究的问题、目标、方法和研究架构做了 说明,然后介绍了国内外对搜索引擎用户行为研究的方法和结论,并对他们的工作 进行了评述;然后以信息检索行为模型和用户搜索过程描述为基础,建立了搜索用 户点击行为模型,对用户具体点击行为进行了描述和分析,并且分析了对用户点击 行为产生影响的其他因素;接着介绍本文对搜索引擎日志的处理过程,对本文所要 用到的相关名词进行定义,然后利用处理结果对用户点击行为各个方面和影响因素 进行验证,揭示用户在搜索过程中的行为特点;最后对研究工作进行总结,提出研 究不足和未来的研究方向。 具体流程见图1 2 所示: 5 第一章绪论 资料来源:作者设计 一、研究方法 图1 2 研究流程示意图 第三节主要研究方法和研究框架 本文的研究方法是基于文献推演出用户点击行为模型,然后通过商务智能对用 6 第一章绪论 户行为日志进行处理分析,利用处理分析的结果验证了模型。 本文首先以信息检索行为理论的相关文献为基础,通过对搜索用户点击行为进 行分析,利用d e r v i n 、e l l i s 等人的信息检索行为理论模型推演得出了搜索用户点 击行为模型。 然后利用商务智能技术,主要是o l a p 和数据挖掘中的序列模式挖掘算法对搜索 用户行为日志数据进行处理,利用处理的结果验证了搜索用户点击行为模型,所利 用的软件主要包括s q ls e r v e r 2 0 0 5a n a l y s i s 、v i s u a lb a s i c 6 0 和m i c r o s o f t a c c e s s 2 0 0 3 等。 二、研究框架 本文主要结合信息检索理论中的行为模型,建立搜索引擎用户点击行为模型, 对用户的点击行为进行分析和解释;然后利用商务智能技术对搜狗公司提供的搜索 引擎日志进行处理,利用处理结果对用户的点击行为进行描述,以此来验证所建立 的点击行为模型。 为实现本研究的研究目的,研究架构将由以下三个方面组成: 1 利用信息检索行为理论和搜索用户点击行为分析建立搜索用户点击行为模 型: 2 利用模型对点击行为的特点进行解释; 3 使用商务智能对数据进行处理,利用结果来验证模型; 而商务智能主要分为两个部分,分别从数据仓库建立的多维数据集角度和序列 模式挖掘对数据分别进行处理。具体框架见图1 3 所示: 第一章绪论 资料来源:作者设计 图1 3 研究架构 8 第一章国内外研究综述 第二章国内外研究综述 本章主要是对国内外对搜索行为和搜索引擎日志研究的方法和特点进行介绍, 并对这些研究进行评述。 第一节用户搜索行为研究分类 一、用户搜索行为研究方式的分类 赖茂牛、吴龙婷将用户搜索行为定义为指用户利用计算机检索系统进行信息 查找的行为,包括利用联机检索目录和互联网进行信息查询。经过归纳,用户网络 搜索行为的研究方式主要分为三大类: 1 直接对用户提问式或者相关操作进行研究,这些研究通常都是取一个或多 个搜索引擎日志数据的集合,通过取样和统计分析来考察用户提问式及其 他相关操作的特点; 2 分析认知模式、情感、环境等具体因素对用户搜索行为的影响,基本都采 用样本实验的方法,分析数据得出结论; 3 专门研究特定群体的搜索行为特征,研究对象是具有共同特征的群体。 而这些研究者的的研究方法主要可以分为两类: 1 以网络日志分析为主要手段,通过使用统计,数据挖掘等方法来观察用户 在进行搜索活动时的种种行为特征; 2 通过访谈观察和调查问卷的方式,从用户所处的环境、自身生理、性格等 方面入手来考察各种因素对用户搜索行为的影响,或者将用户按照某一特 征划分成不同的群体来进行考察。 赖茂生,吴龙婷,岳真,黄晓莺国外用户网络搜索行为研究进展情报学报,v 0 1 2 5 ,3 0 6 3 0 8 ,o c t ,2 0 0 6 9 二、用户信息检索行 根据黄飞燕、徐静 为以下几类: 1 信息检索行为理论研究,它主要集中在三个方面:信息检索行为模型、基 于认知学的用户信息检索行为、用户特征与信息检索行为之间的关系; 2 基于特定人群的信息检索行为研究,主要是通过性别、年龄、组织团体、 职业等特征来划分人群,其中基于组织团体和职业类型划分的用户行为研 究处于主流地位; 3 信息检索行为的影响因素研究,这类研究将信息检索行为的影响因素划分 为内部因素和外部因素,然后再将这两种因素细化的基础上进行进一步的 研究; 4 基于用户检索行为研究优化搜索系统,丰要集中在如何设计检索界面、检 索界面功能设置、与用户互动机制及搜索结果排序优化的问题; 5 基于资源类型的信息检索行为研究,这类研究丰要是帮助特定资源类型的 服务商优化搜索服务,改进资源组合。 第二节关于搜索行为研究 一、国外关于搜索行为研究 a n d r e ib r o d e r 担1 提出了“任务驱动”的概念,他认为查询任务决定了用户的查 询需求,进而决定了查询词的选择;用户的查询任务包括导航类、信息类和事物类, 针对这三类任务可以使用不同的检索模型和参数;同时提出一个由任务驱动的模 型,用户依据查询语言构造查询,提交给系统,获取匹配查询的相关文档,在结果 的提示下,修改查询关键词创建一个新的查询,如图2 1 所示: “3 黄飞燕,徐静2 0 0 6 2 0 0 7 年国外用户信息检索行为研究述评图书馆建设,v 0 1 3 ,3 0 6 3 0 8 ,m a r c h ,2 0 0 8 ”a n d r e ib r o d e r at a x o n o m yo fw e bs e a r c h i ns i g i rf o r u m ,f a ll2 0 0 2 ,v o l u m e3 6n u m b e r 2 1 0 第二章国内外研究综述 图2 1 任务驱动模型 资料来源:a n d r e ib r o d e r at a x o n o m yo fw e bs e a r c h i ns i g i rf o r u m ,f a ll2 0 0 2 ,v o l u m e 3 6n u m b e r 2 r a q u e ln a v r r o p r i e t o ,m i k es c a i f e 等认为研究必须考虑用户、任务和信息 之间的相互作用,他们建立了一个理论框架来描述三者之间的相互作用,如图2 2 所示: ”。r a q u e ln a v a r r o p r i e t o ,m i k es c a i f e ,y v o n n er o g e r s c ( e - n i t i v es t r a t e g i e si nw e bs e a r c h i n g t h e5 t hc o n f e r e n c eo nh u m a nf a c t o r s t h ew e b 。 h t t p :z i n g n c s l n i s t g o v h f w e b p r o c e e d i n g s n a v a r r o p r i e t o i n d e x h t m l ,j u n e3 ,1 9 9 9 1 l 第二章国内外研究综述 图2 2 用户、任务和信息的相互作用 资料来源:r a q u e ln a v a r r o p r i e t o ,m i k es c a if e ,y v o n n er o g e r s c o g n i t i v es t r a t e g i e s i nw e bs e a r c h i n g t h e5 t hc o n f e r e n c eo nh u m a nf a ct o r s t h ew e b h t t p :z i n g n c s l n i s t g o v h f w e b p r o c e e d i n g s n a v a r r o - p r i e t o i n d e x h t m l ,j u n e3 。1 9 9 9 在研究中他们发现用户会有三种搜索策略,描述如下: 1 自顶向下( t o p d o w n ) :用户在一个很宽的范围搜索,然后依据链接逐步细 化范围直到找到目标,; 2 自底向上( b o t t o m u p ) :用户通过特殊的关键字来查询,直到找到目标为 止,多为有经验的用户使用; 3 混合策略( m i x e d ) :平行使用上述两种策略,同时打开多个窗口来查找信 息。 如图2 3 所示: 第二章国内外研究综述 发现事实 图2 3 搜索策略示意图 资料来源:r a q u e ln a v a r r o p r i e t o ,m i k es c a i f e i nw e bs e a r c h i n g t h e 5 t hc o n f e r e n c eo nh u m a n ,y v o n n er o g e r s c o g n i t i v es t r a t e g i e s f a c t o r s t h e w e b h t t p :z i n g n c s l n i s t g o v h f w e b p r o c e e d i n g s n a v a r r o - p r i e t o i n d e x h t m l ,j u n e3 , 1 9 9 9 k y u n g - s u nk i m n l 使用实验观测的方法研究了学牛如何进行搜索的过程。他将学 生按照搜索经验的多少和认知程度分为四组来完成两个不同的搜索任务,搜索花费 “2 k y u n g s u nk i m i n f o r m a t i o ns e e k i n go nt h ew e b :e f f e c t so fu s e ra n dt a s k v a r i a b l e s l i b r a r y & i n f o r m a t i o ns c i e n c er e s e a r c h ,2 3 ( 2 0 0 1 ) 2 3 3 - 2 5 5 1 3 第二章国内外研究综述 的时间和信息获取量作为衡量用户搜索成果的标准。结果发现在线搜索经验和 程度影响了搜索行为;而搜索经验还影响了任务完成的程度。 二、国内关于搜索行为的研究 朱明泉等n 1 探讨互联网信息搜索中用户与网络交互的行为模型。要求3 2 名 生或研究生被试完成不同类型( 开放型与封闭型问题) 的信息搜索任务,记录 搜索过程,并提取各类关键事件的发生频次和时间等数据进行分析。 王川l ,王大玲等心1 提出一种基于用户行为模型的搜索引擎思想,行为模型 人类行为学相关理论对用户访问行为进行分类和表示,从而实现个性化搜索。 将用户的“检索行为 分解成启始、中期和结束三个部分建立用户行为模型, 用户的有效检索动作建立出事行为模型,生成用户行为模型确认集,在此基础上提 出一个原型系统s e b 。费巍,黄如花口1 从用户利用搜索引擎的角度分析搜索引擎存在 的问题和使用障碍,对用户检索行为和检索过程进行了分析,提出一个基于用户信 息分析的搜索引擎优化模式,让知识牛产者、知识组织者和网络用户构成一个搜索 引擎优化的外部环境,从与搜索引擎形成一个完整的信息链。 刘奕群,岑荣伟等n 1 基于用户行为分析的思路,提出一种自动进行搜索引擎性 能评价的方法,此方法基于对用户查询和点击行为的分析自动生成导航类查询测试 集合,并对查询对应的标准答案实现自动标注。实验表明该方法的效果与人工标注 的效果基本一致。 “朱明泉,张智君,任衍具互联网信息搜索用户行为模型的探索性研究浙江大学学报( 理学版) ,第3 3 卷第 4 期,2 0 0 6 年7 月 2 j 王川,王大玲,于戈等基于用户行为模型的搜索引擎计算机工程,v 0 1 3 4 ,n o 4 ,f e b ,2 0 0 8 b 3 费巍,黄如花基于用户行为分析的搜索引擎优化策略图书情报工作,v 0 1 4 9 ,n o 1 0 ,o c t ,2 0 0 5 “1 刘奕群,岑荣伟,张敏等基于用户行为分析的搜索引擎自动性能评价软件学报,v 0 1 1 9 ,n o i i ,n o v 。2 0 0 8 1 4 一、国外基于搜索引擎日志的用户行为研究 搜索引擎日志是搜索引擎用户行为的记录,它反映了用户搜索的具体过程,是 研究用户行为的重要依据。国外研究者在上个世纪九十年代就开始对搜索引擎日志 进行研究。c r a i gs i i v e r s t e i n ,m o n i k ah e n z i n g e r ,h a n n e sm a r a i s , 和m i c h a e l m o r i c z 对a l t a v i s t a 搜索日志的使用可以看作是首次对大规模日志进行的研究,他 们所使用的日志来源于( w w w a l t a v i s t a c o m ) ,有2 8 0 g b ,包含六个星期内大约l o 亿条查询记录,主要对查询日志进行统计分析。s e d ao z m u tl u 幢1 利用基于美国e x cit e 和挪威f a s ew e b 的日志,探讨了用户搜索行为随一天时间变化而变化的关系,发现 一天中用户的行为是有起伏的;在早晨用户提交的查询比较长,数量也多;某些有 特征的查洵量保持平稳。b e r n a r dj j a n s e n 和a m a n d as p i n k 1 分析了来自 a 1 l t h e w e b e o m 的数据,丰要是欧洲用户提交的;研究发现欧洲用户提交的查询词 长度比较短,而且简单;搜索范围比较广泛。m i c h a e lc h a u ,x i a of a n g 等h 1 使用 美国政府网站的搜索日志进行研究,发现某些指标例如查询词的长度和普通搜索引 擎是一样的,但是搜索主题和查询词都有很大的不同,原因可能是用户有不同的信 息需求和关注焦点。 h c e n ko z m u t l u 和a m a n d as p i n k 睛1 等认为搜索引擎日志过于庞大不便于研究, 因此采用p o i s s o n 分布来进行抽样,对e x c i t e 的搜索日志进行研究,展示了样本集 c r a i gs i l v e r s t e i n ,m o n i k ah e n z i n g e r ,h a n n e sm a r a i s ,a n dm i c h a e lm o r i c z a n a l y s i so fav e r yl a r g e a 1 t a v i s t aq u e r yl o g s r et e c h n i c a ln o t e ,1 9 9 8 0 1 4 ,o c t o b e r2 6 。1 9 9 8 。“s e d ao z m u t l u ,a m a n d as p i n k ,h u s e y i nc o z m u t l u ad a yi nt h el i f eo fw e bs e a r c h i n g :a ne x p l o r a t o r y s t u d y i n f o r m a t i o np r o c e s s i n ga n dm a n a g e m e n t ,4 0 ( 2 0 0 4 ) ,p 3 1 9 3 4 5 ”1 b e r n a r dj j a n s e n ,a m a n d as p i n k a na n a l y s i so fw e bs e a r c h i n gb ye u r o p e a na 1 1 t h e w e b c o mu s e r s i n f o r m a t i o np r o c e s s i n g m a n a g e m e n t v 0 1 4 1 ,i s s u e2 ,m a r c h2 0 0 5 ,p a g e s3 6 1 3 8 1 m i c h a e lc h a u ,x i a of a n g ,0 1 i v i ar l i us h e n g a n a l y s i so ft h eq u e r yl o g so faw e bs i t es e a r c h e n g i n e j o u r n a lo ft h ea m e r i c a ns o c i e t yf o ri n f o f j i a t i o ns c i e n c ea n dt e c h n o l o g y ,5 6 ( 1 3 ) :1 3 6 3 1 3 7 6 , 2 0 0 5 ”。h c e n ko z m u t l u a ,a m a n d as p i n k b ,s e d ao z m u t l u a a n a l y s i so fl a r g ed a t al o g s :a n a p p li c a t i o no f p o i s s o ns a m p l i n go ne x c i t ew e bq u c r i e
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025海南临高县拆迁安置工作服务中心招聘公益性岗位2人笔试考试参考试题及答案解析
- 2026天津市卫生健康委员会所属天津市海河医院招聘44人笔试考试备考题库及答案解析
- 2025广东机电职业技术学院第四批招聘事业编制人员5人考试笔试备考试题及答案解析
- 2025四川华丰科技股份有限公司招聘计量工程师等岗位3人笔试考试备考试题及答案解析
- 2025四川省巴蜀文艺发展基金会招聘工作人员1人考试笔试模拟试题及答案解析
- 吉水县园区开发建设有限公司2025年面向社会公开招聘1名司机笔试考试备考题库及答案解析
- 2025四川攀枝花市仁和区金江镇卫生院招聘药房工作人员1人考试笔试备考试题及答案解析
- 2025新疆图木舒克恒正检验检测技术服务有限公司招聘1人笔试考试参考题库及答案解析
- 首都医科大学附属北京朝阳医院面向应届毕业生(含社会人员)招聘155人笔试考试参考试题及答案解析
- 2025年宝鸡千阳县中医医院招聘(2人)笔试考试备考题库及答案解析
- 2025江西金融租赁股份有限公司社会招聘10人笔试考试备考试题及答案解析
- 浙江省通讯C类安全员考试试题(供参考)
- 家政培训老年人护理
- 党的二十届四中全会精神丨线上知识有奖竞答题库
- 组织文化论文题目选题参考
- QC/T 273-2025汽车用铝合金压铸件技术条件
- 大量出血患者的输血方案
- CRRT授权管理制度
- (正式版)HGT 22820-2024 化工安全仪表系统工程设计规范
- 急性冠脉综合征指南
- 旅游职业学院专业设置与调整管理办法
评论
0/150
提交评论