(计算机应用技术专业论文)基于社会化标签的移动音乐检索.pdf_第1页
(计算机应用技术专业论文)基于社会化标签的移动音乐检索.pdf_第2页
(计算机应用技术专业论文)基于社会化标签的移动音乐检索.pdf_第3页
(计算机应用技术专业论文)基于社会化标签的移动音乐检索.pdf_第4页
(计算机应用技术专业论文)基于社会化标签的移动音乐检索.pdf_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大连理工大学硕士学位论文 摘要 随着手机的普及,移动服务在中国逐渐拥有广阔的市场前景。移动技术的不断发展, 以及人们意识的转变,移动应用已经不再只是一种时尚。相对于互联网应用,在面对大 量的信息时,在移动设备上的应用由于受限的硬件条件,使得要快速准确的找到自己需 要的信息变得很困难。移动用户对检索提出了更高的准确率要求和个性化需要,因此移 动检索成为了一个拥有广阔市场前景的研究课题。在人们的娱乐活动中,音乐作为一种 重要的休闲方式,在移动应用中是不可或缺的。因此如何在适应手机等移动设备受限的 硬件条件下,为用户提供准确、个性化的音乐检索服务,是移动音乐检索需要重点研究 的课题。 本文首先介绍了移动音乐检索研究的实际意义。然后对移动检索的发展现状及移动 检索的实现方式进行了介绍。同时针对目前移动检索研究中常用的社会化网络技术,对 社会分类和社会化标签进行了详细的介绍。最后分析了目前互联网中音乐检索的主要研 究现状和实现方法。 本文引入音乐基因组概念,在此基础上对音乐的特征进行分析,利用对社会化标签 的统计分析得出用户在检索时对音乐特征的偏好度。然后利用音乐和音乐之间的标签关 系构建加权无向图,以音乐为结点,以音乐之间的关系为边,在随机游走和p a g e r a n k 算法的基础上计算出音乐在社会化标签基础上的热度。 本文以基于标签的检索模式为基础,并通过对用户行为的分析,提出一个能体现用 户输入辅助标签重要程度的函数来反映标签的衰减度。同时结合用户对音乐特征的偏好 以及音乐热度,对基于简单匹配方式的音乐检索模型进行改进。在此基础上设计了一个 基于社会化标签的移动音乐检索系统。利用人工参与的评价方法,通过对比实验,对系 统性能进行评测。实验结果显示该系统能够在适应手机等移动设备受限的硬件条件下, 达到较高的准确率并满足用户的个性化需求。 关键词:移动检索;社会化标签;音乐检索;随机游走 基于社会化标签的移动音乐检索 s o c i a lt a g b a s e dm o b i l em u s i cr e t r i e v a l a b s t r a c t w i t ht h ep r e v a l e n c eo fm o b i l ep h o n e s ,m o b i l es e r v i c e si nc h i n ag r a d u a l l yh a v ep r o m i s i n g m a r k e tp r o s p e c t w i t ht h ec o n t i n u o u sd e v e l o p m e n to fm o b i l et e c h n o l o g y ,郁w e l la st h e c h a n g e si np e o p l e sm i n d s ,m o b i l ea p p l i c a t i o n sa r en ol o n g e rj u s taf a s h i o n b u tr e l a t i v et o i n t e m e ta p p l i c a t i o n s ,a p p l i c a t i o n so nm o b i l ed e v i c e sf a c ed i f f i c u l t i e s t o q u i c k l ya n d a c c u r a t e l yf i n dt h ei n f o r m a t i o nt h e yn e e di nt h ef a c eo fag r e a td e a lo fi n f o r m a t i o n m o b i l e u s e r sp r o p o s eh i g h e rd e m a n d so nt h er e t r i e v a la c c u r a c yr a t ea n dt h en e e d so fp e r s o n a l i z a t i o n t h e r e f o r e ,m o b i l er e t r i e v a lh a sb e c o m eah o t s p o tr e s e a r c hf i e l dw i t hw i d em a r k e tp r o s p e c t i n p e o p l e sl e i s u r ea c t i v i t i e s ,m u s i c ,a sa ni m p o r t a n tl e i s u r ea c t i v i t y ,i si n d i s p e n s a b l ei nm o b i l e a p p l i c a t i o n s a sar e s u l t ,h o wt op r o v i d eu s e r sw i t ha c c u r a t ea n dp e r s o n a l i z e dm u s i cr e t r i e v a l s e r v i c ew i t ht h eh a r d w a r e c o n s t r a i n e dc o n d i t i o n so nm o b i l ep h o n e sa n do t h e rm o b i l ed e v i c e s i st h em o s ti m p o r t a n tr e s e a r c hf i e l di nm o b i l em u s i cr e t r i e v a l t i l i sp a p e rf i r s ti n t r o d u c e st h ep r a c t i c a ls i g n i f i c a n c eo fm o b i l em u s i cr e t r i e v a l a n dt h e s t a t e o f - t h e a r ta n di m p l e m e n t a t i o n so fm o b i l er e t r i e v a la r ep r e s e n t e d i nl i g h to fs o c i a l n e t w o r ka n a l y s i st e c h n i q u ec u r r e n t l yu s e di nm o b i l er e t r i e v a l ,f o l k s o n o m ya n ds o c i a lt a g sa r e g i v e na d e t a i l e di n t r o d u c t i o n t h ep r i m a r ym e t h o d so fm u s i cr e t r i e v a la r ea l s oa n a l y z e d i na d d i t i o n , t h ec o n c e p to fm u s i cg e n o m ei si n t r o d u c e di n t ot h i sp a p e r , b a s e do nw h i c ht h e c h a r a c t e r i s t i c so f m u s i ca r ea n a l y z e d u s e r s p r e f e r e n c eo nf e a t u r e so fm u s i ci st h e no b t a i n e d d u r i n gr e t r i e v a lu s i n gt h es t a t i s t i c a la n a l y s i so fs o c i a lt a g s aw e i g h t e du n d i r e c t e dg r a p hi s b u i l tb a s e do nt h er e l a t i o n s h i po fs o c i a lt a g sb e t w e e nm u s i c r a n d o mw a l ka n dt h ep a g e r a n k a l g o r i t h ma r eu t i l i z e dt oc a l c u l a t et h em u s i c a lh e a tb a s e do ns o c i a lt a g s i nt h i sp a p e r ,ar e t r i e v a lm o d e lb a s e do ns o c i a lt a g si sp r o p o s e d ,a n dt h r o u g ht h ea n a l y s i so f u s e rb e h a v i o r , af u n c t i o nc a l l e dl a b e la t t e n u a t i o nw h i c hc a nr e f l e c tt h ei m p o r t a n c eo f s e c o n d a r yl a b e l se n t e r e db yu s e r si si n t r o d u c e d t 1 1 em u s i cr e t r i e v a lm o d e lb a s e do ns i m p l y m a t c h i n ga p p r o a c hi si m p r o v e db yc o m b i n i n gw i t hc h a r a c t e r i s t i c so ft h eu s e r sp r e f e r e n c e so n m u s i ca n dm u s i c a lh e a t o nt h i sb a s i s as o c i a lt a g s o r i e n t e dm o b i l em u s i cr e t r i e v a ls y s t e mi s d e s i g n e d i n v o l v e di nt h eu s eo fa r t i f i c i a lm e t h o d sf o re v a l u a t i o n , t h ep 印e rc a r r i e so u t c o m p a r a t i v ee x p e r i m e n t so nt h es y s t e mt oe v a l u a t ep e r f o r m a n c e e x p e r i m e n t a lr e s u l t ss h o w t l l a tt h es y s t e mc a na c h i e v eah i g h e ra c c u r a c ya n dm e e tt h eu s e r sp e r s o n a l i z e dr e q u i r e m e n t s w i t ht h eh a r d w a r e c o n s t r a i n e dc o n d i t i o n so nm o b i l ep h o n e sa n do t h e rm o b i l ed e v i c e s k e yw o r d s :m o b i l er e t r i e v a l ;s o c i a lt a g s ;m o b i l er e t r i e v a l ;r a n d o mw a l k i i 大连理工大学学位论文独创性声明 作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究 工作所取得的成果。尽我所知,除文中已经注明引用内容和致谢的地方外, 本论文不包含其他个人或集体已经发表的研究成果,也不包含其他已申请 学位或其他用途使用过的成果。与我一同工作的同志对本研究所做的贡献 均已在论文中做了明确的说明并表示了谢意。 若有不实之处,本人愿意承担相关法律责任。 学位论文题目:趁耋巫笸碰塑煎塑盔玺篮 作者签名:二叠丝日期:型2 年j 三月三三日 大连理工大学硕士学位论文 大连理工大学学位论文版权使用授权书 本人完全了解学校有关学位论文知识产权的规定,在校攻读学位期间 论文工作的知识产权属于大连理工大学,允许论文被查阅和借阅。学校有 权保留论文并向国家有关部门或机构送交论文的复印件和电子版,可以将 本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、 缩印、或扫描等复制手段保存和汇编本学位论文。 学位论文题目: 作者签名i 导师签名: 日期:翌,2 年丝月皇生日 日期:丝乒年竺月孕日 大连理工大学硕士学位论文 1绪论 1 1 研究背景及意义 信息技术的不断发展,使人们的生活,学习,工作发生了巨大的变革。i n t e r n e t 技 术的发展缩小了人们之间的距离,人们可以方便的获取信息或交换信息。而如今移动技 术的快速发展,又使得人们消除了地点的限制,可以随时随地的快速获取信息。同时, 移动技术的发展也带来了巨大的经济效益和商机。根据中国信息产业部的统计结果显 示,截止到2 0 0 7 年8 月底,中国全国手机用户已超过5 1 5 亿户,手机的全国普及率已 经达到3 8 3 。随着手机等移动设备功能的不断增强,用户需要的不断增加,现有的移 动网络技术已经无法较好的满足用户的需要。2 0 0 8 年国内开始颁发3 g 牌照j 部分地区 开通3 g 业务。在今后的几年内,中国的手机将从语言为主的第二代产品和服务向第三 代( 3 g ) 过渡【1 1 。 在电信网、计算机网、有线电视网三网融合的背景下,手机作为一种新兴的媒体挑 战传统势力的前途大好1 2 。中国已经形成了世界上最大的移动电话市场,而不断增加的 手机用户使这个市场还在不断的增大。手机已经逐渐融入人们的工作和生活,成为工作 和生活中不可或缺的一部分。 手机等移动设备功能的不断增强,人们也逐渐开始通过手机设备和移动网络进行上 网,娱乐等各种应用,手机的应用已经不再局限于语音会话和短信通讯这两种传统的方 式了。这种用户行为的改变,为国内的移动市场带来了巨大的商业潜力,移动增值服务 也成为了商业界关注的焦点。国内外众多网络公司纷纷推出自己的移动服务。例如:中 国最大的电子商务网站淘宝网,面向大量的移动用户推出了手机淘宝服务。用户可以随 时随地使用手机登陆手机淘宝寻找商品,并可以通过手机银行转账等方式,进行方便的 购买商品活动。 同传统的i n t e r n e t 网络一样,面对不断增长的大量信息,移动用户通过手机等移动 设备经过无线网络请求服务的时候,同样不得不花费大量的时间去寻找自己想要的信 息。但是移动设备无论是在运算能力、网络速度还是屏幕显示的能力上都无法同传统的 个人电脑相比,这使得手机用户寻找有用信息变得更加困难。面对这种情况,在传统的 互联网中,用户通常是通过检索公司提供的检索服务去寻找自己想要的信息。因此面向 移动用户的移动检索服务便孕育而生。然而在移动设备受限的硬件条件下,传统互联网 上的检索方式无法照搬到移动设备中。如何能够让搜索引擎能够在适应手机等移动设备 基于社会化标签的移动音乐检索 受限的硬件条件下,快速准确的帮助用户寻找到所想要的相关信息,便成了移动检索所 要解决的主要问题。 移动检索以其巨大的商业潜力,受到了国内外众多公司的关注。例如:世界著名的 检索公司g o o g l e 针对手机用户推出了基于短信方式的天气查询,公交线路查询,参 观查询,股市查询等业务。国内著名的检索公司百度也相继推出了移动检索服务。同时, 许多新兴的移动检索公司也纷纷涌现。例如:悠悠村,明复等。 音乐无论是在传统的i n t e m e t 中还是在移动应用中,一直都是受用户关注度较高的 娱乐方式。彩铃是出现在移动应用中较早的一种音乐形式。2 0 0 2 年3 月韩国s k 电讯首 先推出彩铃,2 0 0 3 年中国移动在国内率先推出彩铃业务,之后各个移动服务厂商纷纷推 出自己的彩铃业务。经过几年的发展,彩铃业务已经在国内取得了巨大的成功1 3 j 。而如 今,随着手机性能的不断提高,移动网络的不断发展,移动用户对音乐的需求已经不再 仅仅局限于彩铃这种简短的音乐方式了,越来越多的用户开始使用手机查找音乐,下载 并欣赏。而面对数量众多的音乐,用户不可能进行一一视听或下载。尤其是当用户并没 有明确的结果需求,而仅仅是想随着自己当时的心情,随便找几首歌听听的时候,传统 i n t e m e t 上的音乐检索方式便无法满足移动用户的需求,用户很难找到自己真正喜欢的 或是需要的音乐。 目前的移动检索产品中较少有涉及音乐检索的产品。而移动音乐检索却有着众多的 潜在用户。每一个用户对音乐的喜好和理解各不相同,这就要求移动音乐检索要在满足 移动设备受限的硬件条件下尽可能的提高检索的准确性,并尽可能的实现检索的个性 化。因此,本文以移动音乐检索为先导,探讨如何能够更好地对移动用户提供个性化的 移动音乐检索服务。 1 2 本文主要工作及章节安排 本文首先打破传统的单输入框式的检索输入模式,提出基于标签的检索模式以及允 许用户在输入查询同时,输入相应的标签,对想要得到的结果进行描述。 当用户对结果需求并不明确的时候,允许用户仅仅输入描述性标签,对需要的结果 进行描述,系统则可以根据排序算法实现自动推荐。 本文对获取的社会化标签和音乐进行分析,构建音乐基因,对音乐内部基因和外部 基因分别进行分析,并在此基础上以音乐为节点构建无向加权图,利用随机游走算法计 算出每一首音乐的热度。同时针对用户输入的多个描述项,根据用户的通常输入习惯, 定义标签衰减系数来反映输入标签的衰减度。最终通过将音乐热度、输入标签衰减度, 大连理工大学硕士学位论文 音乐内部基因三者相结合对检索结果进行重排序,最终实现移动音乐检索的个性化,并 提高检索的准确率。 全文共分五章,第一章介绍了研究的背景以及意义。第二章介绍了移动检索的研究 现状以及目前的主要技术,包括f o l k s o n o m y 的研究现状以及音乐检索的研究现状。第 三章针对音乐的社会化标签进行详细分析,并在分析的基础上利用随机游走算法计算出 每一首音乐的热度。第四章详细介绍基于社会化标签的移动音乐检索系统设计,根据用 户通常的输入习惯提出标签衰减系数,并结合音乐热度和音乐内部基因提出基于社会化 标签的移动音乐检索模型。第五章通过对比试验,对系统模型进行分析评价。 基于社会化标签的移动音乐检索 2移动检索、社会化标签及音乐检索概述 本章主要介绍了移动检索的研究现状以及目前的主要技术,包括f o l k s o n o m y 的研 究现状以及音乐检索的研究现状。 2 1移动检索概述 2 1 1 移动检索定义 移动检索又称无线检索,是基于无线网络的检索技术的总称,是检索技术在移动平 台上的延伸。用户通过s m s ,w a p ,i v r 等多种接入方式进行检索,获取互联网信息、 移动增值服务及本地信息等信息服务内容【4 1 。同时,作为提供服务的移动检索服务商, 则需要对用户请求进行分析,根据用户请求,获取相关信息,对信息进行处理,使返回 的信息能够满足移动设备的显示要求。 移动检索的出现,打破了传统互联网检索的地域、网络限制,真正实现了随时随地 的检索。从功能上来看,移动检索和传统的互联网检索有着许多的相同之处。两者都需 要服务提供商将信息存放在本地,并对本地的信息进行预处理,并提供给用户一个检索 接口。用户通过这个检索接口,输入自己想要查询的内容,服务商根据用户的查询,对 本地的信息检索,并将处理的结果返回给用户。然而从技术上来说,移动检索和传统互 联网检索相比又存在很大的不同。相比互联网检索来说,移动检索要求更高的准确率和 更有效的个性化。这主要是因为手机等移动设备同p c 机相比在多个方面存在较大的差 异【5 j 。移动检索主要有以下特点【6 】: ( 1 ) 检索精度要求高。手机体积较小,用户不方便与移动检索系统进行交互操作。 同时,手机等移动设备较小的显示屏很大程度上限制了检索结果的返回。尤其是用户通 过s m s 方式进行检索,每一条s m s 只能显示7 0 个字符。这种情况下,传统互联网检 索那种返回大量的检索结果并交由用户去选择的模式便无法在移动检索中适用。这就要 求移动检索要有更高的检索精度。 ( 2 ) 较快的反应速度。虽然移动网络不断的发展,网络速度已经有和很大的提高, 但是还是无法同传统的互联网相比。网络速度很大程度上限制了结果的返回。通常情况 下,对于用户来说,较慢的返回速度比较差检索结果更让人难以接受。这对检索结果的 处理速度提出了更高的要求。 ( 3 ) 无时间空间要求,时效性高。移动检索具有随时性与随地性。用户可以在任何 时间、任何地点进行检索,获取即时的信息。 大连理工大学硕士学位论文 ( 4 ) 更高的个性化要求。用户的检索行为本地性较高,通常是针对用户当前所在的 地域进行相关检索。同时较少的返回结果要求移动检索必须对用户当前的需求进行分 析,对检索的结果进行适当调整,根据用户当前的需求返回给用户更加准确的信息。 2 1 2 移动检索的主要方式 2 1 2 1w a p 方式 w a p 是一种无线应用通讯协议( w i r e l e s sa p p l i c a t i o np r o t o c 0 1 ) ,是一个全球性的开放 协议,是移动通信与互联网结合的第一阶段性产物。w a p 浏览器是较早出现在手机系 统中的一种网络浏览器。用户可以通过手机系统中集成的w a p 网络浏览器浏览w a p 网站。服务商通过建立w a p 网站的形式为用户提供检索服务。用户只需登陆相应的 w a p 网络进行相关查询。这种检索方式,可以返回给用户大量的信息交由用户去选择, 在一定程度上缓解了返回结果的数量限制。但是这种方式对检索的速度有较高的要求。 移动网络受限的速度,很大程度上限制了w a p 检索方式的发展。而且通常较贵的w a p 网络费用,是大多数的用户对这种检索方式望而却步。 然而随着3 g 网络的开通,无线网络的速度得到了较大提升,w a p 协议标准也随之 升级,传输速率更快。同时,无线网络服务商的服务不断优化,逐渐为广大的普通用户 开通g p r s 服务,用户使用无线网络的费用不断降低,大量的手机用户开始使用手机访 问网络寻求服务,w a p 方式的移动检索服务又有了较快发展。目前诸如搜狐,新浪, g o o g l e 等国内外著名网络公司都有自己的w a p 产品及对应的w a p 方式的检索服务。 2 1 2 2 短信方式 短信方式下的移动检索,用户通过短信的方式向服务提供商预先设定好的固定号码 发送短信,检索系统对用户发来的短信内容进行分析,将分析结构发送后台进行检索, 并对检索的结构进行处理,最后以短信的方式将结果返回给用户。这种方式不需要用户 使用手机登录特定的网站,用户的检索成本较低,并且结果返回的速度也较快。对于手 机等移动设备来说,短信服务是最基本的服务,所以该检索方式被广泛应用。这种方式 成为了目前众多的移动检索公司提供移动检索服务的主要方式。g o o g l e 、百度、悠悠 村等国内外著名移动检索公司在提供移动检索服务时都是以短信方式为主。同时国内也 有相关的研究【7 1 。但是短信的方式对检索系统的返回结果有很大的限制。较多的返回结 果会分成较多条短信返回给用户。同时收到较多的短信,这是很多的用户都难以忍受的。 因此检索系统必须使用较少的内容准确的返回用户需要的结果,同时要求结果必须有很 高的准确性。 基于社会化标签的移动音乐检索 目前短信检索方式主要分为s m s 和m m s 两种。s m s ( s h o r tm e s s a g i n gs e r v i c e ) 是最 早的短消息业务,也是现在普及率最高的一种短消息业务。s m s 主要是以文本的方式进 行传输,无论是用户的查询输入还是系统结果的返回,都限制为文本方式。目前国内的 一条s m s 通常限制在7 0 个字符。m m s ( m u l t i m e d i am e s s a g es e r v i c e 的简称) ,中文名为 多媒体信息服务。中国移动公司将其定名为“彩信 。可以用于传送文字、图片、动画、 音频和视频等多媒体信息。m m s 方式允许用户将图片,音频等信息提交检索系统进行 检索。例如微软公司提供的移动检索服务运行用户将手机拍摄的图片发送至系统指定号 码。检索系统对图片内容进行分析,从互联网获取相应的信息,并将处理后的信息返回 给用户。这种检索方式解除了文本的限制,应用范围更加的广泛。 2 1 2 3iv r 方式检索 i v r ,( i n t e r a c t i v ev o i c er e s p o n s e ) 交互语音应答系统。i v r 业务,即语音增值业务, 是移动运营商由2 0 0 2 年开始启动的业务。该检索方式下,用户通过语音输入查询关键 字,通过i v r 系统,搜索引擎对用户的输入进行语音识别,根据用户的需要进行相应的 检索,并通过语音回答或其他方式将检索结果返回给用户。 i v r 方式允许用户使用语音的方式进行查询,使用较为方便。但对检索系统的技术 要求较高,系统需要能够准确的识别用户输入的语音内容。不同的方言,不同的说话方 式,不同的语言习惯都对i v r 方式检索提出了较高的技术要求。 2 1 3 移动检索系统模型 移动检索的系统模型如图2 1 所示。用户通过w a p 、短信、i v r 等接口将所要查询 的关键字或是查询短语交给移动搜索引擎处理。对于i v r 方式传入的查询,系统先进行 语音识别。然后搜索引擎根据用户的输入进行查询,并根据不同的接口对检索出的结果 进行处理。最终将处理后的结果通过相应的方式返回给用户。 2 1 。4 移动检索的主要技术 在移动检索的发展中,手机等移动设备受限的硬件条件是最大的障碍。如何能够在 有限的网络速度,较小的显示屏幕等硬件条件下最大化的满足用户的需要,是目前移动 检索技术面临的重要问题。同传统互联网的检索相比,移动检索要求搜索引擎要有更高 的准确性和更加个性化的服务。这也是目前移动检索研究的焦点问题。 为了解决这一问题,社会网络、p a g e r a n k 、网页分割等技术被广泛的应用到移动检 索领域,并且已经取得了一定的成果。目前根据不同的服务需要,所用到的技术和方法 也各不相同。 大连理工大学硕士学位论文 图2 1 移动检索系统模型 f i g 2 1s y s t e mm o d e lo fm o b i l es e a r c h 根据不同的需要,目前主要的处理方法有以下几种: ( 1 ) 对网页进行处理。网页检索是传统互联网检索中最为常见的一种检索服务。然 而对于移动检索较小的显示屏幕来说,互联网中传统的网页检索方式是无法直接套用 的。因此可以对返回的网页进行相应的处理,使之能够适应移动设备的显示屏幕。 首先是在结果的返回上,传统的互联网检索通常会返回给用户大量的网络连接,交 由用户去选择。而手机等移动设备的显示能力有限,这就需要在不影响检索精度的情况 下,尽可能的减少返回的结果数量。对于这方面的研究,k a r e nc h u r c h i s 等首先针对移 动检索中返回结果的显示问题,提出了一种移动检索结果显示的改进方法。他们在返回 结果时返回结果对应的标题和链接,同时使用简短的标签对相应的网页进行简短描述, 从而取代传统的文本摘要的返回形式,使其适应移动设备较小的显示屏幕。同时根据查 询相关性,利用相关或相似的查询来实现对结果排序的调整。这种方式能够使返回的结 果简短,并能够根据不同用户的相似查询和点击情况来对返回结果进行调整。但是这种 方法,用户很难通过简短的几个短语来了解网页的主要内容,或是判断该网页是否是自 己需要的结果。并且很多的网页都包含大量的不同信息或多个不同的主题,很难用几个 简单的短语来全部表示出来。 其次,对于多数的网页来说,包含有大量的无用信息,例如广告,图片等等。这些 大量的噪音信息不仅仅影响了结果返回的速度,同时手机较小的屏幕也无法较好的显示 基于社会化标签的移动音乐检索 这些信息。对于这一问题,目前较常用的方法便是网页的分割,提取出内容信息块,过 滤掉垃圾信息。主要的方法是根据网页编码中的标签对网页进行分割,根据用户的查询 返回给用户需要的网页块,或是将分割后的网页分块显示,由用户去选择所需要的内容。 g e nh a t t o r i l 9 】等人过去做了基于h t m l 网页标签关系的内容距离进行分割网页的方案, 但是存在和实际网页直观上的层次内容不相符的问题,于是他们又提出了一种混合的方 案,即在以前方法基础上,加入利用网页层次信息进行分割的方案,通过采用布局分析 器对h t m l 的伽l e , a n d t a g s 进行预处理,从而解决h e a d f o o t k l e f t e s t t i g h t e s t 等问题的分割,之后再进行内容距离计算,从而对网页进行分割,从其实验结果 看准确率、召回率和f 值均比传统分割方法有了较大的改进。其主要方法:结合内容距 离和层次信息进行页面分割 ( 2 ) 对检索结果进行重排序。为了提高移动检索的准确率和个性化,通常都需要根 据用户的需要或是习惯,对检索出的结果进行重排序。而在信息检索领域,p a g e r a n k 等排序问题一直是研究的热点,相关的方法可以借鉴到移动检索中。 k e v i nd u h 1 0 】等人使用部分标注语料,通过对排序因素的交互式学习,实现对检索 结果的排序调整。r i c h a r d s o n 1 1 】等人将链接和内容信息结合,对原始的p a g e r a n k 算法进 行改进。 结果排序算法的研究对移动检索有着很大的促进作用,移动检索对结果的前几位有 着很高的要求,很多排序算法都可以被应用到移动检索上。 ( 3 ) 利用社会化网络技术提高移动检索的个性化。随着社会化网络的发展,许多社 会化网络的技术被应用到移动检索领域。 p e d r ot i a g o l l 2 】等人将社会网络中的一些知识用于移动检索上。他们给出的系统分 为2 个逻辑部分,一个是本地的w e b 搜索引擎( l o c a lw e b s e a r c he n g i n e ) ,另一个是元数 据爬取( m e t a c r a w l i n g ) 。l o c a lw e bs e a r c he n g i n e 是一个管理移动设备自身中索引的检索 服务,这个索引可以根据数据的改变随时进行更新。这样记录的是该用户的历史信息; 可以使结果更符合用户的个人需要。而第二个逻辑单元m e t ac r a w l i n g 则是使用其他的 l o c a lw e bs e a r c he n g i n e 去获取结果。通过该用户的“邻居来获取结果,并将不同“邻 居 的结果进行整合。用户可以根据自己的喜好创建一个自己信任的圈子,也就是社会 网络中所谓的“圈子。而其理念是“io n l yd i s p l a yw h a t1w a n tt ow h o1w a n t ”。r u d y s c h u s t e r i t s c h t l 3 】等人对移动检索的个性化进行了深入的研究,提出在移动检索中,将用 户的查询记录作为下一次或是其他用户相似查询的一种影响因子。通过对新纪录不断的 学习,来调整返回的结果,使检索结果能够适应移动设备这种较小的屏幕,又能更好的 满足用户的需要。 大连理工大学硕士学位论文 通过分析可以发现,无论使用哪种方法,其最终的目的就是要使移动检索在满足手 机等移动设备受限的硬件条件下,提高检索的准确和个性化,为用户提供一个精确的, 个性化的移动检索服务,这也正是本文的目的所在。 2 2 社会化标签 2 2 1 社会化标签定义 随着w e b 2 0 和社会化网络技术的发展,互联网出现了诸如d e l i c i o n u s 和f i l c k r 之 类的网站。这些网站有一个共同的特点,就是允许用户自己的喜好对关注的资源添加标 签,并使用标签来使用和查找资源。用户从传统的被动接受信息的方式转变为主动、交 互的自由方式。这种用户自发、协同标注资源的现象引起了信息构建领域专家的兴趣【1 4 】。 2 0 0 4 年,t h o m a sv a n d e rw a l 第一次提出f o l k s o n o m y 一词。 f o l k s o n o m y 在国内被译为自由分类、社会化分类、民俗分类、大众分类等词。目前 比较常用的翻译是“社会化分类”。社会化标签是社会化网络和f o l k s o n o m y 发展的产 物。社会化标签的特点有【1 5 】: ( 1 ) 自由性。社会化标签完全来源于网络用户。用户对网络上资源的标注具有完全 的自由性和自主性。任何人都可以对自己感兴趣的资源进行标注,提供一个或是多个标 签,或是什么都不干,仅仅是浏览他人的标签。 ( 2 ) 共享性。对于用户来说,所有的社会化标签都是共享的。用户可以自由的查看 或是利用别的用户所标注的标签,自己标注的标签也会被他人查看或使用。当用户对某 一资源的标签不认可时,可以自己进行增加或是修改标签。 ( 3 ) 动态更新。随着大量用户的标注,资源标签信息不断的增加,资源的标注信息 得到不断的更新和丰富。 , 如今,f o l k s o n o m y 技术不仅被广泛应用到网络产品上,同时也受到了国内外众多学 者的重视。f o l k s o n o m y 技术的应用与研究;基于社会化标签的检索、分类系统;标签推 荐等都成为了近些年国内外研究讨论的热点问题【1 6 17 1 。 2 2 2 社会化标签的研究 社会化标签因其自由性和共享性的特点,能够很好的反映出网络用户的兴趣或行 为,这种用户产生的资源成为了目前研究的热点。社会化标签和社会化分类的研究主要 集中在以下几个方面1 1 8 】。 基于社会化标签的移动音乐检索 2 2 2 1 基于社会化标签的定量分析 通过对标签的分析,发现标签之间的关系。利用标签之间的关系对资源进行分类, 或是利用标签、用户、资源三者之间的关系对用户的多样性进行分析。 l a m b i o t t 等人【l9 】采用了概率论和数学建模的方法对专业音乐网站数据进行分析,发 现在使用标签对协同分类进行描述的时候,产成了由不同结点即用户、条目和标签构成 的三模网络。通过用户使用情况和标签之间的关系分析了这三个要素构成的无序网络。 并采用过滤技术来分析用户的协同行为。他们从中提取了协同过滤和分类之间的直接连 接关系,并在此基础上提出了协同社群中测量用户多样性的方法。 c h r i s t o p h e r 等人1 2 0 j 通过对t e c h n o r a t i 中排名前3 5 0 的标签以及分享同一标签文章的 相似性进行定量研究,分析了b l o g 标签分类的有效性。文中发现社会化标签在粗略的分 类体系中是有效的,但是在表明特殊的文章内容时是无效的。 2 2 2 2 基于用户的定量分析 在社会化标签的基础上分析用户的行为,通过这种分析,发现用户的个性偏好或是 用户与用户之间的相似关系,从而挖掘用户的潜在兴趣或是对用户行为进行预测,实现 个性化的推荐。 c i r o 等【2 i 】采用统计学和概率论的方法对d e l i c i o u s 和c o n n o t e a 中的标签进行了统计 分析,构建了用户使用协同标签的随机模型,该模型包含两个要素:对于他人标记活动感 知的用户偏好机制以及系统中标签的时效性。通过研究发现,尽管用户个体的认知过程 是复杂的,个体的分类、标记标签的行为是错综复杂的,但是在协同标签系统内,用户 普遍的标记行为却遵循着简单的活动模式。 s c o t t 等田】采用模型和图表研究了用户使用协同标签系统的规律以及协同标签系统 的结构、使用标签的频率、各种标签的应用、相关标签使用的稳定性的分析,认为社会 化标签可以反映出用户兴趣的发展变化。而这种变化的预见,可以帮助推荐系统对用户 的兴趣变化做出及时的反应,使服务更具个性化和人性化。 2 2 3 社会化标签的缺陷 通过研究发现,社会化标签虽然能够很好的反映用户的行为和兴趣;但是如果单纯 利用社会化标签对检索结果进行重排序,往往存在以下两个问题: ( 1 ) 社会化标签的自由性同时带来的负面影响就是盲目性。由于用户的文化水平等 种种的差异,造成不同的用户对同一个资源会有大相径庭的认识。而这其中包含很多对 于资源来说是错误的描述。同时网络上也不乏有用户为了让某一资源被更多的人检索 到,人为的将大量不相关的标签贴到该资源上。还有一些标签仅仅起到标记的作用,比 大连理工大学硕士学位论文 如说“h o w t o 、“t o r e a d ”等,对于其他的用户是没有用处的。上述这些标签对于改 进检索结果排序来说是大部分是噪音信息,对提高检索的准确性和个性化不仅没有帮 助,反而有害,需要使用相关的方法过滤。 ( 2 ) 社会化标签可能会造成一部分资源的浪费。当资源被用户标注之后,用户检索 的时候往往习惯于从已经被标注或是标注信息较多的资源中进行选择。这就造成,被标 注多的资源会越来越受到用户关注,而对被标注较少的资源则因为含有的标注信息少而 始终不会被检索到,最终这部分资源无法被用户使用,造成了资源的浪费。 2 3 音乐检索的研究概述 音乐检索顾名思义就是通过搜索引擎寻找自己需要的音乐。音乐检索一直都是多媒 体检索中研究的热点。根据音乐的特点,目前的音乐检索技术主要分为两类:基于文本 的音乐检索、基于音频特征的音乐检索。 2 3 1 基于文本的音乐检索 网络中的音乐文件往往包含有大量的文本信息。比如音乐的歌词( 纯音乐除外) 、歌 手、专辑、时间等等。随着社会化网络的发展,如今的音乐文件通常还包含大量的用户 标注信息。这些大量的文本信息构成了基于文本的音乐检索的基础。j 传统的基于文本的音乐检索同其他常规的信息检索一样,通过音乐中的文本信息来 表示音乐资源,对这些文本信息建立索引。通过查询关键字来检索资源,并按照一定的 标准对结果进行排序。目前市场上常用的音乐搜索引擎大多基于这种方式。国内外对这 方面的研究也较多。郑亚斌【2 3 】等人对中文歌曲的歌词信息进行统计,统计出关键性词语, 并使用向量空间模型,k 邻近分类算法,找到比较相似的歌词集合。同时,利用歌词文 件中的时间标签,通过对单位时间内歌词的分部情况来对歌曲的节奏快慢进行分类。并 根据歌词和时间标签信息,实现对歌曲的制定的位置切分。 社会化网络的发展,大量社会化标签的出现,为基于文本的音乐检索提供了新的思 路。许多学者开始利用社会化标签来提高音乐检索的个性化,社会化网络的技术也被广 泛的应用到音乐检索中。 2 3 2 基于音频的音乐检索 音频是音乐的一项重要特征。基于音频的音乐检索也是音乐检索的一个研究热点。 其主要方法是对音乐音频进行数字化处理,使用数字化的信息来表现音乐频率的变化。 通过数字化的音频信息分析音乐的类别等信息,对音乐实现分类或是相似性计算。 基于社会化标签的移动音乐检索 m i c h a e li m a n d e l 2 4 1 等人从音频信号中选取特征,通过对音频信号强弱的分析,从 中提取特征值,利用选择好的训练集对s v m 分类器进行训练,建立相应的模型,利用 s v m ,对相似音乐进行判断。以实现对音乐类型进行判定,分类。 基于音频的音乐检索目前的研究热点主要集中在哼唱检索中。即用户通过哼唱的方 式向搜索引擎发送音频片段作为的查询关键字,系统根据用户发来的音频片段实现检 索。音频检索的主要步骤包捌2 5 】:特征提取、音频分割、音频识别分类和索引检索。如 图2 2 所示: 图2 2 音频检索流程图 f i g 2 2 t h ef l o wc h a r to fa u d i or e t r i e v a l 基于音频的音乐检索系统,由于实现成本较高,且准确率相对较低,因此目前主要 出于研究阶段,实际应用的系统较少。 因此,本文的系统主要针对音乐的歌词等文本信息建立索引,在这些信息的基础上 进行检索,同时构成整个检索系统的基础。 大连理工大学硕士学位论文 3 基于社会化标签的音乐热度计算 本文使用音乐热度的概念来反映音乐受用户关注的程度。而在通常的大众化检索 中,用户往往受大众心理的影响,即对受用户关注度较高的结果更感兴趣。尤其是在社 会化标签下,用户通常会先从相对热门的标签入手,检索自己想要的音乐。因此,对音 乐的社会化标签进行分析,并在此基础上计算出音乐的热度是十分有必要的。 3 1 音乐标签分析 本文从“百度音乐网站 上爬取了3 8 0 7 0 首音乐及其所包含的5 9 0 种不同的用户标签 作为实验语料,同时从互联网上爬取这3 8 0 7 0 首音乐的歌词作为歌词语料。 为了便于对音乐标签进行分析,本文首先引入音乐基因组的概念,并在此基础上对 不同类别的标签进行分析。 3 1 1 音乐基因组 音乐基因组的结构如图3 1 所示: 图3 1 音乐基因组结构 f i g 3 1 m u s i cg e n o m es t r u c t u r e 基于社会化标签的移动音乐检索 基因本指携带有遗传信息的d n a 或r n a 序列,它控制着生物的个体性状表现。而 音乐的性状表现,也是由其自身多种不同特征共同决定的。本文通过音乐基因组的概念 来描述音乐的各方面特征。 对于一首音乐来说,有些特征是在用户欣赏音乐时可以直接感触到的。例如:音乐 的歌词还有旋律。这些特征对于一首音乐来说也是唯一的和无法改变。因此在音乐基因 结构中这部分特征被定义为内部基因。而对于一首音乐来说,仅仅有内部基因来表述是 不够的,还有许多其他的特征。这些特征在用户

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论