




已阅读5页,还剩10页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
北 京 师 范 大 学硕士研究生学位论文开题报告 论 文 题 目基于概念语义的个性上下文研究1、 立论依据(1) 选题的研究意义1.研究背景随着互联网知识的指数倍增长,知识服务越来越受到人们的重视,知识服务的相关研究和探索已经成为热点。在服务方式和服务特点上,知识服务更加强调面向用户目标驱动、面向知识内容的服务,强调用户问题的解决和知识增值,因此其提供的服务是专业化和个性化的服务、是自主和创新的服务、是动态集成的服务。Error! Reference source not found.然而,传统的知识服务在用户交互过程中存在着“服务语义缺失”和“服务个性缺失”的问题,采用一对多的模式,缺乏针对特定用户的个性化服务。高质量的知识分类体系和针对用户个性化信息的建模研究是解决知识服务中存在的“服务语义缺失”和“服务个性缺失”问题的关键。此方面理论和实践研究已经取得了一定成果:在国外,面向知识服务的智能推荐系统目前己被广泛研究和应用于电子商务、远程教育、Web网站建设、信息检索等领域2;国内学术界自2000年以来对个性化服务技术的研究也逐渐成为热点,国内也已出现了一些个性化推荐原型系统,一些信息服务数据库产品也推出了简单的推荐服务功能。虽然形成了较为丰富的研究积累,但还有许多问题有待深入研究和解决:1)高质量的知识分类体系(如本体)存在着构建成本高、不易维护、动态扩张性差等缺点;2)概念间语义关系大多要手动添加,自动获取的语义关系种类有限;3)目前用户个性化信息仍是以采用非结构化数据为主,在应用上也还处于比较浅显的层面,主要以用户显式定制和资源简单加工为主,用户个性化信息的描述大多采用关键词列表或关键词向量的字面处理方式,缺乏语义处理机制,无法处理用户多个方面的个性化特点,匹配处理和推荐反馈效果不佳;4)用户个性化模型刻画的过于简单笼统并且自适应性差,不能及时跟踪用户的变化;如何借鉴知识本体和语义方面的研究成果,从领域知识和概念语义的层面来更为规范、细致的描述用户个性化信息及资源内容,并基于此实现概念级的个性化匹配和资源组织模式,无疑对于提高个性化服务的应用效果和寻求个性化信息服务技术的突破具有重要的意义。2.研究意义 鉴于现有个性化知识服务的不足,本研究以国内外近几年来有关信息检索语义化、知识服务个性化和大众分类与本体结合的知识分类体系等方面的研究进展为基础,提出了“基于概念语义的个性上下文研究”。它对构建结构化资源组织方式和为用户提供个性化推荐服务具有重要意义。(1)提出大众分类(Folksonomy)与本体优势互补新框架,提供一种构建轻量级本体的新方式 大众分类和本体是目前主流的知识分类体系。大众分类的优势在于门槛低、易掌握、有利于个人知识管理、知识共享、鲜活动态,然而它的词汇自由不规范、缺乏语义关系,给资源组织和利用带来一些问题。本体的优势在于强大的表达性,能够支持自动推理、基于概念的检索和知识发现。它降低模糊性提高标准性并促进分享,但是本体的代价高使得推广难度大。3研究证明利用二者优势互补生成资源分类方式是可行的。本研究拟利用大众分类和本体的优势并结合数据计算研究的新进展,提出一种新框架为概念增加语义并自动生成轻量级本体。由此,弥补大众分类的语义欠缺和本体生成难的问题。(2)丰富了个性上下文研究的理论成果个性上下文研究主要包含对用户兴趣、角色、使用习惯等的研究。本研究拟提出与概念语义分类相映射的用户动态兴趣模型,是对基于知识本体进行用户兴趣建模的丰富与发展。在用户角色研究中,本研究拟在提出一种基于用户兴趣模型中细粒度兴趣概念的角色划分方式。这种方式将用户角色划分更细致准确,弥补了传统角色基于统计信息划分的死板和模糊。(2) 关键概念界定1.概念语义 概念语义(concept and semantic)一词近年来被广泛用于人工智能、情报学、图书管理等领域,但是目前并没有对此词的明确定义。这里所说的概念在形式上的表现是词,但并不是所有的词都是概念。概念是从语料中抽取出来的用于表明一类文档特征的标识词,一类文档可能有不同的概念来标识。概念语义就是概念的含义以及这些含义之间的关系,提取概念语义的关键是建立概念语义空间。 2概念语义空间概念语义空间,或称概念空间,到目前为止,并没有明确的定义,不同的学者根据其研究目的的不同给出了不同的解释。概念空间这一概念是由武汉大学邓路华于1983年在美国康奈尔大学教授G,索顿的信息检索系统代数模型的基础上,在图书情报数学一书中提出的。概念空间4的主要内容是: (1)概念及其之间的联系是空间的,多维的,一个复杂概念可由简单概念组配而成。我们将每个简单概念用一根坐标轴表示,那么任何一个复杂概念,例如一篇文献,一个提问,都可用这些坐标轴所代表的空间中的一个点来表示。引进了线性代数中的多维线性空间的概念,线性空间中的每个基本向量代表一个简单概念,任何用简单概念表达的复杂概念都可以用这个线性空间中的一个点来表示。这个表达概念的线性空间称之为概念空间。(2)概念空间中每两点之间的距离可以代表两个概念之间的亲疏程度,我们称之为相关系数。相关系数的定义使得概念间的相符程度能够通过计算得出。 何清5等认为所谓概念语义空间,就是对文本集建立的能反映文本集中概念之间语义关系的一个索引。Bruce R. Schatz6认为概念语义空间是在网络信息急剧增长的条件下产生的,它为快速、有效地组织海量、动态变化、半结化的网络文本信息提供了机器学习手段。在自然语言理解没有取得突破性进展之前,基于概念语义空间文本信息组织与检索,将在本世纪前十年起主要的作用。综上所述,概念语义空间的目的就是表示概念的含义及含义之间的关系。目前概念语义空间的表现形式包括概念分类(即一种概念描述的分层组织结构)、领域本体、概念语义网络、语义词典等。2.个性上下文 个性上下文又称用户上下文(U-Context)是上下文的一种,弄清用户上下文前必须明确上下文的含义。上下文(context)是很多领域都涉及和关注的概念,在普适计算、移动计算、Web应用、信息检索等研究领域中,上下文的建模与识别已经成为研究的重点与热点。不同领域学者对上下文有不同的定义:BREZILLON认为上下文是指与用户、应用程序及所处的环境之间交互相关的任何信息7;Dey定义的上下文 “就是指与用户和所处的环境之间交互相关的任何信息” 8;我国学者陈哲强等认为从Web services发展来看,上下文更应该是包括用户环境、用户偏好、用户需求和web services的执行状态的一系列信息9。本研究采用第三种对上下文的界定,因此,用户上下文是指包含用户环境、用户偏好、用户需求的一系列与特定用户密切相关的信息。(3) 国内外研究现状分析1. Folksonomy改进研究综述(1)国内研究分别以“Folksonomy”、“大众分类”和“大众分类”为关键字,选择中国博士学位论文全文数据库和中国优秀硕士学位论文全文数据库两个数据库,在CNKI上进行搜索。共搜得6篇论文,其中博士论文0篇,硕士论文6篇。这些论文的时间分布分别是07年2篇、08年1篇、09年2篇、10年1篇。其中07年的两篇是对Folksonomy的原理、内涵、实例等进行了介绍,其余4篇则是对Folksonomy的应用研究,都没有涉及对Folksonomy的改进研究。选择中国期刊全文数据库,在CNKI上进行搜索,共搜得65篇论文。只有5篇涉及到了对Folksonomy的改进研究。相对于国外的发展, 国内理论研究稍微滞后一些, 目前对Folksonomy的改进研究还刚刚起步,也仅仅是基于国外研究的基础上提出一些改进方法。王军提出了 Web 2 . 0环境下个人信息资源组织服务的语义工具10,如大众分类法将是一个需要关注和深入研究的问题。赖茂生等人提出受控语言与自然语言的融合、 网络环境下传统知识组织工具的改造与应用是该领域研究的前沿和重点11, 其中贾君枝总结了大众分类与受控词表的结合研究进展12,刘磊等提出一种提取大众分类语义层次关系的新方法13,张志友等提出了利用Folksonomy半自动构建和丰富本体并指出采用Folksonomy进而本体双向融合的方式是解决目前Folksonomy改进障碍的有效途径14。此外,大众分类法在促进用户信息交流和知识共享中起着重要的作用, 也逐渐进入研究者的视野。国内对大众分类的研究还处于起步阶段,大多研究停留在理论阶段,缺乏有力的实验论证。(2)国外研究 以“Folksonomy”作为关键字在ISI Web of Knowledge上进行搜索,共搜得176篇文章,其中关于Folksonomy改进研究的有38篇。目前对Folksonomy改进研究主要处理两个问题:一是概念提取;二是语义关系的建立。围绕这两个问题大众分类主要需要解决如下问题:1)标签的不受控制如命名的模糊性、错误拼写、缩写词、垃圾词等;2)同义词与一词多义问题;3)反应用户个人信息的标记4)标签的语义粒度不一致问题;5)语义关系缺乏,标签间缺乏联系。针对这些问题已经有了一定研究成果,这些研究大多遵循如下研究框架:1)标签预处理; 2)从标签自身计算语义关系;3)利用现有本体、在线资源丰富标签语义关系。(1) 标签预处理标签的预处理可以分为3个方面:标签去噪、相似标签聚类和低频标签过滤15。标签去噪是标签规范化的第一步,通过词典、本体及各种在线资源中的概念过滤掉非形式化和不规范的标签,对于拼写有误的标签可以通过Google词典等在线资源进行更正,最终建立标签与已有本体概念间的映射关系。相似标签聚类就是将形态相似的标签聚合在一起,主要处理的对象是形态相似和个人专有标签。对形态相似的标签通过分词技术对比差异,若只是副词等无关词有差异的则合并。对于词主干相同的聚为一类;对于用户个性标签的处理主要有两种方式:一是利用社会网络分析法来将标签区分为通用标签和专属标签16;二是通过为标签建立本体,通过为标签添加属性值将标签区分为个人标签和普通标签17。Folksonomy遵循幂率函数表现出长尾特性。低频标签过滤就是要过滤掉系统中存在的大量但是出现次数很少的标签。(2)从标签自身计算语义关系 Kome18的研究表明delicious中很大一部分标签都存在ANSI/NISO(American National Standards Institute /National Information Standards Organization)中定义的等级关系,从标签自身计算语义关系是很有必要的。这方面研究用到的主要方法有:聚类分析法和数学建模的方法。聚类分析法是基于词共现模型的,它根据标签间的共现频率定义标签的相似关系,然后以标签作为顶点,标签间的关系作为边形成网,通过给边加权或是根据关系紧密程度设定边的长短等方式可以反映标签间关系的紧密程度。通过分析标签网来发现标签间的语义关系,分析时常用到社会网络分析法和复杂网络分析法,常用的聚类算法主要有k-means算法和概念聚类算法COBWEB。如Mika19认为从Folksonomy中可以提取出部分语义关系。他通过共现关系建立标签和用户、标签和资源的相关图,利用这些图集合相关的标签来分析标签间的语义关系。比如,如果许多人同时使用“慢跑”和“跑步”来标记同一资源,那就说明这两个标签具有语义关系;如果被标记标签“慢跑”的分组资源是被标记“跑步”分组资源的子集,那么标签“跑步”就比“慢跑”的概括程度更高,是上级概念。这种方法虽然能发现基本的语义关系,但是这种关系比较零散并不明确。数学建模的方法主要包含概率模型和包含模型等。patrick Schmitz20利用Flickr中的标签生成本体时利用了包含模型。首先对Flickr中的每组标签进行词频统计并记录标签的共现率,基于父类包含子类的思想,将所有标签之间的关系表示出来最后再去掉子类与隔代父类的关系来建立层次结构。这种方法简单但是效率低,在数据量大的时候准确度会提升。Meo21等人提出利用概率模型提取folksonomy的语义关系,进而形成分级的数据结构来支持用户的检索。这种方法有两个创新点:一是提出的概率技术有利于更好地区分标签的相似性和概括关系;二是提出两个基于标签粒度和语义的等级结构和与此相关的运算法则,这就使用户可通过标签的粒度找到感兴趣的标签,进而找到满足用户检索需求的标签。 从标签自身计算语义关系往往要涉及到标签相似度的计算,常用的计算方法有欧几里得距离(Euclidean distance)计量法、 Jaccard 系数法 (Jaccard Coefficient)、余弦相似度(Cosine Similarity) 法、向量空间法、皮尔森相关系数(Person Correlation Coefficient)法等。如Paul22采用余弦相似度计算法计算标签的相似度并基于相似度利用贪心算法遍历标签生成层次关系;Wen-hao Chen23等人采用向量空间法计算标签的相似度,采用从下到上的方式来生成标签的层次关系。虽然通过计算标签自身的语义关系能发现一定的语义结构,但是无论从数量还是质量上与本体相比仍是不够丰富和准确。(3)利用现有本体、在线资源丰富标签语义关系 随着语义web和web2.0的快速发展,本体和大众分类日益引起人们的重视。作为目前主要的两大知识分类体系它们相互独立又紧密联系。一方面,本体自上而下的组织模式,缺乏灵活性和扩展性;另一方面,大众分类自下而上的组织模式虽灵活易掌握但是缺乏语义、准确性和可复用性。因此,将本体和大众分类结合在一起构建一个混合的知识分类体系具有很大的潜力,这也是folksonomy改进研究的关键领域。仅仅依靠Folksonomy本身的结构来提取语义虽然简便易行但是并不能彻底改变其语义缺乏的现状。因此,通过特定方式补充folksonomy的语义是很好的方法。此方面的研究主要分为:通过构建Folksonomy的本体模型来发现语义、利用已有语义资源增强folksonomy的语义。1) 通过构建Folksonomy的本体模型来发现语义 Gruber24在他的文章中指出Folksonomy和本体在语义web中不是绝对对立的,它们是有可能互相补充的,并提出利用本体为大众分类建模,从而将大众分类变的更加形势化和清晰。在标签本体中采用了四个实体来描述标签系统:标记的对象或资源;用来标记的术语;用户标记;标记发生的范围。随后Echarte25等人扩展了Gruber的标签本体模型,该模型采用了OWL语义并将标签的本体的分类扩展到七个:来源、标记的对象、标记的术语、标记的人、用户标记行为、标记标签、极性,并且标记的术语拥有两个子类来区分个人标签和普通标签。这个改进的模型有助于处理标签中的同义词和个人标签问题。 Pan26等人提出一种用本体扩展大众分类的检索服务来减少标签系统模糊问题的方法,具体做法是首先明确本体和关键词如何相关,即这些关键词与本体的分类,属性和实例是如何相联系;然后通过个体属性值扩展、个体类扩展和个体属性扩展分别得到一套与所有个体相关的关键词、一套与所有个体类相关的关键词以及一套与所有个体的属性相关的关键词。这种在本体构成因素基础上扩展大众分类检索的方法,能够得到更多有意义的检索结果,满足用户的检索需求。2)利用已有语义资源增强folksonomy的语义。此方法主要是指利用有用的语义资源(如本体、语义词典、词表等),将已有的概念间的语义关系引入大众分类中,丰富大众分类的语义关系。Passant27提出用本体(主要是指领域本体和SIOC vocabulary)增强社会标签系统的博客界面。这个方法通过建议用户联系他们所标注的术语和控制过的词汇来消除标签的歧义。因此,如果一个标签对应两个不同的概念,系统就可以让用户选择最适合的概念。当一个概念不存在时,用户可以自己提出一个新的概念给管理员,管理员轮流把概念放在合适的本体上。社会标注系统有利于本体的构建,这反过来有利于消除标签的歧义。Angeletou28等人提出了FLOR的概念,它是一个自动整合词汇网(WordNet)和现有本体的知识自动富集folksonomy的机制。这种算法首先输入一组标签,然后通过词汇加工、词义确定和概念扩展、语义富集三个步骤,最后输出富集后的标签。随后,他们在先前研究的基础上,把上述方法的步骤扩展到四个:即词汇加工、词义确定和概念扩展、语义富集以及语义聚合,这样用户不仅可以找到合适的标签,更可以迅速找到一组组分组好的标签,更利于用户检索和查询。Damme29提出通过计算标签自身语义生成的层次结构图可以通过wordnet、swoogle等在线资源进一步补充完善,但是没有提到具体如何操作。利用本体、词表等将概念间的语义关系引入大众分类中有很大潜力,但是由于大众分类数据的非正式化导致本体和大众分类难以映射,因此具有一定局限性。2.用户偏好模型构建(1)用户偏好模型的概念一般来说,用户偏好可以被认为是关于用户特征信息的集合,通常采用可以表示用户偏好的关键词来进行描述。用户偏好模型不仅仅是对用户兴趣的准确描述,作为以计算机平台为依托的模型,可计算性是对它的基本要求。也就是说,用户兴趣模型不是对用户个体的一般性简单描述,而是一种面向算法的,具有特定数据结构的形式化的用户兴趣描述。为避免混淆,必须首先明确用户模型所指的范畴。从广义上来讲,关于用户模型有两个最基本的问题:l)谁拥有用户模型2)它是关于什么的用户模型。根据Gerhard Fischer30的论述,广义上的用户模型有三种:l)用户的概念模型这是用户头脑中关于计算机系统及系统所应具有的功能的模型,表示了用户对计算机系统的理解和期望。这种模型存在于用户的头脑中,通常是用户根据自己的经验,通过与系统的交互或相关手册、指南而得到的,该用户模型随着用户使用系统的经验的增加而不断完善。2)设计者的用户模型设计者头脑中关于用户的模型,是设计者对用户特征的描述,被设计者用来作为系统设计的基础。在同用户的交流中,设计者获取用户的需求,决定系统应当具备哪些功能,这些功能如何提供给用户。显然,如果设计者的用户模型和用户的概念模型是一致的,则系统的功能容易为用户所接受和理解,就越能发挥系统的功能。3)计算机系统的用户模型这是计算机系统中,尤其是软件中实际包含的用户模型。它是由设计者在设计阶段依据设计者的用户模型用计算机软件构造的,在系统的运行过程中实现的。在系统与用户交互时,它按照设计者的预先想法获取用户信息,建立对用户特征的描述。由此,可以看出用户建模是这样一个过程:设计者根据用户概念模型调整设计者用户模型,将设计者用户模型用软件的方法转换为计算机系统的用户模型,用户建模的最终目标是计算机系统模型。我们更加关心的是计算机所拥有的关于用户偏好特征的模型。(2)用户偏好建模分类 从不同角度划分,用户兴趣建模可以有不同的分类313233。归纳起来,用户兴趣建模可以作如下划分:1) 按照建模的对象和组成,可以分为群组用户集合建模和单个用户兴趣建模。前者主要从用户聚类和分类的角度考虑,后者则针对单个用户进行观察;2) 按照建模的信息来源,可以分为显式建模和隐式建模。前者基于用户主动提交示例或用户显式的标注、评价行为,后者则由系统来捕捉、积累用户的行为和信息内容;3) 按照时间尺度,可以分为长期兴趣建模和短期兴趣建模,前者描述用户较长时间的、比较稳定的兴趣偏好,后者描述用户近期的、短期的兴趣偏好;4) 按照更新方式,可以分为静态建模和动态建模。前者构建的兴趣模型长期不变、保持稳定,后者考虑了用户原有兴趣的衰减、变化和新兴趣的生成等;5) 按照表现形式,可以分为基于属性的兴趣建模和基于知识的兴趣建模。前者从用户的社会、自然属性特征(比如年龄、专业、学历、职业等)建立用户兴趣和属性特征之间的对应关系,后者则侧重于从主题内容的角度描述用户的兴趣,而不考虑其属性如何。6) 按照用户参与程度,可以分为用户手工定制建模、示例用户建模和自动用户建模。用户手工定制建模是指由用户自己手工输入或选择的用户兴趣建模方法,如用户手工输入感兴趣信息的关键词列表,或者是选择感兴趣的栏目等。示例用户建模是指由用户提供与自己兴趣相关的示例及其类别属性来建立用户模型的建模方法。自动用户建模是指根据用户的浏览内容和访问行为自动构建用户模型,建模过程中无需用户主动提供信息的建模方法。(2) 用户偏好模型的表示方式 用户偏好模型的表示方式和涵盖技术非常广泛,从简单的关键词表、用户-项目评价矩阵到复杂的人工智能表示方式都可以被采用。比较典型的用户偏好模型表示方式有主题关键词列表、加权关键词向量、用户-项目评价矩阵、基于本体论的表示等 3435。主题关键词列表法是最简单的方式,但是不利于用户知识共享和重用也体现不出用户兴趣的动态变化;目前比较流行的是加权关键词向量表示法是对主题关键词法的改进,该方法将用户兴趣模型表示成一个n维特征向量(t1,wl),(t2,w2),(tn,wn)。向量的每一维由一个关键词及其权重组成,权重可取布尔值和实数值,分别表示了用户是否对某个概念感兴趣以及感兴趣的程度。基于向量空间的表示法可以发现用户某一偏好的重视程度,但是用户偏好比较复杂,向量空间法没有考虑到语境问题使得模型不够准确。用户-项目评价矩阵法用一个mn的矩阵来表示用户偏好模型。m是用户数,n是资源数。矩阵中每个元素代表了用户对此资源的偏好程度,数值越大偏好程度越高。这种方法简单但是缺乏动态性,不能体现用户偏好的动态发展。基于本体论的表示法用一个本体来表示用户感兴趣的领域,如使用一个学术研究主题本体表示用户感兴趣的研究领域。这些本体通常采用层次概念树或加权网的形式:树的每个节点表示了用户的一个兴趣类;网则是在层次树的基础上,将概念间上下文关系之外的语义关系也引入进来。利用本体来表示用户模型的能够实现知识的重用和共享,包括用户间本体兴趣样本的共享以及与其他外部本体的知识交流与共享,另一方面则可借助于本体推理机制和语义关系更好的理解和处理用户兴趣。但是这种表示方法遭遇了所有基于本体论的系统所面临的问题:即本体的设计问题和实际可用本体的缺乏,这也使得很多研究大多停留在理论设想或简单描述阶段。目前基于知识本体进行用户建模是一种新的研究趋势,由于本研究采用这种方式而此方式不需要机器学习因而在此对机器学习方法不再论述。利用知识本体进行用户偏好建模主要有以下特点:1)无需机器学习,直接从用户数据中提取内容概念,通过映射知识本体所含概念来指导用户细粒度兴趣发现。执行效率和准确度高。2)具有良好的扩展性,由于知识本体是可以动态扩展不断完善的,因此由此方式生成的用户偏好模型也具有良好的可扩展性。3)易实现用户偏好的动态变化。由于知识本体来表示的用户偏好模型对用户兴趣的描述比较细致,因此对于用户兴趣的变化捕捉的比较准确合理。4)利用知识本体,有利于形成用户偏好的层次结构,兴趣也可以分主题和类别。可以通过下位概念填充上位概念,能比较清晰的描述用户相对抽象、稳定的上位兴趣主题,也能反映用户相对具体、短期的下位主题兴趣。(3) 用户偏好模型的进化机制 随着时间的推移,用户兴趣不仅会在内容上发生变化,而且对由于的兴趣的关注度也会发生变化,呈现出兴趣漂移的现象。这就需要用户偏好模型能及时反映用户兴趣的变化使用户偏好模型需要具备良好的自适应性。研究者们针对用户偏好变化和漂移的问题进行了一定研究,主要包含两方面内容:一是考虑用户偏好的衰减、遗忘,常用的方法是窗口控制法和遗忘函数;一是采用机器学习技术不断收集用户的新信息,从而获取用户偏好上的新内容,比较常用的机器学习技术有TF-IDE、贝叶斯分类器、决策树归纳、神经网络和自动聚类等。1) 窗口控制法时间窗控制法主要用于控制纳入用户偏好模型计算处理的信息总量,根据控制的定量标准,可以分为时间窗控制和滑动窗口控制。前者考虑通过划分时间段来观察用户的行为和兴趣偏好,后者主要用于控制信息数量上,比如设置用户兴趣点上限。2) 遗忘函数遗忘函数主要考虑了用户偏好的衰减问题,认为随着时间的推移,用户兴趣主题会此起彼伏。我国学者蒋萍等36人认为对用户偏好模型更新时不仅要添加新的兴趣特征词还要调整已有的特征值的权值,即将特征词权值乘以遗忘因子F(x)进行修改,逐步淘汰老化的特征词。遗忘因子F(x)为:F(x)=其中cur表示当前日期,est表示兴趣特征词第一次出现在模型中的日期,hl表示半衰期,即讲过hl天后用户的兴趣遗忘一半。石晶等37将用户兴趣特征值按如下公式进行衰减处理:Newvalue=(oldvalue)(1-)其中newalue是新权值,oldvalue是原有权值,Mdate是上次访问到现在的天数,D为调节常数,表示完全衰减到0的天数。宋丽哲等38人通过结合时间窗控制法和遗忘函数法提出了渐进遗忘和滑动窗口相结合的方法。他们认为必须限定用户兴趣的总数量,当新加入的兴趣和前兴趣的数量之和超过规定的总数时,就必须考虑将部分兴趣移出。通过滑动窗口来处理,规定窗口的大小为L,当有多于L个兴趣出现时,单纯的滑动窗口是按照到来的先后顺序,将最初到达的兴趣移出,渐进遗忘和滑动窗口相结合方法是将对用户重要性最小的一个兴趣移出窗口.通过给兴趣特征值设置权重来衡量兴趣对用户的重要程度,采用遗忘函数计算,定义线性渐进遗忘函数c=(t)表示兴趣的权重随时间的变化:其中n为特征序列长度;i1,2,n为计数值,按照从最近选择的特征到第1次选择的特征的顺序,依次为i=1,i=2,i=n; k0,1表示遗忘的快慢,当k=0时表示没有遗忘,而k=1时,相当于滑动窗口,完全遗忘。由此可见,窗口控制法主要用来控制用户兴趣模型计算处理的信息总量,而遗忘函数或遗忘因子主要考虑了用户兴趣的衰退问题。由于用户兴趣的变化是一个复杂的过程,目前比较好的方式是将窗口控制法和遗忘函数结合起来运用。3.相似用户计算相似用户研究主要集中在协作过滤领域。协作过滤39是指分析用户兴趣,在用户群中找到与指定用户的兴趣相同或相似的用户,综合这些相似用户对某一信息的评价,形成系统对该指定用户对此信息的喜好程度的预测。协作过滤主要有基于记忆和基于模型的过滤。基于记忆的协作过滤主要分基于项目的协作过滤和基于用户的协作过滤,前者主要检测两个项目的协作相关性,然后利用用户对相似项目的兴趣推测用户对未知项目的兴趣而后者主要研究如何建立和应用相似用户群。在此,我们主要考虑相似用户的建立,对其他方法不再论述。基于用户的协作过滤主要通过用户-项目评分矩阵得到近邻相似用户,处理的对象是相似度矩阵。基于用户-项目矩阵进行用户聚类的总流程如下:图1.基于用户-项目的用户聚类流程图相似用户建立的核心思想是根据用户的相似性获得活动用户的若干相似近邻。主要分为四个模块:一是数据预处理,主要是完成用户对项目的评分数据的初步处理形成用户-项目矩阵;二是相似计算模块。用户相似度计算是决定用户近邻的主要方面,常用的用户相似度计算方法有余弦相似法、向量空间法、皮尔森相关系数等;三是聚类模块,在相似度基础上,应用层次聚类算法对用户进行聚类;四是结果的输出,主要是完成聚类结果的合理描述和输出。该方法简单、直接,通过聚类结果和k层次聚类可快速给出某一用户的相似邻居用户集。但是,此方法在用户-项目矩阵稀疏的情况下存在以下问题:一是此方法没有考虑时间因素,因此是基于用户全局出发进行的相似用户的生成,没有考虑到用户兴趣的动态变化;二是没有考虑用户偏好的实质内容,在数据稀疏时极易产生遗漏。比如两个用户分别访问了不同的文档,但是文档的内容是很相似的,但是通过此方法这两个用户的相似度为0;三是随时间推移和数据规模的扩大基于用户-项目矩阵的用户聚类处理的准确性会降低。二、研究方案(一)研究目标、研究内容和拟解决的关键问题研究目标:针对目前知识服务中存在的个性化语义缺失的问题,本研究提出了基于概念语义的个性上下文研究,主要包含了构建基于概念语义的用户偏好模型方法和基于概念主题的相似用户网络图生成方法。本体是体现概念语义的很好的方式,为弥补本体生成门槛高、成本大、不易扩展等问题,本研究提出利用folksonomy改进来生成易获取、易扩展的轻量级领域本体并基于此本体实现基于概念语义的个性上下文研究。研究内容:为了实现给目标,本文主要研究内容有:(1) folksonomy改进生成轻量级本体这一模块主要包含标签预处理、标签相关度计算和标签语义挖掘等内容,最终目的在于生成准确性较高并且具有丰富语义的基于大众标记的本体,为以后的研究打好基础。(2) 构建用户偏好模型构建基于概念语义的用户偏好模型主要包括收集用户数据、将用户数据概念化、标以权重并用衰减函数控制权重的变化、将用户兴趣概念与本体的概念进行映射、将用户兴趣根据本体中概念的上下位关系进行上位填充即上位概念的权重是自身的权重与子概念权重的集合,时间窗用于根据用户偏好概念的权重控制用户偏好的总数,最终形成若干个关于用户偏好的动态网。(3) 相似用户主题网络图本研究将基于用户偏好模型提出基于用户偏好内容的相似用户的主题网络图。具体的实现方法为:分粒度进行相似用户计算,首先基于用户底层概念进行相似用户计算,上位概念的相似用户包含所有自身的相似用户与子概念的相似用户的总和。采用相似度计算方法(如余弦相似公式)通过计算两个用户的底层偏好概念计算用户间的相似度,最终形成用户的基于偏好主题内容的相似用户网络图。(4) 验证本体生成、用户偏好模型和相似用户挖掘方法的有效性从开源标记网站(如delicious、hownet)上获取用户数据运用本研究提出的方法来依次生成标签的轻量级本体、用户兴趣模型和相似用户主题网络图并计算它们的准确度并分析方法的有效性。 拟解决的关键问题:(1) 标记语义关系挖掘生成轻量级本体,包括从标记本身挖掘语义关系和利用已有资源补充语义关系。(2) 用户偏好建模方法,主要是根据时间窗和衰减函数体现用户偏好动态过程的算法(3) 相似用户主题网络图的生成方法(二)拟采取的研究方法及可行性分析 采用的研究方法如下:l 文献调查法主要用于了解和把握国内外相关研究进展。l 比较研究法主要用于分析和比较folksonomy改进方法、分析用户偏好模型的不同构建方法、分析相似用户计算的方法等。l 实验法、抽样法,对folksonomy生成的轻量级本体、用户偏好模型和相似用户计算方法的有效性进行验证。可行性分析:l 本人研一做过人工智能这门课助教,对人工智能的基本算法有所了解;l 并参加过如下工作 搭建过两个基于本体的系统,对本体和语义关系有深入的了解; 使用过web2.0的一些网站,对标记有比较深入的认识; 对100多篇国内外相关文献进行了细致研读; 已经对folksonomy改进研究和用户偏好建模的相关研究进行了分析和总结。(三)本研究的特色与创新之处 本研究通过改进folksonomy生成轻量级领域本体,在此本体基础上构建用户偏好模型并进一步提出基于兴趣主题的相似用户生成方法。特色与创新:(1) 提供概念语义的本体生成方式采用了folksonomy改进的方法。(2) 用户偏好模型是在概念语义的基础上细粒度描述用户偏好的并且能动态进化。(3) 相似用户是基于主题概念的并且是以图的形式描绘相似用户间的关系。(四)预期的论文进展和成果研究阶段时间主要工作阶段性成果第一阶段:研究设计2010年9月2010年11月上旬 1文献调研:folksonomy改进研究、用户兴趣模型、相似用户计算等等。2研究设计(选题、形成研究计划)。1国内外研究现状分析报告(文献综述)2研究设计报告(开题报告)第二阶段:Folksonomy改进研究2010年12月2011年1月1确定Folksonomy数据预处理、相似度、语义关系等的算法 Folksonomy改进各阶段算法总结表2011年2月2完善利用Folksonomy生成轻量级领域本体完整的folksonomy生成轻量级本体的方法第三阶段:用户偏好模型建模和相似用户主题网络图生成2011年3月2011年5月1为基于本体的用户偏好建模 完成建模图及具体方法2011年6月2确定相似用户主题网络图生成算法写出相似用户生成算法第四阶段:实验验证2011年7月1从开源具有标记功能的网站如,delicious中抽取一定数据验证folksonomy生成轻量级本体的方法分析方法的有效性2011年8月2011年11月2 基于生成的本体和用户数据验证用户偏好模型和形似用户生成方法的有效性分析方法的有效性第四阶段:论文形成阶段2011年12月2012年4月1研究回顾、撰写论文;2修改论文;3论文定稿。硕士学位论文第五阶段:论文答辩准备阶段2012年5月做PPT,准备论文答辩。论文答辩PPT三、论文大纲四、 主要参考文献1党跃武.将知识服务进行到底基于知识交流的知识服务J.图书情报工作,2006(4):23-26.2于戈,王大玲等.Internet上支持高质量E-Services的个性化技术的研究J.计算机科学,2001(12):63-67.3Fefie Dotsika.Uniting formal and informal descriptive power: Reconciling ontologies with folksonomiesJ.International Journal of Information Management,2009(29):407415.4邓珞华.概念空间-它的定义、意义和局限J.高校图书情报论坛.2003(1):4-8.5何清,史忠植.机器学习与概念语义空间生成J.信息技术快报.2004(6):27-38.6Bruce R. Schatz, Hsinchun Chen. Digital Libraries: Technological Advances and Social Impacts J.IEEE Computer.1999(2):45-50.7BREZILLON P. Focusing on context in human-centered computing. IEEE Intelligent Systems, 2003, 18(3).8DEY A K,ABOWD G D,SALBER D.A conceptual framework and a toolkit for supporting the rapid prototyping of context-aware applications. Human-Computer Interaction Journal, 2001, 16(1).9陈哲强,周文彬,王文杰.基于上下文的个性化Web services组合研究J电子技术应用,2007(5):124-126.10王军,张丽. 网络知识组织系统的研究现状和发展趋势 J. 中国图书馆学报, 2008 (1): 65-69.11赖茂生,屈鹏,谢静. 知识组织最新研究与实践进展J. 图书情报工作, 2009( 1): 19- 23.12贾君枝.大众分类法与受控词表的结合研究进展J. 中国图书馆学报,2010(9):96-101.13刘磊,吴锡. 自由标签系统中标签的层次关系提取方法J. 小型微型计算机系 统,2010(2):302-306.14张有志,王 军. 基于 Folksonomy的本体构建探索J. 图 书 情 报 工 作,2008(12):122-125.15Specia L. Integrating folksonomies with the semantic web. 2008-02-15. /pdf/eswc072specia.pdf16Van Damme C,HeppM,Siorpaces R. FolksOntology: An integratedapproach for turning folksonomies into ontologies.2008-02-14.http:/www.kdecsuni- kasselde/ws/esw2007/proc/FolkssOntology.pdf1725Echarte F, Astrain J, Crdoba A. et al. Ontology of folksonomy: A new modeling method. 2009-08-20.http:/www.gsdun2avarra.es/gsd/files/condep /EcAsCoVisaakm07f.pdf18S. H. Kome. Hierarchical subject relationships in folksonomies. Masters thesis, University of North Carolina at Chapel Hill, Chapel Hill,NC,USA,2005(11).19Mika P. Ontologies are us: A unified model of social networks and semantics. 2009-08-20. http: /www.cs.vu.nl/pmika/research/papers/ISWC-folksonomy.pdf20Patrick Schmitz. Inducing ontology from flickr tags C.Proceedings of the Collaborative Web Tagging Workshop at the 15th WWW Conference (WWW2006), Edinburgh, Scotland, 2006.21Pasqule De Meo,Giovanni Quattrone, Domenico Ursino. Exploitation of semantic relationships and hierarchical data structures to support a user in his annotation and browsing activities in folksonomiesJInformation System 34(2009):511-535.22Paul Heymann, Hector Garcia-Molinay. Collaborative creation of communal hierarchical taxonomies in social tagging systems R. Stanford Info Lab Technical
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年虚拟现实技术在职业教育课程中的教学设计研究报告001
- 2025年医院电子病历系统在医疗大数据中的应用与优化报告
- 2025年医院电子病历系统优化构建医疗大数据分析平台报告
- 终身学习视角下2025年成人教育体系构建与平台运营的师资培训策略报告
- 2025年医药流通行业供应链优化与成本控制政策研究实践报告
- 2025年医药流通行业供应链优化与成本控制案例分析报告
- 保安证考试题及答案
- 安全员c证试题及答案
- 安全试题及答案和解析
- 零售私域流量运营的线上线下促销活动策划报告
- 2024-2025学年江苏省扬州市江都区高一上学期期中考试英语试题(解析版)
- 音乐欣赏:贝多芬第九交响曲音乐课教案
- 2025国家开放大学《人文英语1》综合测试形考任务答案
- 2024北京海淀区三年级(下)期末英语试题及答案
- 23G409先张法预应力混凝土管桩
- CJJ-T 34-2022 城镇供热管网设计标准
- 部编版语文二年级下册教案及教学反思(全册)
- 《高危儿童保健服务指南(试行)》介绍
- 肠道水疗课件
- 机动车排放定期检验规范(HJ 1237-2021)_(高清-最新版)
- 校核计算2D1290220对称平衡式无油润滑压缩机
评论
0/150
提交评论