(管理科学与工程专业论文)电子商务中基于商品分类本体的关联规则挖掘.pdf_第1页
(管理科学与工程专业论文)电子商务中基于商品分类本体的关联规则挖掘.pdf_第2页
(管理科学与工程专业论文)电子商务中基于商品分类本体的关联规则挖掘.pdf_第3页
(管理科学与工程专业论文)电子商务中基于商品分类本体的关联规则挖掘.pdf_第4页
(管理科学与工程专业论文)电子商务中基于商品分类本体的关联规则挖掘.pdf_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大连理工大学硕士学位论文 翁要 目前,通过w 曲进行商务活动带来的便利和它所产生的交易速度已成为电子商务 逐凝发震熬关镶攘魂力。对激子囊务交爨舅恚文静静镶凝胃鞋褥裂哭予群诲客户镣秀 和方式的普遍知识,扶而改谶服务,给客户个性化的界面,开展有钎对性的电予商务 以熙好的满足访问者的需求,扩大商机。 关联规则挖掘( a s s o c i 醺o nr 瑶em i n i n g ) 是数据挖掘研究的一个冀豢分支,其翻的是 为了发瑗交荔数撵库孛不弼帮晶之闰靛联系裁弱,霹淤雳来指导商家科学途安辩迸 赞、库存以及微架设计等,农电子商务领域可以用作商黼推介等。 目前许多荧联规则挖掘系统存在缺点悬以仅仅在数据内容上产艇规则,缺乏领域 籀谈,产生丈爨熬无霜戆戆谂。为了躲凌苏土趣嚣,零交提出基予本薅煞关联畿翅挖 掘。它的优点怒:( 1 ) 对于数据的更清晰的概括;( 2 ) 产生更少的规则;( 3 ) 可以进行多 屡次的泛化,得到更有意义的结果,揭示熙一般的概念;( 4 ) 可以用求挖掘层次岛层次 之嬲的关联援剿。 本文对萋予零髂豹关联蔑燕l 挖掘孛静3 今主要匏闻瓣进行了霹究:( 1 ) 赛鑫努类本俸 的构建方法和原则,以及使用u n s p s c 分类标准作为本体的优点;( 2 ) 对于产生的规则使 用r - 有趣进行糟简,并且进行适当得简化;( 3 ) 使用改进的a 呻r i 算法实现基于本体豹关 联爝粪l 笼撼鹣葵法。 在使用f o o d 删o o o 进行的实例验诞中,本文使用妇性作为开发谮言,使用j o 黼作 为本体引擎,完成了数据的预处理,使用t m 实现了关联规则挖掘算法,实现了孙有趣 熬攥粼糖楚,并麒在范例数据黪验 芷了算法的有效性。 关键词:本体;关联规则挖搠;t 吨r e e ;a p ri o r 电子商务中基于商品分类本体的关联规则挖掘 r e s e 甜o ho f 翘s o o i a t i o nr u l em i n ga 1 黼珊l i nb a s e do nc o m m o d i 够 c l a s s i f i o a 廿o n0 n t 0 1 0 斟i ne l e c 的1 1 i cc o m m e r c e a b s t | a c t 蚴,慷础删龇涮e d 砥娥峨& 漱则b 趣娃埝撇妞 磷翻恻醐蝴测髓瓣蕊馘嘶酝姆撼堍鲰龇潍簿 也e h l 0 1 璃e d 黼o f b 曲咖a n d 瑚舶e r 艚崃c 咖燃娜s m r o u g h 龇w e b l o g m 啦w 弛 1 l l e mi tc a n i n 婀附v es e r v i c p l 蛐r v i c e 8p e 删姆粕d 蹦删b l 蝻m s s0 p p o r t u n i 日c & a s s o c i 越撼列e 蚴i s 默呻燃雕i l l 融哦崤阻烨8 e 畦燃i s 韬艇赫燃蝴蠢妇粼湘蛾弧t 妇娥骶趣蝻溅潍 鲥朋衄c a l l y 躺加g es 础,翩忸g e 锄d 幽。l 、惯d 嘶me - c 0 础删钠e 舢地o dc a nb eu s e d i l l 懒ec ( 肛m 嘶p l o 】n 甜。挑 豫嫩醺瑚嫩越激蝴瓣舔麟娥糯戚e g 娃& 燃蛐鼯稚 溆瓤鞋龃她逸瓣醺髓砖糯。馥趣t 西溉妇鼢姆协g 髓鳓槭晷 t os 0 1 v e 妇p r o b l c 驰龇删d e p m p o 刚椰渐b 雠m e 曲幻l o 科渊w o ) t h e 抽蝴 o f m e n 神州瓣勰f o l l o 辄( 1 ) a d e a r e r 湖邺o f 恤d 淑( 2 ) l 髓s 州溉( 3 ) g e :唰龇0 f 删灏蛔娥瑚m 嘲畦翦g 烈豫皲廷。秘匹彘越- 女恐l a r m , 豫瓤i c l e 耀瑚磁赋雠趣翳勰劂辨志矧麓。l 1 ) 糯谢燃锹氇。 c 蚰o d 酊0 n t o l o 贸a n d 臁u n s p s cc 】嬲i 矗c a 疽h a ss 咖ea d h 删蟪 薛( 2 ) p n 黼龇删瞄 w i 也r i m 姗丑g ( 3 ) u 幽鬈岍v e d 州砸丽吐m 甜ct 0 栅1 p l e m e n t 剐孙帕 豫础k u 鳓硒酬雌蝴融煅t o 诚妇踟燃,溉溉妇e l o 戚髓 瓣避礅柏d 她j 躐勰蠛酾话影e n 秘始。暑趣j 跨蠡潞醛曩s 幽麦鑫舞糍翻糟耋。纽彝髑燃矗 逸蠢 a n d _ r i m 徽始n g i s 啦e d 协蛰掷州b a t l 拽s t 也e v a l i d 姆0 f 也e 脚m 的i s 、瑚j d a 倒 k 略w o r 出:o n 如l o 嚣;a 粼峨;a p 渤畦 f i 独创性说明 作者郑重声明:本硕士学位论文是我个人在导师指导下进行的研究 工作及取得研究成果。尽我所知,除了文中特别加以标注和致谢的地方 外,论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得 大连理工大学或者其他单位的学位或证书所使用过的材料。与我一同工 作的同志对本研究所做的贡献均己在论文中做了明确的说明并表示了谢 意。 作者签名:巡日期:坦! :! :! ? 人连理r 人学硕+ 学位论文 大连瑷工大学学位论文版权使用授权书 本学位论文l 乍者及指导教师完全了解“大连理工大学硕士、蹲士学位论文敝掇使用规 定”,同意大连理工大学爨辫并淘藿家有关帮f j 或橇稳送交学位论文豹复印 孛孝霜奄子舨, 允许论文被查阅和借阅。本人授权大连理工大学可以将本学位论文的全部或部分内容编入 有关数据库进行检索,也可采用影印、缩印或扫描等复制手段保存和汇编学位论文。 撵纛签名: 导师签名 五钲厶盟闩 火连理r 人学硕十学位论文 1 绪论 1 1 问题的提出 目前,通过w e b 进行商务活动带来的便利和它所产生的交易速度已成为电子商务迅 猛发展的关键推动力。另一方面,涉及客户端的电子商务活动也f 在进行着巨大的革新。 如果能够跟踪客户在w 曲上的浏览行为并进行模式分析,这样将会缩短销售商与客 户之间的距离,让销售商更了解自己客户的需求,有针对性的丌展电子商务活动。在 i n t e m d 上的客户都意识到,只要他们连接到一个在线市场的服务器上,就已经在这个服 务器上留下了一个“脚印”,这就是服务器的日志文件。我们就可以对客户访问留下的这 些日志文件进行w e b 的数据挖掘,提取关于客户的知t ,对客户的访问行为、频度、内 容等的分析,可以得到关于群体客户行为和方式的普遍知识,用以改进w e b 服务方的设 计。通过w 曲数据挖掘,就可以根据客户的访问兴趣、访问频度、访问时间动态地调整 页面结构,改进服务,给客户个性化的界面,丌展有针对性的电子商务以更好的满足访问 者的需求。 在电子商务中一般有以下几种数据挖掘技术的使用: 路径分析 关联规则的发现 序列模式的发现 分类规则的发现 关联规则挖掘是数据挖掘的重要研究课题之一,用于从大量数据中发现项集之间的有 趣的关联或相关的联系。一个关联规则的典型例子是购物篮分析,它结果可以用于在电子 商务中自动商品推介。关联规则在商业领域有着广泛的应用:关联规则能够协助企业决策 者完成市场分析,进行客户关系管理都有着重要的应用。 目前许多关联规则挖掘系统存在缺点是以仅仅在数据内容上产生规则,缺乏领域知 识,产生大量无用的结论。为了解决以上问题,应该在关联规则挖掘的过程中引入专家的 领域知识。本体是知识表示的一种形式,可以很好的将领域知识和关联规则挖掘算法结合 起来,从而获得更多的知识。基于本体的关联规则挖掘的优点还在于,它可以在高层次和 层次之间上进行数据挖掘,产生多层次的规则,所以基于本体的关联舰则挖掘是多层关联 规则挖掘的有效工具。 多层次的关联规则挖掘与单一层次关联规则挖掘相比优点在于: 可以产生一个对于数据的更清晰的概括; 电子商努中藏于商品分类本体的荚联规则挖掘 产生更少的规则。普通的关联规则挖掘产尘大爨的绒果,这螳结论完全由人来处理 湿然是很困难得。 可以进行多层次的泛化,得到更有意义的结果,揭示更般的概念。 层次与层次之间的关联瓶刚也很有角处,例如在购买商品后的商品推荐中。 本文主要璜究数镶挖撼中的多簇次关联凝剐挖掘。 1 2 国内外的研究f 青况 基于本体的关联规则挖掘主要涉及到两个方面的知识:本体和关联舰则挖掘,本文将 献这两个方面介绍磊前的研究情况。 1 2 1 关午本体的矫究 本体论是一个哲学上的概念,用于描述事物的本质。在近、二十年,本体论已被计 冀税领域所采稻,用于知识表达、知识共享及重两。许多学科和研究领城都在使用本体这 个术语,键存在不闲静定义。 e 较通震的说法是本锩是某领域连毂援念憋掇式淡明l ”,即恕残实 黢赛中粒菜个领域 抽象成一组概念如实体、属性、进程等及概念闻的关系,梅造出这个领域的本体,使计算 机对该领域的信息处理大为方便。如在医学领域,本体具有如下概念( “疾病”,“症 状”,“治疗”) 及关系( “疾病产生症状”,“治疗疾病”) 。 在计算机科学领域,对本体的摇述离不开传统的知识表示领域的发展,本体描述语言 税胃被看作是黻知识共享为蟊的雨设计的知谈表示语言。裔前程买体应用中本体论的传统 袭示方式主要窍4 ; : ( 1 ) 形式讫谖言; ( 2 ) 半非形式化语密; ( 3 ) 半形式化语言; ( 4 ) 形式化语言。 下面怒两种传统的本体描述语言: | ( 疆( 弛拊w l 。d g e 掀饿酶f o m 斌) 瑟q 是一稀为在不同计算梳系统之间交换知谈而 设诗麴嚣囊诗舞枧懿语意1 0 疆设计翡主要舀懿不燕为了与掰户交互,氇不是簧用它作为一 个系统内部的知识糖述避言,恧是作为一耱弱予不| 逻系绞闲遴行女识交互麴逶鼹语言。 框架逻辑语言( & 黼el o 西c ) 于1 9 9 5 年出酗f l 掰蚀大学玎发,其集成了框架和验 逻辑的表示方法。l n l el 0 9 k 将面向对象语茸和面向椴架语言的大多数结构特征以一种清 晰、陈述性的风格加以说明,比如对象标识、复杂对象、继承、多态类型、查询方法以及 封装等。 人连理f :人学硕十学位论文 随着w e b 及相关技术如x m l 的发展,还有很多语言标准可以用作o r l t 0 1 0 科的描 述语言。在基于) ( i l 的w e b 平台中,w 3 c 的标准x m l s ,r d f s 都可以用于表示 o i 曲l o 盱,或者说至少可以表示o r l t o l o 盯的某些方面。x o l 是基于儿的一种表示 o n t o l o g y 的建议。还有d a m l 标记语言和o w l 语言。都是标准的基于w 3 c 标准 i u ) f 瓜d f s 的o r l t 0 1 0 舒语言。下面章节讨论了这些描述语言。 o n t o l o g y 的应用很广泛,如知识工程、信息系统、企业管理、电子工程、化学工程、 远程教育、电子商务等。目前,o m o l o g ) ,正在人:r 智能、计算语言+ 学和数据库理论方面取 得特殊的作用。尤其是在像:知识工程、知识表示、定性建模、语言工程学、数据库设 计、信息建模、信息集成、面向对象分析、信息检索和提取、知识管理和组织、基于代理 的系统设计等不同研究领域,咖【t o l o g y 的重要性正得到认识。应用领域还涉及到:企业集 成、自然语言翻译、医药、机械工程、产品知识标准化、电子商务、地理信息系统、法律 信息系统、生物信息系统等,下面介绍几个常用的应用领域。 1 2 2 关于数据挖掘的研究 数据挖掘是随着人类进入信息社会以来对信息价值的认识不断提高而发展来的,是信 息技术自然演化的结果。 白8 0 年代以来,数据库技术的特点是广泛接受关系技术,研究和开发新的、功能强 大的数据库系统脚。快速增长的海量数据收集,理解它们己经远远超出了人的能力,大量 的数据被描述为“数据丰富,但信息贫乏”,数据的丰富带来了对强有力的数据分析工具 的需求h “。 对于数据挖掘( d m ,d a 协m m i n g ) 和知识发现( k d d ,k n o w l e d g ed i s c o w 叮i nd a 劬a s e ) 的确切定义长久以来存在着混淆。有学者认为数据挖掘和知识发现是等价的概念,人工智 能领域习惯称知识发现,而数据库领域习惯称数据挖掘,有的甚至将两个概念视为同义 词,也有学者把知识发现看作发现知识的完整过程,而数据挖掘只是这个过程中的一个部 分【6 】。 数据挖掘作为知识发现过程的一个特定步骤,是对数据及数据间关系进行考察和建模 的方法集,应用一系列技术从大量数据中提取人们感兴趣的、隐含的、潜在有用的信息和 知识,表示为概念( c o n c e p t s ) 、规则( r m e s ) 、规律( r e g l l l 撕t i e s ) 、模式口a t 咖1 s ) 等形式 【7 】。 由于数据挖掘源于多个学科,因此产生了大量的、各种不同类型的数据挖掘系统,对 它的分类可以帮助用户确定最适合其需要的数掘挖掘系统。 电子商务中基于商品分类本体的关联规则挖掘 根据挖掘的数据库类型分:有关系型、事务型、面向对象型、空间型、时间型、文 本型、多媒体型和异质数搦库如w e b 数据挖掘系统等。 根据发现知识的种类分:即根据数据挖掘的功能,如总结、特征化、关联、分类、 聚类、趋势分丰厅、偏麓分析等,一个全面的数稻挖掘系统应当提供多种或集成的数揩挖掘 功畿。 根摇采建豹技术分:麴甏超数据露或数据仓痒黪技术、橇嚣学习、统计学、稽经嬲 络、模式识别、可视化等飘8 j 。 从服贝4 上讲,数搬挖掘可以在任何类型的信爆存馕上进行,包括关系数握摩、数据仓 库、事务数据库、展开文件和w w w 。9 0 年代以来,数据挖掘和数据仓库结合起来,作为 决策支持的新技术得到迅速发展。 数据、数据挖掘任务和方法的多样健,为数据挖掘提出了许多挑战性的课题。数据挖 箍方法的箍出弓| 麓了学术拜和工监界的广泛关注,行艘了备种各样的研究计划,研究的主 要翳标蔻发震有美静方法论、毽论鞠工翼。 数据挖糕语言翡设诗,高散两商用静数据挖掘方法和系统熬开发,交互氍集成静数据 挖撼环境静建立,以及应照数攒控掇技术解决大型应掇润鼷,柩是器静数据挖掘研究入爨 秘应用开发人员所甄峻的主要阉题。薅成用豹探索、霹姊缨的数握挖撼方法、数据挖掘语 言的标准化、可视化数据摭掘、与数据麟和数据食库系统的集成、复杂数据类型挖掘购薮 方法、w e b 挖掘以及隐私保护和信息安全等将成为数搬挖搦的发展越势。 关联规则最早是由a g 同等人提出的,最初提出的动机是针对购物篮分析问题提出 的,其目的是为了发现交易数据库中不同商晶之间的联系规则,这螋规则刻画了顾客购买 行为模式,可馘篇来指导商家科学蛾安排进贷、库存以及货架设计等。之后诸多的研究人 员对关联蕊燹| j 的挖据问题遂行了大量的骈究,绝们的工作涉及翔关联窥翔的挖掘淫论的探 索、原有蠡冬冀法瓣改进秘耨算法静设计、势幸亍关联规爨挖掘r a i l e la s s o c 繇o nr d e 糙i 蠢珏g 戬及数量关联搜买挖握e 豫瞰t l 蛀e s 舡鼢c 柏r 糖em 遮i n g 等闷蘧。在提毒憋掘矮刚 冀法鲍效率、适戏性、可用性以及皮用撼广等方联,谗多学尝进行了不懈的努力。关联援 则的数据挖掘在齑业等领域的成功威用,使它成为数搬挖掇中最成熟、最主要、疑活跃的 研究内容之一。但是目前的关联规则挖掘算法也存在一些问题,这也正是本文研究的重 点。 大连理f :人学硕十学何论文 3 本文磅变肉粪疑缝绥结梅 本文对基于本体的关联规则挖掘进行了比较系统得研究。首先对现有的数据挖掘技术 和本体相关的知识进行了综述。然后对关联规则挖掘的相关算法以及本体论的相关技术进 行了分绥,重点溺逑了当裁关联麓列控攘中黪一些不足。针蹲这些不是本文疆基怒翘专鬟 ( 本体) 引入到关联规则挖掘当中,提出使用改进的a 嘶o f 算法来进行遂种关联规则的挖 掘。最后通过实际的系统来实现6 口面的算法。以下是各章内容概括: 策一章主要对本论文的背爨粒意义,及其溜内外相关研究状况进行了阐明。首先说明 了本研究的背景和警前系统得不足,援蹬了傻霜基于本体的关联蕊鬟按獭方法来竣避璇有 的方法。最后对园内外有关本体及关联规则挖掘的相关研究避行了综述。 篇二章对本文将要使用到的相关技术进行溉述,首先简述了数据挖掇的相关技术以及 美联瓣辩笼蕹魏羹餐俸震。第二节主要辩与关联凌羯毒关瓣镅关壤念帮羧零透露了奔绥, 最后节主要对本体的相关技术和发展方向做了介绍。 第三章在理论方面本文最熬器的章节,第节中对本体特别是f 巳予商务关联规则挖掘 中袋鲻刭粒齑晶分类本诲豹擒建缀噩l 逡行了阚主蠡,澄鹤了餐躅u n s p s c 构建本钵豹馕点。 第二节中对基于本体的关联规受日挖掘的相关 8 5 5 念进行了形试他的描述。第三节中针对燕子 本体的挖掘中遇到结果精简问题进行详尽的1 蜕明,给出了使用r 有趣方法精简规则的公 式。第四节中对纂予本体豹关联规则挖掘的募法进行了阐明,并且证明了糖关的定理。在 零寒的最后本文举例说明了这个箨法。 第四章对第三章提出的算法进行了验证。首先对使用数据,实验的软硬件条件,相关 的系统构架进行了说明。然后说明了如何具体实现本体构建,数据预处瑕,算法实现和规 剩戆穰筵。最嚣砖癸验缝会 笈惑了蕊终。 电子商务中基丁二商品分类本体的关联规m 恍掘 2 相关技术概述 基于本体的数据挖掘是一个多学科交叉的领域,它包括数据挖掘的相关技术和本体论 的相关技术。本章将就介绍这两个领域的知识。 2 1 数据挖掘及相关技术 数据挖掘( d m ,d a t am i 血培) 是从大量的、不完全的、有噪声的、模糊的、随机的实 际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的 过程。数据挖掘发现的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还 可以用于数据自身的维护。因此,数据挖掘是门广义的交叉学科,它汇聚了不通领域的 研究者,尤其是数据库、人工智能、数理统计、可视化、并行计算等方面的学者和工程技 术人员。 数据挖掘利用各种分析工具在海量数据中发现模型和数据问关系,这些模型和关系可 以用来做出预测。数据挖掘是一个工具,它仍然需要了解业务,理解数据,弄清分析方 法。数据挖掘只是帮助商业人士更深入、更容易地分析数据,它无法告诉某个模型对企业 的实际价值,而且数据挖掘中得到的模型必须要在现实生活中进行验证。 ( 1 ) 数据挖掘的分类 数据挖掘涉及的学科领域和方法很多,有多种分类法。根据挖掘任务,可分为分 类或预测模型发现、数据总结、聚类、关联规则发现、序列模式发现、依赖关系或依 赖模型发现、异常和趋势发现等。根据挖掘对象分,有关系数据库、面向对象数据 库、空间数据库、时态数据库、文本数据库、多媒体数据库、异构数据库、遗产数据 库以及w e b 。根据挖掘方法,可分为机器学习方法、统计方法、神经网络方法和数据 库方法。机器学习包含归纳学习方法、基于案例学习、遗传算法等。统计方法包含回 归分析、判别分析、聚类分析、探索性分析等。神经网络方法包含前向神经网络、自 组织神经网络等。数据库方法主要时多维数掘分析方法,另外还有面向属性的归纳方 法。 ( 2 ) 数据挖掘的应用 数据挖掘的应用十分广泛,各个领域在) d 应用上既有相同之处,又有各自不同的 独特地方。以下是数据挖掘技术的一些典型应用领域: 科学应用 大连理 久学颈+ 学位论文 在科学磷究( 特别是实验科学釉计算科学鲍职究) 中,霉要分褥套秘大爨戆实验或鼹测 数据,如观测卫星、遥感器、d n a 分子技术等,传统的数据分析工具效率较低甚至光能为 力,因此必须肖强大的智能型自动数据分析工县。 市缓镝售 是数据挖掘技术应用最早也是最重要的领域。主要功能是:市场定位,消费者分析,预 测销焦趋势,优化营销策略,分瓠露存零求,谈剐顾客豹赡买行为模式,协髓货架孝爨, 制定促销活动时间,促销商品组合以及了解滞销和畅销商品状况等商业活动。 金融 典型携金融分辑镰域毒投资滔售蠢黢鬃交易毒跨鞭测,分掇方法一黢采箱模登鞭测法 ( 如神经网络或统计回归技术) 这方面的系统肖f i d c l 时s t o c ks e l e c t o r 。任务煅使用神经网络 模型选择投资;l 圆se a p i t 氇lm a n a g o 涨眭使用了专家系统、神经网络和基因算法技术辅助管 理多达6 亿美元的有徐滋券。 欺诈甄别 分褥银行戏爨验客声豹要求稚售誉, 溺获漤行为,露恶经透支等。遂方瑟痘甏赣豢 成功的系统有:胁也c o n 系统和f a i s 系统。f a l c o n 最h n c 公嗣的开发的信用卡欺诈估 测系统,它已被相当数燃的零售银行甩于探钡4 可疑的信瘸卡交易。f a i s 是一个用于识别与 洗钱有关懿金融交荔的系统,它使糟韵是一般的政府数据表单。 i n l 眦1 e t 的应用 霆蘸这方露魏研究主要寿嚣个方嚣:骚囊l 耨豹更驽静索引系统、摹l 愆己鸯素弓l 系统或援 索引擎开发商层次的搜索或发现系统。相比之下,后者的研究更为活跃。从技术上看,自 动文档分类或归类方法将对这方面的研究有缀大作用。 2 2 关联规划挖掘及相关技术 关联规则最早是由a g 啪嚏等人提出的,最初提逝腔动枫是针对购物然分析闻题掇出 的,其蠢静是为了发现交易数据霹中不嗣裔晶之闯的联系规则,这些糯受刻画了顾客购买 行为模式,可以用来指导商家科学地安排进货、库存以及货架设计等。 ( i ) 关联髅飕熬基零概念窝闻蘧整透 设i = i i ,i 2 ,是项的集合,其中的元素i m 称为项。记d 为交易t 的集合,这愿交 易t 是项的集会,且有取,对应每一个交易有唯一的标识。 一个关联规虽l 是形魏a - b 黥蕴含式,这擐a 和b 为顼羁集,a 、b i 并照an 1 3 娜。 关联规则a = b 在交易数据库中的支持度( s u p p o n ) 被定义为:包含a 和b 的交易数与所有 电子商务中基于商品分类本体的关联规0 挖掘 交易数之比。规则a - b 在交易数据库中的可信度( c o n f i d e n c e ) 是指包含a 和b 的交易数 与包含a 的交易数之比。如果一个项目集x ,它的支持度大于用户给定的最小支持度,则称 x 为频繁项目集。给定一个交易集d ,关联规则的挖掘就是要发现所有支持度和可信度分 别大于用户给定的最小支持度( r n i ns u p ) 和最小可信度( m i nc o 曲的关联规则。 ( 2 ) 经典关联规则挖掘算法a 口r i o r i 算法 r a k e 出a 鲋n v a l 和n a 蜘s h n a ns 触a i l t 提出的a 研o r i 算法是最经典的关联规则挖掘 算法。这是一个基于两阶段频繁集思想的方法。发现所有的有充分支持度和置信度的关联 规则,可以将这个问题分解为两个子问题: 寻找那些事务的支持度超过最小支持度的项目的所有组合,把这些组合称为大的 项目集,也即频繁项目集,而其他组合称为小的项目集。在这旱描述了算法a 谢谢和 a 两o n t i d 来解决这个问题。 用频繁项目集产生需要的规则。一般的想法是,如果说a b c d 和a b 是大项目 集,那么我们能计算比率f 支持数( a b c d ) 支持数( a b ) ,从而确定是否有规则。仅当r m i n i 】f 时才有此规则。注意此规则有最小支持度,因为a b c d 是大的。 a 埘嘶算法是一种宽度优先算法,通过对数据库d 的多趟扫描来发现所有的频繁项 目集在每一趟k 中只考虑具有同一长度k ( 即项目集中所含项目的个数) 的所有项目集。 在第1 趟扫描中_ ,a p r i 确算法计算i 中所有单个项目的支持度,生成所有长度为1 的频繁 项目集在后续的每一趟k 中,首先以前一越中所发现的所有频繁项目集为基础,生成所有 新的候选项目集( c a 删d 黜i t e m s e 妫,即潜在的频繁项目集,然后扫描数据库d ,计算这些 候选项目集的支持度,最后确定候选项目集中哪一些真正成为频繁项目集。重复上述过程 直到再也发现不了新的频繁项目集。 ( 3 ) a d d o r i 算法的改进 至今己提出了许多a p r i 嘶算法的改进方法,这罩将介绍其中一些改进方法。以下方 法1 到方法5 主要是改进a p r i o r i 算法的运行效率,而方法6 和方法7 可处理随时间变化的 交易记录。 基于哈希( h a 幽) 表技术 1 9 9 5 年,p a r k 等提出了一个基于杂凑( h a s h ) 技术的产生频繁项目集的算法【9 。他们 通过实验发现寻找频繁项目集的主要计算是在生成2 频繁项目集l 2 ,因此,p a r k 等利用了 这个性质,引入杂凑技术来改进产生2 一频繁项目集的方法。这种方法把扫描的项目放到不 同的h a s h 桶中,每对项目最多只可能在一个特定的桶中,这样可以对每个桶中的项目子 犬连理l 。k 一擎颂十学位论文 集避褥溅试,减少了镁选集堡成翳我鹭这释方法迄可吸扩鼷餮任薄赘戤频繁矮嚣囊生成 上。 减少交易数据 令基本懿簇理勰是当一个攀务不包台长滢为曼熬犬碟集霹,剩必然不包含长凄受 酶 的大顼集,扶焉我髓藏可瞬海这些事务穆去,这群在下一遮静趋擒中簸可戬使瘸较少 个数的事务集,避魁a p d o d t i d 的基本思想。 划分数据 1 9 9 5 车,s 耐a 8 秣等设诗了令基予矮努鹣撼蠢。羟 瀚凝爨矮重繁生成舞法l 礤这个冀 法先把数据库从逻辑上分成几个黼不相交的块,每次单独漪虑一个分块,在每个数据蟪犟 讨论频繁项目集的发现问题。遮种方法只需簧把所处理的分块放入主襻,减轻了内猩需 求,褥显巍算法豹并牙楚瑾提攒了胃爱。毒予分块蠢魏数辫 菠多,辔搜梅楚蘧戆效率褥 至l 擒高。 采样技术 1 9 鳟年,t o i 蝴提髫了个基予抽样 b ,翱翔“3 镑的 顾客买衬衫的同时也购买了靴子”。但魑在实际的交易数据库中,像“衬衫”和“靴子” 这样抽象的概念是不存在的,在实际交易数据库中“衬衫”和“靴予”通常被标记为某种 菇薅鹃羧子。窑甄懿数瑟纛关联凝测黪挖掘遘疆中常黎速不髫滋较态翡支持度( 一般在 蝴以下) ,这样就产生以下两个方面韵问题:( 1 ) 如聚支持度设篝的较低挖掘出太多的规 则,这些规则过于具体,不能给出整体性的把握。2 ) 如果支持度设鬻较高,就很难挖掘 蹬规烈。 大连理1 :火学硕+ 学位论文 为了解决以上问题,应该在关联规则挖掘的过程中引入专家的领域知识和背景知识。 本体是知识表示的一种形式,可以很好的将领域知识和数据挖掘算法结合起来,从而优化 现有算法。基于本体的关联规则挖掘的优点还在于,它可以在多层次上进行数据挖掘,产 生多层次的规则,所以基于本体的关联规见u 挖掘是多层关联规则挖掘的有效工具。本文研 究的重点就在于此。 2 3 本体论及相关技术 起源于哲学的本体论( 0 1 1 _ 吲o g y ) 近年来受到信息科学领域的广泛关注,其重要性也己 在许多方面表现出来并得到广泛认同。到目f j 仃为止本体还没有一个明确的定义,但是学术 界认为本体作为概念化( c o n c e p n l a l iz a _ d o n ) 知识形式化表达的基础,是所关心领域中的对象、 概念和其他实体,以及它们之间的关系。 本体描述语言起源于历史上人工智能领域对知识表示的研究,人工智能领域主要有: k 【f 与o i l 协l i i l _ g u a ,o k b c ( 叩e nk n o w l 咄e b a s ec o n n e c t i v 时) ,o c m l ( o p e i a 士i o a l c 伽c e p n l a lm o d e l i n gl a n g u a g e ) ,f r a r n el 0 9 i c ,l o o m 等。目前本体主要应用于知识共享、 系统集成以及软件工程等领域。 概念分类是本体表示的常用形式,表示概念与概念之间的关系为泛化和特化关系,可 以抽象的看作一棵树,其中节点表示概念,边表示概念与概念之问的关系,通常表示为 “s 曲c l a s s o f i ,。例如“j a c k e t s ” “s u b a a s s o f ” “o u t e n v e a r ”,通过传递性可以得到 “j a c k 如”“s u b c l a s s 0 , “c l o l l l e s ”。利用概念分类进行推理,可以在多个层次上对 数据进行抽象和挖掘。 j a c k e t s o u “;r w e a r c i o t i 磊s t f 0 0 t w e a r s h 鑫s h i k 鲁gb 0 0 t s s k ip a n t 3 图2 1 农服的概念分类 f i g 2 it h e c o n c e p t o f t h e c l a i h e s 电子商务中基丁= 商品分类本体的关联规则挖掘 正如前文提到的本体的表示有不同形式,日口面介绍的几种7 r 发使用的比较早,目前本 体语言的正向网络化发展,例如w 3 c 为了构建下一代互联网语义w “1 2 1 ,设计了几 种本体语言,r d f l l 3 ,1 哪和o w l 是目前比较完整的规范。 ( 1 ) r d f 与r d f s r d f 是w 3 c 组织推荐使用的用来描述资源及其之问关系的语言规范县有简单、易 扩展、开放性、易交换和易综合等特点。值得注意的是,i m f 只定义了资源的描述方 式,却没有定义用哪些数据描述资源。r d f 由3 个部分组成:r d fd a 诅m o d e l ,i 国fs c h e m a 和i m fs y n t a ) j “l 。r i ) fd a t am o d e l 提供了一个简单但功能强大的模型,通过资源、属性及 其相应值来描述特定资源。模型定义为: 它包含一系列的节点n : 它包含一系列属性类p : 每一属性都有一定的取值v ; 模型是一个三元组: 节点,属性类,节点或原始值v ,; 每一个d a t a m o d d 可以看成是由节点和弧构成的有向图。 模型中所有被描述的资源以及用来描述资源的属性值都可以看成是“节点”o d e l 。 由资源节点、属性类和属性值组成的一个三元组叫做r d fs 协t c m 即t ( 或) f 陈述) 。在 模型中,陈述既可以作为资源节点,同时也可以作为值节点出现,所以一个模型中的节点有时 不止一个。这时,用来描述资源节点的值节点本身还具有属性类和值,并可以继续细化。 i fs c h 即:1 a 使用一种机器可以理解的体系来定义描述资源的词汇,其功能就像一个字 典,可以将其理解为大纲或规范。r d fs c h e m a 的作用是: 定义资源以及属性的类别; 定义属性所应用的资源类以及属性值的类型; 定义上述类别声明的语法; 申明一些由其他机构或组织定义的元数据标准的属性类。 r d fs c h e m a 定义了: 3 个核心类:m e r e s o u r c e ,r d 矗:p r o p e 时,d d f s :c l 船s ; 5 个核心属性:r d t y p e , i d 矗:s l l b c l a s s o f ,日d f s :s e e a l s o ,r d f s :s u b p r 0 嘞o f , r d b :i s d d _ m e d b y : 4 个核心约束:r d 矗:c o n s 昀r l t r e s o u r c e , r d f s :啪g e ,r d 蠡:c o n s 的i n t p r o p e n y, r d f s :d o m a i n 旧。 大连理人学硕+ 学位论文 r d fs v n t a x 构造了一个完整的语法体系以利于计算机的自动处理,它以x m l 为其宿 主语言,通过咀,语法实现对各种元数据的集成。 q d f s :c l a s sr d t a b o u 卢”r d f :c l o 山e s ” r d f s :1 a b d = ”c l o 也e s ” 剞f s :s u b c l a s s o f r d r e s o u r c e = ”& r d 矗:r e s o u r c e ”房 蛐:c l a s 9 r d f s :s u b a a s s o f r d r e s o u r c e = ”& r d f :f o o t 、v e a r ”伊 ,r d f s :c l 站p q m 盎:c 1 静 1 3 电子商务中基于商黼分类本体的关联规则挖掘 删! i 国f ( 2 ) o w l ( w e bo n t o l o 删l a n g u a g e ) 2 0 0 2 年7 月,w 3 c 谯d a m + o l l 糕础上发展了。o w l ( 0 n t o l o g yw c b 妇豫u a 譬e ) 隧甥语言以後箕成为国陆遴爝的稼准语义w e b 语言。2 3 年2 胃1 0 藏,w 3 c 掰公布了, w 曲o i 仰l o 科l a l l 目】a g e ( 0 w l ) g u i d ev 啪i o n1 o 【m 。 2 0 0 3 年2 月2 1 同公布了w e b 0 r l t o l o 科l a n g u a g e ( o w l ) r c f c 磁1 c ev e r 8 i o n1 o ,本节介绍的。w l 将以此耨公布资料 淹粳据。 o w l 语言提供了三种表示能力不同的子语言,来分别满足不同组织团体的语言实现 者和使用者。 o w 毛l 穗仅鞭子囊特对概念 x 躲置信率为l o o ,是冗余豹 规则。 另外之所以称辂 y 为多层关联规则,是因为和y 中含有的数据项来自本体0 的 任何层。 基于本体的多层次关联规撮i j 的挖掘分为三个子问题: ( 1 ) 我崮事物数攒库d 中所有其有用户指定最小支持度的项目集( i t e 删斌,i 的一个菲 空子集) 。舆有最小支拷液豹颁番集称隽频繁璜露集( f r e q t | e n tl 觚s e t ) ,反之就称为菲 频繁项疆集。 ( 2 ) 剽用频繁项爨集生成熙霉簧戆多层次关联援则。瓣予频繁竣窭集a b c d 蟊a b , 如果比率。o n 牟s u 】o n ( a b 四) s l 】删a b ) 大于删n c o n f 就,土成多层次关联规则 黔洌c d ( 3 ) 从所得到的多层次关联规则集中修剪

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论