




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第11章商务智能应用Lecture11:The
Applications
of
BI主要内容11.1商务智能应用领域11.2推荐系统11.3意见挖掘11.1商务智能应用领域商务智能经过多年的发展不仅在技术方面不断进步,其应用也深入了各行各业,有着广泛的应用领域,在零售、金融、电信、保险、制造等领域都有很多成功应用的案例。关系营销(relationalmarketing)风险管理生产管理11.1.1关系营销关系营销(relationalmarketing)是一种用于管理企业与其利益相关者关系、培养和维护一种长期良好关系的战略。交易营销(transactionalmarketing)
关系营销最早用于金融、电信等行业,逐步扩展到了制造业领域。
关系营销旨在培养客户忠诚性,提高客户满意度,维护良好沟通,有效开发客户生命周期内的价值。
客户生命周期客户生命周期指的是一个客户从潜在客户变为意客户、真正客户,最终成为流失客户的整个过程。在客户所处的各个阶段,借助商务智能技术可以进行有效的关系营销活动,以达到客户满意、企业获利的双赢状态。
针对关系营销的BI系统是一个不断循环使用的系统
为了完成有效关系营销活动,每次活动通常都涉及分析、计划、执行以及评价等一系列环节。
用户生命周期中的关键关系营销环节客户获取(customeracquisition)客户保留(customerretention)交叉/提升销售(cross/upsale)11.1.2生产管理商务智能可以用于生产企业的生产流程优化和质量控制,提高生产效率,降低生产成本,从而增加企业收入。很多产品的自动化生产过程都设计了数量众多的工艺参数,如电压、电流等,以及环境变量,如温度、湿度、大气压等,这些变量互相影响,与产品质量息息相关。发现这些变量与产品质量之间的关系,发现生产过程中的异常,从而及时改进生产流程,提高产品质量,是很多生产型企业都面临的关键问题。解决生产管理中的问题BobEvans为解决印刷公司的生产过程问题而构建了CylinderBand数据集。BobEvans所在的一家从事转轮凹版印刷的印刷厂在生产过程中经常出现非正常停机。停机是由于出现滚筒条纹,导致大量的印刷品出现质量问题,浪费大量纸张和油墨,并且浪费生产时间,提高了生产成本,提高了不能按期完成产品的风险。该问题出现在很多印刷厂,是一个普遍存在的问题,因此引起了广泛的关注。CylinderBand数据集示例为了找出导致滚筒花纹出现的原因,收集了生产过程的很多变量,如油墨粘度、湿度、温度,纸张型号、纸张重量、溶剂型号、印刷机型号、印刷速度、静电辅助电压、静电辅助电流、通用的静电辅助密度等等。利用分类技术解决了生产质量问题利用决策树分类技术构建模型经过分析,发现了成功印刷的规律,例如,保持低的油墨温度,保持高的油墨粘度等。将这些规律转变为操作规则告知操作工人之后,滚筒条纹出现的频率慢慢降低了。利用商务智能实现生产过程的优化成功地解决了该生产问题,提高了生产效率,降低了成本。11.2推荐系统MotivationSystemsinActionAConceptualFrameworkUser-UserMethodsItem-ItemMethods先看一个例子京东商城购物网站上的推荐信息Motivation20年前,我们在只有几个台的电视机前欢天喜地地度过一整个假期。20年后,互联网上成千上万部电影即点即看,却不知道要看哪一部。Amazon的数百万图书,Netflix的10万部电影,淘宝的8亿件在线商品,以及数以亿万计用户的资料和行为记录……互联网公司最近十年的迅猛发展伴随着海量数据的积累。Motivation(Cont.)然而,在线用户常常面对过多的选择而显得无所适从。心理学研究证实这类情境下的用户有时做出放弃交易的决定,从而造成大量潜在的用户流失。最好的选择,就是不需要选择。这就是推荐系统一个经过十多年技术发展,现在逐渐浮出水面的前沿技术,所要解决的问题。统计技术的发展能够为在线服务商提供更有效的推荐算法,在帮助用户走出信息过载困境、改善用户体验的同时,还能够挖掘商品长尾、提升企业价值。Motivation(Cont.)UserPerspectiveLotsofonlineproducts,books,movies,etc.Reducemychoices…please…ManagerPerspective“ifIhave3millioncustomersontheweb,Ishouldhave3millionstoresontheweb.”
CEOofA
[SCH01]四个阶段之一—面向系统的探索阶段证明了推荐系统的可行性和效果,激发了人们推动该领域在科研及商业实践方面不断向前发展。事件:1996年3月在伯克利举办的协同过滤专题研讨会。四个阶段之二—快速商业化,规模和价值上的挑战MIT的PattieMaes研究组于1995年创立了Agents公司GroupLens于1996年创立了NetPerceptions等等,其他公司奋起直追竞争激烈,公司不得不提高精确度目标:开发新的算法四个阶段之三—研究大爆发,推荐成主流2000-2005,随着互联网泡沫破灭,或者无法抗衡将推荐整合到更全面的商业产品线的主流公司,许多推荐系统公司逐渐消亡。然而推荐系统作为一门技术仍然存在,并广泛应用在电子商务,大规模零售业和各种知识管理应用中。与此同时,来自人工智能、信息检索、数据挖掘、安全与隐私以及其他领域的研究,都为推荐系统提供了新的分析和方法。高峰:2006年,Netflix悬赏100万美元寻找提高准确度10%的算法四个阶段之四——前进推荐领域得到了极大的促动举例…Example:RecommendationExample:Personalization个性化推荐—Netflix百万美金大奖Netflix公司(中文译名:奈飞公司)是成立于1997年的美国最大的在线DVD租赁商。2006年10月,Netflix公司宣布启动一项名为Netflix大奖的推荐系统算法竞赛,鼓励全世界的研究团队,以Netflix目前使用中的推荐系统Cinematch为竞争标的,比Cinematch推荐绩效提高10%的团队,将有资格获得一百万美元的奖励。CEOReedHastings说:“这个大赛的魅力之处在于,你可以是身在罗马尼亚的数学家,也可以是在台湾的统计学家,无论你在哪里,都可以成为赢家”个性化推荐Netflix百万美金大奖(2)这项颇具挑战性的比赛吸引了5万名计算机科学家、专家、爱好者等参与角逐,短短2周它就收到169个递交,一个月后就超过了一千。参赛队伍都在为提高这一推荐系统算法的10%的神奇大关而奋斗,但当得分最高者离目标越来越接近的时候,之前看起来简单的事情变得越来越难,进展越来越慢。当时排在NetflixPrize得分榜前列的参与者都很接近,仅有小数点的差距。个性化推荐—Netflix百万美金大奖(3)当人们认为10%的目标有点遥不可及的时候,2007年10月一个名字叫“Justaguyinagarage”的竞争者突然冒了出来,并迅速挤进前10。他递交的第一个就达到了7.15%,12月20日他超过多伦多大学团队,2009年1月8日,他达到了8%,现在是8.14%。一开始没人知道这位匿名参与者究竟是何方神圣,因为他连链接都没留下。个性化推荐—Netflix百万美金大奖(4)《连线》杂志最终找到了他:GavinPotter,48岁英国人,心理学肄业生,管理顾问,2006年离开IBM去研究机器学习。他把参与NetflixPrize当作是事业,他说“我想在没有取得一些进展之前提供一个link是任何意义的”,“决定参加NetflixPrize是严肃的,看起来有几分玩笑意味。但并没有多少把握,因为我不是搞研究的,也不是数学家。优势是作为一位没有工作的心理学者,我的时间很充裕”。GavinPotter在他的算法里应用了心理学方法,女儿Emily是他的数学参谋。或许让心理学家和计算机科学家联合起来才能取得最后的成功。个性化推荐—Netflix百万美金大奖(5)来自AT&T的研究小组BellKor,它的算法比Cinematch好8.43%,曾位于排行榜第一名。但之后的第一名变为了是3月1日递交的WhenGravityandDinosaursUnite,高8.82%)。这场比赛已经演变成一场学术研究事件,像BellKor根本就不是为了金钱,一些参与者甚至还将自己的算法完整公布出来供同行参考,而多数参与者都是搞数学研究的。个性化推荐—Netflix百万美金大奖(6)直到2009年6月26日,这一大关才终于由顶级团队联手形成的BellKor‘sPragmaticChaos团队打破,新算法首次突破了10%门槛,达到了10.05%。如果在接下来的30天内无人能递交高于BellKor的新算法,那么它将赢得这场比赛。7月26日,比赛结束的最后一天发生了一件戏剧性的事件,胜券在握的BellKor于18:18又递交了超过10.06%的新算法。20分钟之后的18:38,包括国内开发者xlvector(项亮)在内的TheEnsemble团队递交了一个比长期领跑的BellKor的算法高出0.01%的新算法,似乎有资格问鼎百万美元奖金。个性化推荐—Netflix百万美金大奖(7)不幸的是,测试结果显示:TheEnsemble的算法和BellKor’sPragmaticChaos的算法最终都为10.06%。然而,TheEnsemble团队因为比BellKor晚提交了20分钟而与冠军失之交臂,BellKor赢得了奖金。《纽约时报》博客采访了Ensemble团队的领导者GregMcAlpin,他表示合作有利于创新,但合作也需要克服困难,他认为多数的合作没有什么用。Netflix发表声明,正式宣布了NetflixPrize2。后来NetflixPrize2因为隐私问题而被取消。Netflix比赛前几名的报告TheBellkorsolutiontothenetflixgrandprize(.bib)TheBigChaosSolutiontotheNetflixGrandPrize(.bib)ThePragmaticTheorysolutiontotheNetflixgrandprize(.bib)Netflix的竞赛只是从推荐准确性的角度评价算法,事实上,还有很多的评价指标可以度量推荐算法的表现。因此,也可以从多个角度对算法进行改进。NETFLIXDVDRentingcontest1milliondollarsOtherExamplesMovielens:moviesMoviecritic:moviesagainMylaunch:musicGustosstarrater:webpagesJester:JokesTVRecommender:TVshowsSuggest1.0:differentproductsAndmuchmore…HowitWorks?EachuserhasaprofileUsersrateitemsExplicitly:scorefrom1..5Implicitly:webusageminingTimespentinviewingtheitemNavigationpathEtc…Systemdoestherest,How?Thisiswhatwewillshowtoday推荐系统的构成收集用户信息的行为记录模块负责记录用户的喜好行为。例如:问答、评分、购买、下载、浏览等。分析用户喜好的模型分析模块通过其他方式对不愿向系统提供行为信息的用户的行为进行分析。如购买、下载、浏览等行为,分析用户的潜在喜好产品和喜欢程度,建立合适的模型来描述用户的喜好信息。推荐算法模块实时地从产品集合中筛选出用户感兴趣的产品进行推荐。BasicApproachesCollaborativeFiltering(CF,协同过滤)LookatuserscollectivebehaviorLookattheactiveuserhistoryCombine!Content-basedFilteringRecommenditemsbasedonkey-words依据用户选择的产品内容信息计算用户间相似性信息抽取信息过滤Today’sFocusCollaborativeFiltering:AFrameworku1u2…ui...umItems:Ii1i2…ij
…in31.5
….
52213rij=?Thetask:Q1:FindUnknownratings?Q2:Whichitemsshouldwerecommendtothisuser?...Unknownfunctionf:UxIRUsers:U推荐方法之一:协同过滤推荐基本思想:如果用户A和用户B的购买经历非常重叠,而且A最近买了一本B还不知道的书,那么这是基本的逻辑就是向B推荐这本书。由于选择可能感兴趣的书涉及从大量集合中过滤出最有希望的书,而且用户(这里指用户B)是在隐式地同其他人(用户A)相互协作,因此这种技术也被成为协同过滤CF,CollaborativeFiltering推荐方法之二:基于内容的推荐一般推荐系统有两个目的:1.激发用户去做某件事情,比如购买一本书或观赏一部电影。2.推荐系统也可以被看做是解决信息过载的工具因此推荐系统深深根植于信息检索和信息过滤领域。这些领域主要强调区分相关和不相关的文档。(相对于传统电子商务领域的书或数码相机等实物而言)技术之一:利用文档内容信息进行排名。推荐方法之三:基于知识的推荐需求:为我推荐一款适合我的相机问题:大量单次购买记录(没有交集),我们无法依赖购买记录(这是协同过滤和基于内容过滤的前提条件。)此时,系统需要利用额外的因果知识生成推荐,通常会用到有关用户和有效物品的额外信息。(这些信息一般人工提供)在个性化交互中,系统能够摸索到用户的喜好最后根据知识库生成推荐,知识库由领域知识生成。推荐方法之四:混合推荐组合以上不同技术产生更好或更精确的推荐1.群体知识2.详尽的物品信息把基于内容的技术与协同或社会化过滤技术相混合就可以增强推荐系统的效果。问题:哪种方法能被组合?顺序组合还是其他方式?不同方法如何分配权重?推荐方法之五:推荐系统的解释解释:为了让用户更容易理解推荐系统的推理脉络。提高用户对系统的信任度,让用户相信系统给出的建议是"公正的"举例:虾米音乐电台推荐方法之六:评估推荐系统推荐系统领域研究的主要推动力是提高推荐质量。问题:如何实际衡量推荐系统所给出建议的质量?方法之一:从历史数据实验中评估示例:如何构建一个推荐系统构建推荐系统的基本步骤1.搜集偏好(CollectingPreferences)2.寻找相近的用户(FindingSimilarUsers)3.为评论者打分(RankingtheCritics)4.推荐物品(RecommendingItems)1.搜集偏好(CollectingPreferences)目标:建立一种方法来使得你的用户来参与表达,并把他们表达的内容对应到数字以形成相应的数据集合。关键:寻找一种表达不同人及其偏好的方法。举例:购物网站——用数字1来代表有人过去购买过某件商品,用数字0来代表未曾购买过任何商品。新闻故事投票网站——可以分别用数字-1、0和1来表达“不喜欢”、“没有投票”、“喜欢”。豆瓣:要求用户对每部电影用1到5颗星来评分,以此体现包括本人在内的每位影评者对某一影片的喜爱程度。2.寻找相近的用户(FindingSimilarUsers)目的:设计一种确定人们在品位方面的相似程度的方法。欧几里德距离(EuclideanDistanceScore)皮尔逊相关度(PersonCorrelationCoefficient)余弦相似性(Cosine-basedSimilarity)调整余弦相似性(AdjustedCosineSimilarity)Jaccard系数曼哈顿距离算法等欧几里德距离(EuclideanDistanceScore)以经过人们一致评价的物品为坐标轴,然后将参与评价的人绘制到图上,并考察他们彼此间的距离。皮尔逊相关度(PearsonCorrelationScore)通过判断两组数据与某一直线拟合程度来判断相似度。它在数据不是很规范的时候,如影评者对影片的评价总是相对于平均水平偏离很大时,会倾向于给出更好的结果。更高相关系数的情况LisaRose和JackMatthews在这几部电影上有着更高的相似度(各点更靠近最佳拟合曲线)。相关系数的计算皮尔逊的相关度算法首先会找出两位评论者都曾评价过的物品,然后计算两者的评分总和和平方和,并求得评分的乘积之和。最后,利用这些计算结果计算出相关系数:3.为评论者打分(RankingtheCritics)目的:根据指定的人员对每个人进行打分,找出最接近的匹配结果,也即所谓该人的最近邻。前面例子中,即是要寻找与自己品位相似的影评者。4.推荐物品(RecommendingItems)(最终)目的:一份影片的推荐列表。方法:查找与自己品位最相近的人推荐给你某人特别热衷的一部影片推荐列表Critic列是与Toby进行相似度对比的人名Similarity列表示他们与Toby的相似度系数Night、Lady和Luck都是电影名S.x打头的那几列给出了相似度系数和评分后相乘的结果。总结CollaborativeFilteringRoadMapUser-UserMethodsIdentifylike-mindedusersMemory-based:KNNModel-based:ClusteringItem-ItemMethodIdentifybuyingpatternsCorrelationAnalysisLinearRegressionAssociationRuleMiningU4U1U3U2U5用户层项目层R1
R2
R3
R4I1基于用户的协同过滤
User-UserMethodIntuitionSimilarusershavesimilarpreferencesIfuu’,thenforallo’s,f(u,o)f(u’,o)Usersimilarity(ZhangSanvs.LiSi)SupposeZhangSanandLiSiviewedsimilarmoviesinthepastsixmonths…IfZhangSanlikedthepaper,LiSiwilllikethepaperUser-UserSimilarity:Intuition
3TargetCustomerQ1:Howtomeasuresimilarity?Q2:Howtoselectneighbors?Q3:Howtocombine?其中:用户i的偏好均值:
Ii表示用户i的投票范围HowtoMeasureSimilarity?Pearsoncorrelationcoefficient(相关系数法)uauii1in...ua…ui...umi1i2…
ij
…inra1ra2…ranri1ri2…rinrm1rm2…rmnHowtoMeasureSimilarity?i1i2i3i4i5i6u11223u22325u334512u423421HowtoMeasureSimilarity?CosinemeasureUsersarevectorsinproduct-dimensionspace...ua…ui...umi1i2…
ij
…inra1ra2…ranri1ri2…rinrm1rm2…rmn
CosinemeasureCosinemeasureE.g:ra=(ra1,ra2)ri=(ri1,ri2)余弦定理cos()=(a2+b2-c2)/2aba2=(ra1
-0)2+(ra2-0)2=ra1
2+ra2
2b2=ri1
2+ri2
2c2=(ra1
-ri1)2+(ra2
–ri2)2ra1ri1ra2
ri2abcHowtoMeasureSimilarity?i1i2i3i4i5i6u11223u22325u334512u423421DidWeAnswertheQuestions?
3TargetCustomerQ1:Howtomeasuresimilarity?Q2:Howtoselectneighbors?Q3:Howtocombine?Howtopredict?用户a对项目j的预测偏好Usera’sneutralUseri’sdeviationUsera’sestimateddeviationi是a的邻居i1i2i3i4i5i6u11223u22?325u334512u423421W(u1,u2)=0.997W(u2,u4)=0.86DidWeAnswertheQuestions?
3TargetCustomerQ1:Howtomeasuresimilarity?Q2:Howtoselectneighbors?Q3:Howtocombine?(Breeseetal.98)AllusersNearestNeighborApproaches[SAR00a]Offlinephase:Donothing—juststoretransactionsOnlinephase:IdentifyhighlysimilaruserstotheactiveoneBestKonesAllwithameasuregreaterthanathresholdPredictionClustering[BRE98]Offlinephase:Buildclusters:k-mean,k-medoid,etcOnlinephase:IdentifythenearestclustertotheactiveuserPrediction:UsethecenteroftheclusterWeightedaveragebetweenclustermembersWeightsdependontheactiveuserFasterSlowerbutalittlemoreaccurateClusteringvs.k-NNApproachesK-NNusingPearsonmeasureisslowerbutmoreaccurateClusteringismorescalableActiveuserDidWeAnswertheQuestions?
3TargetCustomerQ1:Howtomeasuresimilarity?Q2:Howtoselectneighbors?Q3:Howtocombine?User-UserMethodsEvaluationAchievegoodqualityinpracticeThemoreprocessingwepushoffline,thebetterthemethodscaleHowever:UserpreferenceisdynamicHighupdatefrequencyofoffline-calculatedinformationNorecommendationfornewusersWedon’tknowmuchaboutthemyet基于产品的协同过滤
Item-ItemMethodItem-ItemSimilarity:TheIntuitionItemsimilaritySince90%ofthosewholikedStarWarsalsolikedIndependenceDay,and,youlikedStarWarsYoumayalsolikeIndependenceDaySearchforsimilaritiesamongitemsAllcomputationscanbedoneofflineItem-Itemsimilarityismorestablethanuser-usersimilarityNoneedforfrequentupdatesCollaborativeFilteringRoadMapItem-ItemMethodCorrelationAnalysisLinearRegressionAssociationRuleMiningBeliefNetworkCorrelation-basedMethods[SAR01]Sameasinuser-usersimilaritybutonitemvectorsBasicidea:IsolateuserswhohaveratedbothiandjApplysimilaritycomputationCo-rateditemsonlyr1ir1jruirujr(m-1)ir(m-1)jr2jrmiItemSimilarityComputationPearsoncorrelationcoefficientLookforuserswhoratedbothitemsu1umi1iiijinItemSimilarityComputationCosine-basedSimilarityu1umi1iiijini1i2i3i4i5i6u11223u22325u334512u423421CosinesimilarityS12=0.99S32=0.99S42=0.989S52=0.79S62=0.98i1i2i3i4i5i6u11223u22325u334512u4234521ItemSimilarityComputationAdjustedCosineSimilarityDifferencesinratingscalesbetweendifferentusersaverageoftheu-thuser’sratingsu1umi1iiijinCorrelation-basedMethods:predictionOfflinephase:Calculaten(n-1)similaritymeasuresForeachitemDetermineitsmostk-similaritemsOnlinephase:Predictratingforagivenuser-itempairasaweightedsumoversimilar
itemsthatheratedUa?234jCorrelation-basedMethods:predictionUa?234jS12=0.99S32=0.99S42=0.989S52=0.79S62=0.98i1i2i3i4i5i6u11223u22?325u334512u4234521ExperimentalevaluationEvaluationmetricsChoiceoftheMeanAbsoluteError(MAE)testsetpi=numericalrecommendationscoresqi=actualuserratingsConclusionItem-itemschemeprovidesbetterqualityofpredictionsthanuser-userschemeRecommandersystems:acrucialtoolinE-Commerce协同过滤系统优点具有推荐新信息的能力,可以发现用户潜在的但自己尚未察觉到的兴趣偏好。能够推荐艺术品、音乐、电影等难以进行内容分析的产品。缺点如何对新用户推荐或任何推荐新产品给用户(冷启动)打分稀疏性问题算法可扩展性问题最新进展当前研究和最新进展,主要涉及的问题如下:隐私和鲁棒性。如何识别恶意用户操纵推荐系统?如何保护用户隐私?在线消费决策。传统销售渠道总结的经验能否转换到在线渠道,如何在推荐系统中体现这些知识?社交和语义网背景下的推荐系统。如何利用用户间已有的信用结构或社交关系提高推荐精准度?语义网技术如何影响推荐算法?推荐系统在web2.0中的角色是什么?无处不在的应用。这些应用如何影响推荐算法,比如会更强调上下文情景和环境参数吗?11.3意见挖掘意见挖掘(opinionmining)或者情感分析(sentimentanalysis)是从文本信息中识别、抽取用
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 石家庄智能终端产品项目商业计划书
- 强化广州日报育儿平台,进入线下婴童市场计划书商业计划书集团
- 美业员工入股合同协议书
- 破产创业方案
- 螃蟹养殖合同协议书模板
- 食堂搭伙合同协议书模板
- 找工作合同协议书怎么写
- 学校教师用工合同协议书
- 创业计划书范文服装店
- 机械租赁合同终止协议书
- 带状疱疹的护理-课件
- 2025年中考英语热点话题模拟预测卷(天津卷)-中考英语各地市热点话题模拟预测卷
- 慈善晚会筹备流程
- 机场充电桩施工方案
- 肘管综合症护理查房
- 拒绝第一支烟健康教育 课件
- 更年期综合征患者生活质量改善策略-深度研究
- 2025年安徽耀安投资集团有限公司招聘笔试参考题库含答案解析
- 全国电子工业版初中信息技术第一册第3单元3.3活动4《畅想未来智慧城市》说课稿
- 《如何带教新员工》课件
- 中央2024年中国合格评定国家认可中心招聘笔试历年典型考点(频考版试卷)附带答案详解
评论
0/150
提交评论