




已阅读5页,还剩84页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2020年4月11日星期六 数据仓库与数据挖掘技术 1 数据仓库和数据挖掘技术 什么是数据挖掘 几种主要数据挖掘模型和算法复杂类型数据的挖掘 2020年4月11日星期六 数据仓库与数据挖掘技术 2 数据挖掘都干了些什么 英国电信需要发布一种新的产品 需要通过直邮的方式向客户推荐这种产品 通过数据挖掘的方法使直邮的回应率提高了100 gus日用品零售商店需要准确的预测未来的商品销售量 降低库存成本 通过数据挖掘的方法使库存成本比原来减少了3 8 2020年4月11日星期六 数据仓库与数据挖掘技术 3 美国国防财务部需要从每年上百万比的军火交易中发现可能存在的欺诈现象 发现可能存在欺诈的交易 进行深入调查 节约了大量的调查成本汇丰银行需要对不断增长的客户群进行分类 对每种产品找出最有价值的客户 营销费用减少了30 数据挖掘都干了些什么 2020年4月11日星期六 数据仓库与数据挖掘技术 4 什么是数据挖掘 通过采用自动或半自动的手段 在海量数据中发现有意义的行为和规则的探测和分析活动 数据挖掘能够帮助你选择正确 瞄准潜在目标 向现有的客户提供额外的产品 识别那些准备离开的好客户 数据挖掘是从数据中自动地抽取模式 关联 变化 异常和有意义的结构数据挖掘大部分的价值在于利用数据挖掘技术改善预言模型 2020年4月11日星期六 数据仓库与数据挖掘技术 5 数据挖掘应用领域 电信 流失银行 聚类 细分 交叉销售百货公司 超市 购物篮分析 关联规则 保险 细分 交叉销售 流失 原因分析 信用卡 欺诈探测 细分电子商务 网站日志分析税务部门 偷漏税行为探测警察机关 犯罪行为分析医学 医疗保健 2020年4月11日星期六 数据仓库与数据挖掘技术 6 bigbank creditcardcompany 目的 发现新客户 数据挖掘效益分析 直邮 2020年4月11日星期六 数据仓库与数据挖掘技术 7 datamining akddprocess datamining thecoreofknowledgediscoveryprocess datacleaning dataintegration databases datawarehouse knowledge task relevantdata selection datamining patternevaluation 2020年4月11日星期六 数据仓库与数据挖掘技术 8 datamining confluenceofmultipledisciplines datamining databasetechnology statistics otherdisciplines informationscience machinelearning ai visualization 2020年4月11日星期六 数据仓库与数据挖掘技术 9 数据仓库和数据挖掘技术 什么是数据仓库 whatisadatawarehouse 多维数据模型 amulti dimensionaldatamodel 数据仓库体系结构 datawarehousearchitecture 什么是数据挖掘 whatisadatamining 几种主要数据挖掘模型和算法复杂类型数据的挖掘 2020年4月11日星期六 数据仓库与数据挖掘技术 10 dataminingfunctionalities 1 conceptdescription characterizationanddiscriminationgeneralize summarize andcontrastdatacharacteristics e g dryvs wetregionsassociation correlationandcausality multi dimensionalvs single dimensionalassociationage x 20 29 income x 20 29k buys x pc support 2 confidence 60 contains t computer contains x software 1 75 2020年4月11日星期六 数据仓库与数据挖掘技术 11 dataminingfunctionalities 2 classificationandpredictionfindingmodels functions thatdescribeanddistinguishclassesorconceptsforfuturepredictionpresentation decision tree classificationrule neuralnetworkprediction predictsomeunknownormissingnumericalvaluesclusteranalysisclasslabelisunknown groupdatatoformnewclasses e g clusterhousestofinddistributionpatternsclusteringbasedontheprinciple maximizingtheintra classsimilarityandminimizingtheinterclasssimilarity 2020年4月11日星期六 数据仓库与数据挖掘技术 12 dataminingfunctionalities 3 outlieranalysisoutlier adataobjectthatdoesnotcomplywiththegeneralbehaviorofthedataitcanbeconsideredasnoiseorexceptionbutisquiteusefulinfrauddetection rareeventsanalysistrendandevolutionanalysistrendanddeviation regressionanalysissequentialpatternmining periodicityanalysissimilarity basedanalysisotherpattern directedorstatisticalanalyses 2020年4月11日星期六 数据仓库与数据挖掘技术 13 概念描述 conceptdescription 产生数据的特征化和比较描述特征化 提供给定数据汇集的简介汇总比较 也称区分 提供两个或多个数据汇集的比较描述 2020年4月11日星期六 数据仓库与数据挖掘技术 14 数据概化和基于汇总的特征化 数据概化是一个过程 它将大的任务相关的数据集从较低的概念层抽象到较高的概念层 概化方法数据立方体 olapapproach 面向属性的归纳方法 2020年4月11日星期六 数据仓库与数据挖掘技术 15 面向属性的归纳 kddworkshop 89 中提出方法介绍 使用sql收集相关数据通过数据移除和数据概化来实现概化聚集通过合并相等的广义元组 并累计他们对应的计数值进行和使用者之间交互式的呈现方式 基本方法 数据聚焦 选择和当前分析相关的数据 包括维 属性移除 如果某个属性包含大量不同值 但是1 在该属性上没有概化操作 或者2 它的较高层概念用其它属性表示 属性概化 如果某个属性包含大量不同值 同时在该属性上有概化操作符 则运用该操作符进行概化 属性阈值控制 typical2 8 specified default 概化关系阈值控制 控制最终关系的大小 特征化的一个例子 primegeneralizedrelation initialrelation 挖掘类比较 比较 比较两个或者更多类 方法 将相关的数据分成目标类和比较类 将两个类别的数据概化到相同的层次 用相同层次的描述对元组进行比较 对于每个元组展现其描述和两个衡量标准将差异很大的元组特别显示出来相关性分析 发现最能体现类别之间差异的属性 2020年4月11日星期六 数据仓库与数据挖掘技术 19 例子 分析性比较 primegeneralizedrelationforthetargetclass graduatestudents primegeneralizedrelationforthecontrastingclass undergraduatestudents 2020年4月11日星期六 数据仓库与数据挖掘技术 20 从大型数据库中挖掘关联规则 关联规则挖掘 在交易数据 关系数据或其他信息载体中 查找存在于项目集合或对象集合之间的频繁模式 关联 相关性 或因果结构 举例 规则形式 body head support confidence buys x diapers buys x beers 0 5 60 major x cs takes x db grade x a 1 75 2020年4月11日星期六 数据仓库与数据挖掘技术 21 关联规则 基本概念 给定 1 交易数据库 2 每笔交易是 一个项目列表 消费者一次购买活动中购买的商品 查找 所有描述一个项目集合与其他项目集合相关性的规则应用 护理用品 商店应该怎样提高护理用品的销售 家用电器 其他商品的库存有什么影响 在产品直销中使用附加邮寄 2020年4月11日星期六 数据仓库与数据挖掘技术 22 transactionsexample items a milkb breadc cereald sugare eggs instances transactions 2020年4月11日星期六 数据仓库与数据挖掘技术 23 definitions item attribute valuepairorsimplyvalueusuallyattributesareconvertedtobinaryflagsforeachvalue e g product a iswrittenas a itemseti asubsetofpossibleitemsexample i a b e orderunimportant transaction tid itemset tidistransactionid 2020年4月11日星期六 数据仓库与数据挖掘技术 24 supportandfrequentitemsets supportofanitemsetsup i no oftransactionstthatsupport i e contain iinexampledatabase sup a b e 2 sup b c 4frequentitemsetiisonewithatleasttheminimumsupportcountsup i minsup 2020年4月11日星期六 数据仓库与数据挖掘技术 25 associationrules associationruler itemset1 itemset2itemset1 2aredisjointanditemset2isnon emptymeaning iftransactionincludesitemset1thenitalsohasitemset2examplesa b e ca b c 2020年4月11日星期六 数据仓库与数据挖掘技术 26 fromfrequentitemsetstoassociationrules q givenfrequentset a b e whatarepossibleassociationrules a b ea b ea e bb a eb e ae a b a b e emptyrule ortrue a b e 2020年4月11日星期六 数据仓库与数据挖掘技术 27 规则度量 支持度与可信度 查找所有的规则x y z具有最小支持度和可信度支持度 s 一次交易中包含 x y z 的可能性可信度 c 包含 x y 的交易中也包含z的条件概率 设最小支持度为50 最小可信度为50 则可得到a c 50 66 6 c a 50 100 买尿布的客户 二者都买的客户 买啤酒的客户 2020年4月11日星期六 数据仓库与数据挖掘技术 28 associationrulesexample q givenfrequentset a b e whatassociationruleshaveminsup 2andminconf 50 a b e conf 2 4 50 a e b conf 2 2 100 b e a conf 2 2 100 e a b conf 2 2 100 don tqualifya b e conf 2 6 33 a e conf 2 7 28 a b e conf 2 9 22 50 2020年4月11日星期六 数据仓库与数据挖掘技术 29 findstrongassociationrules arulehastheparametersminsupandminconf sup r minsupandconf r minconfproblem findallassociationruleswithgivenminsupandminconffirst findallfrequentitemsets 2020年4月11日星期六 数据仓库与数据挖掘技术 30 findingitemsets nextlevel apriorialgorithm agrawal srikant idea useone itemsetstogeneratetwo itemsets two itemsetstogeneratethree itemsets if ab isafrequentitemset then a and b havetobefrequentitemsetsaswell ingeneral ifxisfrequentk itemset thenall k 1 itemsubsetsofxarealsofrequentcomputek itemsetbymerging k 1 itemsets 2020年4月11日星期六 数据仓库与数据挖掘技术 31 anexample given fivethree itemsets abc abd acd ace bcd lexicographicorderimprovesefficiencycandidatefour itemsets abcd q ok a yes becauseall3 itemsubsetsarefrequent acde q ok a no because cde isnotfrequent 2020年4月11日星期六 数据仓库与数据挖掘技术 32 generatingassociationrules twostageprocess determinefrequentitemsetse g withtheapriorialgorithm foreachfrequentitemsetiforeachsubsetjofidetermineallassociationrulesoftheform i j jmainideausedinbothstages subsetproperty 2020年4月11日星期六 数据仓库与数据挖掘技术 33 apriori算法 例子 数据库d 扫描d c1 l1 l2 c2 c2 扫描d c3 l3 扫描d 2020年4月11日星期六 数据仓库与数据挖掘技术 34 如何计算候选集的支持度 计算支持度为什么会成为一个问题 候选集的个数非常巨大一笔交易可能包含多个候选集方法 用hash tree存放候选集树的叶子节点of存放项集的列表和支持度内部节点是一个hash表subset函数 找到包含在一笔交易中的所有候选集 2020年4月11日星期六 数据仓库与数据挖掘技术 35 生成候选集的例子 l3 abc abd acd ace bcd 自连接 l3 l3abc和abd得到abcdacd和ace得到acde修剪 ade不在l3中 删除acdec4 abcd 2020年4月11日星期六 数据仓库与数据挖掘技术 36 提高apriori效率的方法 基于hash的项集计数 如果一个k 项集在hash tree的路径上的一个计数值低于阈值 那他本身也不可能是频繁的 减少交易记录 不包含任何频繁k 项集的交易也不可能包含任何大于k的频繁集分割 一个项集要想在整个数据库中是频繁的 那么他至少在数据库的一个分割上是频繁的 采样 在给定数据的子集上挖掘 使用小的支持度 完整性验证方法动态项集计数 在添加一个新的候选集之前 先估计一下是不是他的所有子集都是频繁的 2020年4月11日星期六 数据仓库与数据挖掘技术 37 apriori够快了吗 性能瓶颈 apriori算法的核心 用频繁的 k 1 项集生成候选的频繁k 项集用数据库扫描和模式匹配计算候选集的支持度apriori的瓶颈 候选集生成巨大的候选集 104个频繁1 项集要生成107个候选2 项集要找尺寸为100的频繁模式 如 a1 a2 a100 你必须先产生2100 1030个候选集多次扫描数据库 如果最长的模式是n的话 则需要 n 1 次数据库扫描 2020年4月11日星期六 数据仓库与数据挖掘技术 38 挖掘频繁集不用生成候选集 用frequent patterntree fp tree 结构压缩数据库 高度浓缩 同时对频繁集的挖掘又完备的避免代价较高的数据库扫描开发一种高效的基于fp tree的频繁集挖掘算法采用分而治之的方法学 分解数据挖掘任务为小任务避免生成关联规则 只使用部分数据库 2020年4月11日星期六 数据仓库与数据挖掘技术 39 用交易数据库建立fp tree 最小支持度 0 5 tiditemsbought ordered frequentitems100 f a c d g i m p f c a m p 200 a b c f l m o f c a b m 300 b f h j o f b 400 b c k s p c b p 500 a f c e l p m n f c a m p 步骤 扫描数据库一次 得到频繁1 项集把项按支持度递减排序再一次扫描数据库 建立fp tree 2020年4月11日星期六 数据仓库与数据挖掘技术 40 fp tree结构的好处 完备 不会打破交易中的任何模式包含了序列模式挖掘所需的全部信息紧密去除不相关信息 不包含非频繁项支持度降序排列 支持度高的项在fp tree中共享的机会也高决不会比原数据库大 如果不计算树节点的额外开销 例子 对于connect 4数据库 压缩率超过100 2020年4月11日星期六 数据仓库与数据挖掘技术 41 用fp tree挖掘频繁集 基本思想 分而治之 用fp tree地归增长频繁集方法对每个项 生成它的条件模式库 然后是它的条件fp tree对每个新生成的条件fp tree 重复这个步骤直到结果fp tree为空 或只含维一的一个路径 此路径的每个子路径对应的相集都是频繁集 2020年4月11日星期六 数据仓库与数据挖掘技术 42 多层关联规则 项通常具有层次底层的项通常支持度也低某些特定层的规则可能更有意义交易数据库可以按照维或层编码可以进行共享的多维挖掘 2020年4月11日星期六 数据仓库与数据挖掘技术 43 挖掘多层关联规则 自上而下 深度优先的方法 先找高层的 强 规则 牛奶 面包 20 60 再找他们底层的 弱 规则 酸奶 黄面包 6 50 多层关联规则的变种层次交叉的关联规则 酸奶 复旦面包房黄面包不同种分层方法间的关联规则 酸奶 复旦面包房面包 2020年4月11日星期六 数据仓库与数据挖掘技术 44 关联规则结果显示 tableform 2020年4月11日星期六 数据仓库与数据挖掘技术 45 关联规则可视化usingplanegraph 2020年4月11日星期六 数据仓库与数据挖掘技术 46 关联规则可视化usingrulegraph 2020年4月11日星期六 数据仓库与数据挖掘技术 47 分类与预测 数据分类是基于训练数据集和类标号对数据进行分类 建立模型 描述预定的数据类集或概念集预测是构造和使用模型评估无标号样本类 或评估给定样本可能具有的属性值或值区间 2020年4月11日星期六 数据仓库与数据挖掘技术 48 classificationprocess 1 modelconstruction trainingdata classificationalgorithms ifrank professor oryears 6thentenured yes classifier model 2020年4月11日星期六 数据仓库与数据挖掘技术 49 classificationprocess 2 usethemodelinprediction classifier testingdata unseendata jeff professor 4 tenured 2020年4月11日星期六 数据仓库与数据挖掘技术 50 trainingdataset thisfollowsanexamplefromquinlan sid3 2020年4月11日星期六 数据仓库与数据挖掘技术 51 output adecisiontreefor buys computer age overcast student creditrating no yes fair excellent 30 40 no no yes yes yes 30 40 2020年4月11日星期六 数据仓库与数据挖掘技术 52 决策树算法 基本算法 贪心算法 自上而下分而治之的方法开始时 所有的数据都在根节点属性都是种类字段 如果是连续的 将其离散化 所有记录用所选属性递归的进行分割属性的选择是基于一个启发式规则或者一个统计的度量 如 informationgain 停止分割的条件一个节点上的数据都是属于同一个类别没有属性可以再用于对数据进行分割 2020年4月11日星期六 数据仓库与数据挖掘技术 53 属性选择的统计度量 informationgain id3 c4 5 所有属性假设都是种类字段经过修改之后可以适用于数值字段giniindex ibmintelligentminer 能够适用于种类和数值字段 2020年4月11日星期六 数据仓库与数据挖掘技术 54 informationgain id3 c4 5 选择属性的标准 具有最高informationgain假设有两个类 p和n假设集合s中含有p个类别p的记录 n个类别n的记录决定任意一个记录属于类别p或者n所需要的information 2020年4月11日星期六 数据仓库与数据挖掘技术 55 informationgain在决策树中的使用 假设使用属性a将把集合s分成v份 s1 s2 sv 如果si中包含pi个类别为p的记录 ni个类别为n 的记录 那么熵就是 entropy 从而这个信息增益就是 2020年4月11日星期六 数据仓库与数据挖掘技术 56 使用信息增益进行属性选择 classp buys computer yes classn buys computer no i p n i 9 5 0 940computetheentropyforage hencesimilarly 2020年4月11日星期六 数据仓库与数据挖掘技术 57 giniindex ibmintelligentminer 集合t包含n个类别的记录 那么其gini指标就是pj类别j出现的频率如果集合t分成两部分n1andn2 那么这个分割的gini就是提供最小ginisplit就被选择作为分割的标准 对于每个属性都要遍历所有可以的分割方法 2020年4月11日星期六 数据仓库与数据挖掘技术 58 几种经典算法介绍 cartmin p c1 p c2 2p c1 p c2 p c1 logp c1 p c2 logp c2 c4 5 id3 c4 5 id3 对种类字段处理时 缺省是对每个值作为一个分割gain和gainratiochaid在overfitting前停止树的生成必须都是种类字段选择分割 x2检验 2020年4月11日星期六 数据仓库与数据挖掘技术 59 scalabledecisiontreeinduction数据挖掘中提出的方法 sliq edbt 96 mehtaetal sprint vldb 96 j shaferetal public vldb 98 rastogi shim rainforest vldb 98 gehrke ramakrishnan ganti buildsanavc list attribute value classlabel 2020年4月11日星期六 数据仓库与数据挖掘技术 60 结果显示 一 什么是聚类分析 簇 cluster 一个数据对象的集合在同一个类中 对象之间具有相似性 不同类的对象之间是相异的 聚类分析把一个给定的数据对象集合分成不同的簇 聚类是一种无监督分类法 没有预先指定的类别 典型的应用作为一个独立的分析工具 用于了解数据分布 作为其它算法的一个数据预处理步骤 2020年4月11日星期六 数据仓库与数据挖掘技术 62 应用聚类分析的例子 市场销售 帮助市场人员发现客户中的不同群体 然后用这些知识来开展一个目标明确的市场计划 土地使用 在一个陆地观察数据库中标识那些土地使用相似的地区 保险 对购买了汽车保险的客户 标识那些有较高平均赔偿成本的客户 城市规划 根据类型 价格 地理位置等来划分不同类型的住宅 地震研究 根据地质断层的特点把已观察到的地震中心分成不同的类 2020年4月11日星期六 数据仓库与数据挖掘技术 63 什么是一个好的聚类方法 一个好的聚类方法要能产生高质量的聚类结果 簇 这些簇要具备以下两个特点 高的簇内相似性低的簇间相似性聚类结果的好坏取决于该聚类方法采用的相似性评估方法以及该方法的具体实现 聚类方法的好坏还取决与该方法是能发现某些还是所有的隐含模式 2020年4月11日星期六 数据仓库与数据挖掘技术 64 majorclusteringapproaches partitioningalgorithms constructvariouspartitionsandthenevaluatethembysomecriterionhierarchyalgorithms createahierarchicaldecompositionofthesetofdata orobjects usingsomecriteriondensity based basedonconnectivityanddensityfunctionsgrid based basedonamultiple levelgranularitystructuremodel based amodelishypothesizedforeachoftheclustersandtheideaistofindthebestfitofthatmodeltoeachother 2020年4月11日星期六 数据仓库与数据挖掘技术 65 划分方法 基本概念 划分方法 将一个包含n个数据对象的数据库组织成k个划分 k n 其中每个划分代表一个簇 cluster 给定一个k 要构造出k个簇 并满足采用的划分准则 全局最优 尽可能的列举所有的划分 启发式方法 k 平均和k 中心点算法k 平均 macqueen 67 由簇的中心来代表簇 k 中心点或pam partitionaroundmedoids kaufman rousseeuw 87 每个簇由簇中的某个数据对象来代表 2020年4月11日星期六 数据仓库与数据挖掘技术 66 k 平均算法 给定k 算法的处理流程如下 1 随机的把所有对象分配到k个非空的簇中 2 计算每个簇的平均值 并用该平均值代表相应的簇 3 将每个对象根据其与各个簇中心的距离 重新分配到与它最近的簇中 4 回到第二步 直到不再有新的分配发生 2020年4月11日星期六 数据仓库与数据挖掘技术 67 k 平均算法 例子 2020年4月11日星期六 数据仓库与数据挖掘技术 68 k 平均算法 优点相对高效的 算法复杂度o tkn 其中n是数据对象的个数 k是簇的个数 t是迭代的次数 通常k t n 算法通常终止于局部最优解 缺点只有当平均值有意义的情况下才能使用 对于类别字段不适用 必须事先给定要生成的簇的个数 对 噪声 和异常数据敏感 不能发现非凸面形状的数据 2020年4月11日星期六 数据仓库与数据挖掘技术 69 k 平均算法的变种 一些变种在下面几个方面有所不同 初始k个平均值的选择 相异度的计算 计算簇的平均值的策略 处理种类字段 k 模算法 huang 98 用模来替代平均值 用新的相异度计算方法来处理类别字段 用基于频率的方法来修改簇的模 k 原型算法 综合k 平均和k 模算法 能同时处理类别字段和数值字段 2020年4月11日星期六 数据仓库与数据挖掘技术 70 k 中心点算法 找出簇中位置最中心的对象 即中心点来代表簇pam partitioningaroundmedoids 1987 设定一个中心点的初始集合 然后反复的用非中心点对象来替代中心点对象 以改进聚类的质量 pam算法在大数据集上效率较低 没有良好的可伸缩性 clara kaufmann rousseeuw 1990 clarans ng han 1994 randomizedsampling 2020年4月11日星期六 数据仓库与数据挖掘技术 71 层次方法 采用距离作为衡量聚类的标准 该方法不在需要指定聚类的个数 但用户可以指定希望得到的簇的数目作为一个结束条件 2020年4月11日星期六 数据仓库与数据挖掘技术 72 agnes agglomerativenesting 由kaufmann和rousseeuw提出 1990 使用单链接方法和差异度矩阵 合并那些具有最小差异度的节点 gooninanon descendingfashion最后所有的对象合并形成一个簇 2020年4月11日星期六 数据仓库与数据挖掘技术 73 adendrogramshowshowtheclustersaremergedhierarchically decomposedataobjectsintoaseverallevelsofnestedpartitioning treeofclusters calledadendrogram aclusteringofthedataobjectsisobtainedbycuttingthedendrogramatthedesiredlevel theneachconnectedcomponentformsacluster 2020年4月11日星期六 数据仓库与数据挖掘技术 74 diana divisiveanalysis 由kaufmann和rousseeuw提出 1990 agnes算法的逆过程 最终每个新的簇只包含一个对象 2020年4月11日星期六 数据仓库与数据挖掘技术 75 moreonhierarchicalclusteringmethods 层次方法的主要缺点 没有良好的伸缩性 时间复杂度至少是o n2 一旦一个合并或分裂被执行 就不能修复 综合层次聚类和其它的聚类技术 birch 1996 usescf treeandincrementallyadjuststhequalityofsub clusterscure 1998 selectswell scatteredpointsfromtheclusterandthenshrinksthemtowardsthecenteroftheclusterbyaspecifiedfractionchameleon 1999 hierarchicalclusteringusingdynamicmodeling 2020年4月11日星期六 数据仓库与数据挖掘技术 76 复杂类型数据的挖掘 空间数据挖掘多媒体数据挖掘时间序列数据挖掘文本数据挖掘web数据挖掘 2020年4月11日星期六 数据仓库与数据挖掘技术 77 空间数据挖掘 是对空间数据库中非显式存在的知识 空间关系或其他有意义的模式等的提取空间数据挖掘在地理信息系统 地理市场 遥感 图像数据库探测 医学图像处理 导航 交通控制 环境研究等使用空间数据的领域中有广泛应用 2020年4月11日星期六 数据仓库与数据挖掘技术 78 refiningorcombiningsearches searchfor bluesky toplayoutgridisblue searchfor blueskyandgreenmeadows toplayoutgridisblueandbottomisgreen searchfor airplaneinbluesky toplayoutgridisblueandkeyword airplane miningmultimediadatabases 2020年4月11日星期六 数据仓库与数据挖掘技术 79 miningmultimediadatabasesin multimediaminer 2020年4月11日星期六 数据仓库与数据挖掘技术 80 classificationinmultimediaminer 2020年4月11日星期六 数据仓库与数据挖掘技术 81 时序数据和序列数据的挖掘 趋势分析相似性搜索与时间有关的序列模式挖掘周期模式挖掘 2020年4月11日星期六 数据仓库与数据挖掘技术 82 文本数据挖掘 文本数据分析和信息检索文本检索的基本度量 查准率 查全率 基于关键字和基于相似性的检索潜在语义标引其他文本检索标引技术基于关键字的关联和文档分类基于关键字的关联分析文档分类分析 2020年4月11日星期六 数据仓库与数据挖掘技术 83 webminingtaxonomy 2020年4月11日星期六 数据仓库与数据挖掘技术 84 webstructuremining webcontentmining webpagecontentminingwebpagesummarizationweblog lakshmananet al 1996 weboql mendelzonet al 1998 webstructuringquerylanguages canidentifyinformationwithingivenwebpagesahoy etzioniet al 1997 usesheuristicstodistinguishpersonalhomepagesfromotherwebpagesshopbot etzioniet al 1997 looksforproductpriceswithinwebpages searchresultmini
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《20254S店国产汽车销售合同》
- 2025企业办公租赁合同精简版范本
- 2025年泌尿外科泌尿系统疾病诊疗模拟试题答案及解析
- 2025年中医药学中药处方辨证施治试卷答案及解析
- 连锁经营管理师知识考核试卷及答案
- 2025年AIGC音频篡改检测试题(含答案与解析)
- 2025年医疗AI研究员病历处理面试题(含答案与解析)
- 2025年职业技能认证跨境培训平台在线教育平台用户体验研究报告
- 带式球团焙烧工成本控制考核试卷及答案
- 乳清工招聘考核试卷及答案
- 医院科研诚信课件
- 简易呼吸器使用的评分标准
- 电脑耗材实施方案、供货方案、售后服务方案
- 新视野大学英语第三版第一册Unit 2 Section A讲解
- 急性混合型胎儿宫内窘迫的护理查房
- 公路养护实操培训
- 钻井队安全培训课件
- 腰椎间盘突出症小讲课
- 主管岗位培训计划方案
- 城市轨道交通员工职业素养(高职)全套教学课件
- 大学美育(第二版) 课件 第四单元:绘画艺术 课件
评论
0/150
提交评论