基于Web挖掘的个性化推荐服务研究_第1页
基于Web挖掘的个性化推荐服务研究_第2页
基于Web挖掘的个性化推荐服务研究_第3页
基于Web挖掘的个性化推荐服务研究_第4页
基于Web挖掘的个性化推荐服务研究_第5页
已阅读5页,还剩58页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

分类号 密级 U D C 硕士学位论文 基于 学位申请人 : 丁 一 学 科 专 业 : 计算机应用技术 指 导 教 师 : 卢正鼎 教授 论文答辩日期 学位授予日期 答辩委员会主席 胡和平 评阅人 王天江 李玉华 A of of i : 30074, 2004 I 摘 要 随着网络技术的不断发展,如何利用数据挖掘技术从大量的网络信息中挖掘出对人们有用的资源,已经成为研究的热点问题。信息推荐技术需要解决的三个问题是:首先,要理解用户的需求;其次,是能高效、准确地执行查询任务;最后,能把结果很好地组织起来交给用户。目前比较成熟的信息推荐技术是采用面向网络信息来解决以上问题的。但是,这种方式很难执行好用户个性化的检索需求,因此提出了面向用户的个性化推荐模型。 通过对通用搜索引擎和元搜索引擎的研究,提出了个性化推荐模型,该模型分为离线部分和在线部分。 离线部分由数据预处理和特 定的访问挖掘任务组成,数据预处理将 网络 服务器的访问 日志 文件以及站点的相关文件生成用户文件和事务文件;特定的访问挖掘是利用 聚类算法来生成网页聚类 。模型的在线部分主要是利用离线部分生成的 网页 聚类,再根据用户的当前访问操作行为,动态地为用户推荐下一步访问操作。在线部分主要是由:用户接口、兴趣学习器、个性化分析器、 推理器、网络数据连接管理器 、个性化过滤器 和 网络 服务器 等组成。在线部分涉及到的关键算法有:兴趣学习算法、个性化分析算法、个性化过滤算法和推理算法,此外还对模型的一些简单的语法规则进行了定义,通过实验环境实现 了一个界面简单的推荐模型。 关键词: 数据挖掘,个性化,信息检索,推荐服务,聚类分析 of to to eb to be a in to be it s it it is to to R in a R In we a of of eb of of is eb of of RL RL on of of eb of of of of 录 摘 要 . 绪论 数据挖掘 .(1) 据挖掘 .(2) 个性化推荐服务的现状 .(3) 论文研究内容及其组织 .(5) 2 个性化 掘 据挖掘 .(7) 几个重要的研究方向 . (11) 掘的个性化 . (13) 个性化推荐解决的问题和目标 . (16) 小结 . (17) 3 基于 掘的个性化推荐 个性化服务中用户研究 . (18) 个性化推荐 . (20) 个性化推荐服务技术 . (23) 个性化推荐模 型 . (29) 小结 . (32) 4 个性化推荐模型设计与实现 推荐模型描述 . (33) 模型离线预处理 . (34) 离线挖掘算法 . (37) 模型在线推荐 . (38) 模型测试结果 . (48) 小结 . (50) 5 论文总结 主要工作总结 . (51) 进一步的研究方向 . (51) 致 谢 . (53) 参考文献 . (54) 附录 1 攻读学位期间发表的论 文目录 . (57) 1 1 绪论 近年来,随着大规模的工业生产过程的自动化、商务贸易电子化及企业和政府事务电子化的迅速普及以及科学计算的日益增长,产生了大规模的数据源。计算机网络技术的长足进步也为数据的传输和远程交互提供了技术手段,特别是互联网的迅速发展更是将全球的信息源纳入了一个共同的数据环境中 1。日益成熟的数据库系统和数据库管理系统都为这些海量数据的存储和管理提供了技术保证,为步入信息时代奠定了基础,这些庞大的数据库及其中的海量数据是极其丰 富的信息源。 在这些信息源中隐含了许多有潜在价值的知识,如何发现这些有用的知识是人工智能、数据库等领域的研究焦点。但是仅仅依靠传统的数据检索机制和统计分析方法已经远远不能满足需要了。因此,近年来出现了一门新兴的知识获取提取技术 数据挖掘。数据挖掘旨在从数据库中提取正确的、非平凡的、未知的、有潜在应用价值的并最终可为用户理解的模式。它的出现为自动和智能地把海量的数据转化成有用的信息和知识提供了手段 1。数据挖掘涉及到诸如机器学习、模式识别、统计学、数据库和人工智能等众多学科,是数据库理论和机器学习的交叉学 科。 数据挖掘 数据挖掘和知识发现 密切的联系。知识发现( 2是指从数据库中发现有用知识的整个过程,数据挖掘是这一过程中的一个特定步骤,知识发现包括数据选择、预处理、数据转换、数据挖掘、模式解释和知识评价等多个步骤,是应用特定数据挖掘算法和评价解释模式的一个循环反复过程,并要对发现的知识不断求精深化,使其易于理解;数据挖掘是知识发现过程中的一个关键步骤。 数据 挖掘( 从大量的、不完全的、有噪声的 、模糊的、随机的数据中提取 潜在的、不为人知的有用信息、模式和趋势。数据挖掘的目的是提高市场决策能力;检测异常模式;在过去的经验基础上预言未来趋势等 3。 这些知识和规则是隐含的、先前未知的、对决策有潜在价值的有用信息。通过数据挖掘,有价值的知识、规则或高层次的信息就能从数据库的相关数据集合中抽取出来,为决策提供依据,从而使数据库作为一个丰富可靠的资源,为知识归纳服务。 与传统的数据库查询系统相比较 , 数据挖掘技术有以下不同 4: 2 ( 1)传统的数据库查询一般都具有严格的查询表达式,可以用 数据 挖掘则不一定具有严格的要求,常常表现出即时、随机的特点 , 查询要求也不确定 。 ( 2)整个挖掘过程也无法仅用 实际上 , 数据挖掘常常用一种类似 ( 3)传统的数据库查询一般生成严格的结果集 , 但数据挖掘可能并不生成严格的结果集 。 挖掘过程往往基于统计规律 , 产生的规则并不要求对所有的数据项总是成立 , 而是只要达到一定的事先给定的阈值就可以了 。 ( 4)通常情况下 , 数据库查询只对数据库的原始字段进行 , 而数据挖掘则可能在数据库的不同层次上发掘知识规则 。 从广义上讲,数据挖掘分为三种类型:全 自动、半自动和全交互式。对于全自动技术,一旦系统被创建,无需人的任何干预,它能在后台自动进行操作;对于半自动技术,系统或者在后台操作,或者采用全交互方式;对于全交互式技术,是一种简单的数据挖掘,它由用户设置每次操作的参数,然后等待相应结果。 数据 挖掘 在解决实际问题时,经常要同时使用多种模式。一个数据 挖掘 系统或仅仅一个数据 挖掘 查询就可能生成成千上万的模式,但是并非所有的模式都 是 令人感兴趣。 这里有 一个重要的概念, 兴趣度( ,通常 是 用来衡量模式的总体价值,它包括正确性 ( 、新奇性 ( 、可用性 ( 和简洁性( 。数据 挖掘 工具还要求具有开放性,它的开放性体现在两个方面:能与各种数据源集成 ; 分析 的 结果是通用的或易于转化的。数据 挖掘 工具相互差别很大,这不仅体现在关键技术上,还体现在运行平台、数据存取和价格等 方 面。从运行平台来看,简单的工具可运行在 ,复杂的工具要求运行在 数据存取来看,简单工具处理的数据以文件形式输入,复杂工具要求大型的数据库环境。 目前,数据挖掘已成 为计算机科学研究中的一个十分活跃的前沿领域,并在市场分析、金融投资、欺诈甑别、医疗卫生、环境保护、产品制造和科学研究等许多领域获得了广泛的应用,取得了十分可观的社会效益和经济效益。同时,知识发现和数据挖掘的研究和应用,对于人工智能这门前沿学科的发展注入了新的活力,有力地促进了计算机科学朝着纵深方向顺利发展。 它涉及新闻、广告、消费信息、金融管理、 3 教育、政府、电子商务和许多其它信息服务 。 以及 和使用信息 , 这为数据挖掘提供了丰富的资源 。 人们希望有一个工具能够自动从 传统的数据挖掘基于关系数据库或数据仓库 , 所处理数据具有完整的结构 。 但是 结构的 , 并且存在着大量的冗余与噪声 。 对有效的数据仓库和数据挖掘而言 , 而且仍然在迅速地增长 。 ( 1)数据源具有很强的动态性 , 这就需要借鉴数据仓库的某些技术 , 以此保存 ( 2)数据的多样性 , 既有数值型 (整型、实型 )、布尔型 ,又有分类数据、性质描述数据以及 如 。新的数据类型必然带来新的特色 , 需要对原有挖掘方法进行改进和扩充 。 ( 3)用户目标的模糊性 , 基于 提不出很明确的目标来 。 这就需要数据挖掘系统具有一定的智能性和学习机制 , 不断地跟踪用户的兴趣 , 清晰明白地阐述挖掘结果 。 的 。 据统计 , 99%的 9%的用户是无用的 , 这些无用的信息会淹没用户所希望得到的推荐结果 。 基于以上的分析可知 , 这些挑战推动了如何高效且实际地发现和利用因特网上资源的研究工作。 目前有许多基于索引的 利用推荐引擎 , 有经验的用户可以快速定位到所需的文档 。 但是目前基于查询串的推荐引擎存在一些问题 。 首先 , 推荐引擎返回的文档数过于庞大 , 其中很多与话题相关性并不大 ; 其次 , 很多与话题相关的文档可能并不包含相应的查询串 。 因此 , 对 的 掘 。 个性化推荐服务的现状 随着信息科技的进步和互联网的日益普及,如何在浩瀚如海的信息空间里,快速查找并获取所需的信息已成为信息时代最根本的问题之一。网络个性化推荐在网络信息资源查找中起到了重要的作用,它可以帮助人们从数以亿计的网络信息中找到自己想要的信息。 4 信息检索技术经历了三个发展阶段:顺序检索、顺序与倒排检索相结合、全文检索。全文检索早期的发展,一是源于手工标引已不适应信息增长的需要,二是人们采用自然语言直接进行检索的原理 5,6。 据研究者统计 , 目前 互联网上的搜索引擎已达数千种 , 仅中文搜索引擎就达 70余种。在庞大的搜索引擎家族中 , 有囊括各学科、各种主题网络信息的综合性搜索引擎 , 有以特定学科或专业领域的网络信息为收录对象的专业性搜索引擎 , 还有专门列举搜索引擎的搜索引擎指南。搜索引擎作为一个整体 , 存在着质量参差不齐、信息的分类加工欠规范、搜索速度慢、死链接过多 , 以及提供的检索结果中重复信息及不相关的无效信息过多等弊端,对检索效果形成负面影响。网络信息的急剧增加 , 令以覆盖所有学科、所有类型信息为宗旨的综合性搜索引擎亦越来越难以应对 , 就是号称功能最为强大的搜索 引擎,在网络信息搜索与加工软件的升级开发上,亦无法跟上网络信息的增长速度。 搜索引擎在网络信息的组织、加工等环节上缺乏可供操作的、统一的技术标准 ,处于各自为政的无序状态,这主要体现在网络信息的分类上。统一的网络信息分类标准的缺位令网络用户无所适从 , 他们被迫接受各搜索引擎的分类体系无法兼容的事实 , 每使用一种新的搜索引擎,就意味着他们必须接受该搜索引擎与其他搜索引擎在分类体系上的差异。搜索引擎之间的检索体系存在一定的差异性 , 难于相互兼容 , 给网络用户掌握通用的信息检索技巧与方法带来不必要的操作障碍。每一种搜索引擎 的开发者在设计该搜索引擎的核心检索技术时,都以突出自身特色而各显千秋 , 故不同的搜索引擎均有着相对独立的检索方法与技巧。各个搜索引擎都有一个特色化的检索体系等待网络用户去适应,这些检索体系在推向用户之前较少通过试运行从网络用户中搜集反馈信息 , 因此在适用性上存在先天的不足。 网络搜索引擎一般由信息采集器 (索引数据库 (及用于检索索引库的检索软件 (部分组成。信息采集器主要负责访问各种站点, 取回 页的信息。运行 ,只要提供少量的起始网页, 了会将网页上的信息读回以外,还将沿着网页上的超文本链接,自动访问网页链接的其它网页,直至遍历整个网站。 网站的访问是周期的,一般为每月一次或数次,访问次数视网页的更新频率而定。索引器负责索引库的建立。回的信息很多,直接用于查询,其效率将非常低。索引器的主要工作是建立一个包含关键信息的索引库以备查询。索引器的策略很大程度上影响了搜索引擎的效 5 率与准确性。目前,比较常用的方法是对网页的标题 (评语 (行索引。检索软件负责提供用户使用搜索引擎的接口。检索软件通常是一个 用程序,其主要工作包括:接收、解释用户的搜索请求;查询索引库;计算网页与搜索请求的关联度;提供排序后的搜索结果返回。简而言之,信息采集软件是从一个已知的文档集中读取信息,并检查这些文档的链接指针,指出新的信息空间,然后取出这些新空间中的文档,将它们加入到索引数据库,检索软件通过索引数据库为用户的查询请求提供服务,但现有的搜索引擎在信息维护、信息重复、网络及站点负载方面还存在很大的不足,索引数据库往往很大,检索的查准 率不高。 论文研究内容及其组织 课题提出的现实意义与目标 随着经济的不断发展,我国经济的开放度不断提高,因而遭受各种外部冲击的可能性和受影响的程度也将日益增大,各种国际规则和惯例对我国经济运行的制度约束越来越强烈,这些制度约束将产生强制性的制度变迁效应,加快我国外汇管理制度和模式变革的进程,在转化过程中,如何维护和提高管理效率,尽可能地减少制度变迁成本,将成为外汇局所面临的一大挑战。为此,迫切需要建立一个功能强大、数据完整的信息管理系统去统驭其他业务管理系统的运行。 本课题来源于与国 家外汇局合作的国家外汇信息管理决策系统的项目,简称根据我国外汇管理的需要,按照外汇局“说得清,管得住,服务好”的指导思想建立的集业务管理与辅助决策于一身的综合信息服务平台。它将是外汇局完成真实性审核、统计预警和政研立法三大职能的支撑系统,也将成为我国外汇管理电子化的核心平台。它将以采集基础数据取代报表数据;以电子数据的直接提取或交换取代业务数据的二次录入与加工传递;以接近实时取代定期、不定期;以系统灵活的、即插即用的应用程序取代独立、固定的应用程序;借助报表生成工具以灵活组合、自定义 方式的查询方法取代固定的查询、报表生成程序;以系统的指标体系、科学的分析方法、灵敏的决策机制取代静态的、孤立的、缺乏全面信息支持的决策方式。 这一课题属国家十五攻关课题( 2001并由本课题组承担,一期工程于 2003 年 12 月通过国家验收。 本课题的目标是以建立国家外汇管理局决策支持系统为实践背景,利用数据挖掘理论技术,改进并实现基于 掘的个性化推荐服务技术,从而对国家外汇管理局 6 网站的 息文件进行挖掘,得出用户的访问模式,从而可以进一步分析和研究日志记录的规律,来改进国家外汇 管理局网站的组织结构及其性能,改造自适应网站;还可以通过统计和关联分析,了解使用用户的爱好,增加个性化推荐服务,使用户足不出户就可以了解和关注到自己感兴趣的信息和资源,更好的为用户服务;也可以是外部数据采集员用来在 面采集相关数据、资料的工具。 论文组织 论文比较系统完整的分析和论述了数据挖掘技术的热点难点、 掘的体系结构、个性化服务的定义、基于 掘的个性化推荐服务。各章节内容安排如下: 第 1章 绪论:简要介绍了本文要描述的数据挖掘的基本概况和 掘的基本定义,本文的 课题背景、目的和意义,以及论文的主要工作。 第 2章 个性化 掘:简要介绍了 掘的定义、分类、过程、任务,还介绍了个性化服务的定义,个性化推荐解决的主要问题以及 掘的个性化,最后还介绍了目前比较流行和重要的几个研究方向。 第 3章 基于 掘的个性化推荐模式:首先对个性化服务中的用户服务研究做出了描述,接着介绍了个性化推荐模型的工作机理、分类以及目前个性化推荐存在的问题;然后对个性化推荐服务的具体技术问题、实现方法进行了介绍,最后对目前比较流行的通用模型和元搜索引擎进行了分析。 第 4章 个性化推荐模型设计与 实现:首先对模型进行了具体描述,然后就个性化推荐模型的离线部分预处理、离线算法和在线部分的定义、数据流程、算法的分析以及具体实现技术进行了具体的阐述。 模型的在线部分主要是利用离线部分生成的 网页 聚类,再根据用户的当前访问操作行为,动态地为用户推荐下一步访问操作。 通过实验环境实现了一个界面简单的推荐模型。 第 5章 论文总结:总结了本论文的特色和创新,以及提出了今后工作的发展方向。 7 2 个性化 本章将从 掘的定义开始,介绍了 掘的分类、 掘的过程、 息检索,还介绍 了几个最重要的挖掘技术,最后将介绍一下 数据挖掘是一个逐渐演变的过程,电子数据处理的初期,人们就试图通过某些方法来实现自动决策支持,当时机器学习成为人们关心的焦点。机器学习的过程就是将一些已知的并已被成功解决的问题作为范例输入计算机,机器通过学习这些范例总结并生成相应的规则,这些规则具有通用性,使用它们可以解决某一类的问题。随后,随着神经网络技术的形成和发展,人们的注意力转向知识工程,知识工程不同于机器学习那样给计算机输入范例,让它生成规则,而是直接给计算机输入 已被代码化的规则,而计算机是通过使用这些规则来解决某些问题 6,7。 数据挖掘技术应用于 泛分布的、高度异构的、半结构化的、相互 联系并且不断进化的信息仓库;是一个巨大的文档累积的集合,包括超链接信息,访问及使用信息。大量的非结构化数据无法使用现有的数据库管理系统来操纵和管理,其用户群体也表现出多样性的特点,这些都对信息系统的研究人员提出新的挑战 7。 因为 与传统的数据挖掘相比又有新的特质。首先, 象是大量异质分布的 个数据源都是异构的;其次, 谓半结构化,是指 是它没有特定的模型描述,每一站点的数据都有各自独立设计,并且数据本身具有自述性和动态可变性,是一种非完全结构化的数据。而传统的数据挖掘的对象局限于数据库中的结构化数据并利用关系表格等存储结构来发现知识,因此有些数据挖掘技术并不适用于 使可用也需要建立在对 2。 通过 数据挖掘 , 个人、企业、网站从 根据各自不同 8 的目的和特点 , 抽取有关数据并且从中发现数据中隐含的规则和知识 , 从而更进一步地获取数据 。 有 3个目标 : 精确度 , 即返回数据符合用户需求的程度 ; 覆盖率 , 即有多少符合用户需求的数据被返回 ; 效率 , 即响应速度 。 现今最流行的 根据挖掘的对象将其分为 :基于内容的挖掘和基于用户使用记录的挖掘 。 ( 1) 是对网页上真正的数据进行挖掘 , 包括网页内容挖掘和推荐结果挖掘。 文本、图像、音频、视频、元数据和超链接 , 也有些如 所含的半结构化数据 , 但大多还是无结构的文本数据。文本、超文本内容的挖掘是 但作为内容挖掘一份子的多媒体数据挖掘近年来受到许多研究人员的关注 , 对于统一表示模型、问题解决及从多媒体数据中学习这些问题的研究非常迫切 , 也将是巨大的挑战 7。 随着 许多只支持由关键词和超链接所构成推荐引擎返回的结果中有许多无用及无关的信息 , 因此 , 要推荐某一给定话 题的 不仅希望得到与之相关的页面 , 还希望所检索的页面具有高质量 , 即针对该话题具有权威性 。 权威性就隐藏在 当一个 这可以看作是作者对另一页面的认可。把一个页面的来自不同作者的注解搜集起来 ,就可以用来反映该页面的重要性 。 因此 , 大量的 量和结构方面的信息 , 这对 ( 2) 在网上的行为 , 比较网站的实际使用与期望的差别 , 根据用户的兴趣调整网站结构 7。 是对 8,如图 这些数据包括 : 客户端数据、服务器端数据和代理端数据。 者是用 如 后者是分析某一时刻每一个用户的访问模式 , 网站根据这些模式自动重建结构 , 如自适应站点。 的 或叫 包括了所请求的 发出请求的 基于 热点的 eb 来发现用户访问 通过分析和探究 可以识别电 9 子商务的潜在客户 , 增强对最终用户的因特网信息服务的质量 , 并改进 甚至建立针对个体用户的定制 站点文件用户会话文件 感兴趣的规则模式规则汇总预处理 挖掘算法 模式分析原始日志图 目前 , 根据数据挖掘的通用方法 , 结合 以将 个步骤 2,如图 网站结构 、 内容目标数据 经过预处理的数据 知识表述模式 、 规则 、统计结果预处理 数据挖掘 模式分析图 ( 1)数据的取样 : 超链接数据和记录用户访问情况的 按照主题相关的原则 , 数据取样从大量数据中取出一个与探索目标相关的数据子集 , 为后面的数据挖掘提供素材和资源 。 ( 2) 数据的预处理 : 数据的预处理是对数据源进行加工处理和组织重构 , 构建相关主题的数据仓库 , 为下一步的数据挖掘过程提供基础平台 , 做好前期准备 。 它主要包括 : 数据清理 , 数据集成 , 数据转换和数据简约 。 ( 3)数据的挖掘 : 这是数据挖掘系统的核心部分 。 它的主要功能是运用各种数据挖掘技术 , 从经过预处理的数据中提取出潜在的、有效的且能被人理解的知识模式 。 10 数据挖掘的目标是描述和预测 , 描述型模式是对数据中存在的规则作一种描述 , 或者根据数据的相似性把数据分组 ; 而预测则是指根据属性的现有数据值找出其规律性 ,进而推测出其在未来可能出现的 属性值 。 ( 4)分析与评估 : 数据挖掘所得到的知识模式需进行可信度和有效性分析 , 并对其做出评估结论 , 为用户的经营决策提供信息支持 。 如何检验得到的分析结果是否有用 , 一个简单的办法是直接使用原来建立模型的样板数据进行检验 ; 另一种办法是另外找一些反映客观实际的规律性数据来检验 ; 再一种办法是在实际运行的环境中取出新数据进行检验 。 ( 5)知识表述 : 知识表述是指用适当的形式将利用数据挖掘工具从 以利于用户接受和相互交流 。 数据挖掘的任务是多方面的 , 主要包括 : 总结 ( 规则挖掘、关联 ( 规则挖掘、分类 ( 规则挖掘、聚类 ( 规则挖掘、预测 ( 分析、趋势 ( 分析、偏差 ( 分析等 。 ( 1)特征抽取 : 通过对数据源的分析 , 提取出关于该数据集的一些总体特征表达式 。 ( 2)关联分析 : 找出相互独立的不同事物之间的关联规则,经过关联分析处理 ,得到结论 。 ( 3)属性分类 : 利用分类器 , 能够把数据集中的数据项映射到某个分类 。 例如 :可建立一 个分类模型 , 对银行贷款的安全或风险进行分类 。 ( 4)聚类分析 : 在没有给定主题类别的情况下 , 通过对数据集的分析和比较 ,把数据划分到不同的组中 , 组之间的差别尽可能小 。 ( 5)时序预测 : 时序预测和关联分析相仿 , 是把数据之间的关联性与时间联系起来 。 为得到时序预测 , 不仅需要知道事件是否发生 , 而且需要确定事件发生的时间。例如 : 情人节前巧克力和鲜花的销量会突然上升 。 在实际应用中 , 数据挖掘必须借助一定的工具,这些工具主要包括代理、查询报表、统计分析、数据发现 (神经网络 / 决策树模型分析 ) 以及 维分析 )和可视化表现等 4。 们往往将 1 信息挖掘与 的信息推荐等同起来,但实际上它们之间是有区别的 9,10,主要体现在: ( 1) 的信息推荐主要是通过查询串来进行推荐,而 息挖掘则能对用户给的复杂目标进行特征抽取,然后根据所提取的特征在网络中进行搜寻。 ( 2)所有的 息挖掘基本上都要用到信息推荐技术,而并非所有的 规律,而 决策使用。由于 结构化的数据结构、开放动态的数据存取等特点,使得 须对挖掘对象进行适当处理,以获得被挖掘对象的有关特征信息。 此如何对 处理而得到关于文档的特征表示,便成为 前各种信息检索工具的研制是 络信息检索工具的核心是其 检索功能。检索功能已经从基本的布尔检索、截词检索、邻近检索、短语检索、字段检索发展为高级的加权检索、自然语言检索、相关信息反馈检索、模糊检索和概念检索,其中的大多数检索都与数据挖掘的算法相关。其逼近能力的研究与实现体现了数据挖掘结果的质量,要实现多路数据的数据挖掘,开发具有较高挖掘质量的检索工具,必须探索一些知识信息处理的方法。目前,支撑矢量机、粗集、进化算法的研究方兴未艾,某些技术已经成功地运用到 几个重要的研究方向 挖掘 源 有关某个主题的信息杂乱地散布在 样就需要有一个强大的推荐引擎 , 定位超文本的位置。现有的 返回的文档过于庞大 , 所包含的内容质量却不高。而且由于很多与话题相关的文档可能不包含相应的查询串 , 导致结果很可能也不全面 , 对文档进行先扩大后缩小的方法来推荐 7。 权威页面的识别 而且还包含了一个页面指向另一个页面的超链接。超链接 12 包含了大量人类潜在 的注释 , 权威性就隐藏在这些超链接中。当一个 可看作是作者对另一页面的认可。把一个页面来自不同作者的注释收集起来 , 就可以用来反映该页面的重要性 , 即用于权威的 样可以进行页面等级的划分,事实上 , ( 1)每一个超链接都代表一个认可 , 例如广告 ; ( 2)由于商业或竞争的考虑 , 很少有 也就是说显著权威 权威页面很少具有特别描述之类的自描述信息,这就需要使用 一个 它提供了指向权威页面的链接集合。 或者说可能没有几个链接指向它们 , 但是 , 类页面可以是主页上的推荐链接列表。 好的 种 可用于权威页面的挖掘和高质量法 op 是利用于 些系统由于纳入 查询效果明显优于基于词类索引引擎产生的结果。 息过滤系统 它从站点中利用内容和结构信息挖掘算法。预处理算法包括识别用户、服务器会话和推断缓存网页。除了创造一个服务器会话文件 , 把服务器会话转换为事件。对服务器会话或事件文件可以进行序列模式分析、关联规则发现 、 聚类等 ,其结果通过简 单的知识查询机制、可视化工具或信息过滤器进行分析 , 形成需要的模式。图 挖掘预处理的输入包括三个服务器日志、站点文件、注册文件及远程代理日志。预处理阶段利用这些输入形成用户会话文件 , 经过事务识别形成用于模式发现的事务文件。模式发现利用现有的数据挖掘方法 ( 关联挖掘、聚类、序列模式挖掘、统计学方法等 ) 产生规则和模式 , 再经过各种模式分析工具得出最终有效知识 7。 13 站点文件存取日志 、 参考日志 、 A g e n 注册信息及远程代理S p i d e 路径补充 、 会话识别 、 用户识别网站拓扑结构用户会话文件网页分类事件识别事务文件标准统计信息包聚类 、 序列模式挖掘 、 关联规则挖掘序列模式 、 用户聚类 、 关联规则使用记录统计信息过滤知识查询机制 O L A P / 可视化图 构 随着网络技术的发展及机器学习、模式识别等知识发现新技术的出现,电子商务竞争已使得信息服务方式从传统的“一对多”发展到“一

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论