版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、Web智能(WI),一、web智能的概念与介绍,1.1 Web智能进展的背景 随着Internet技术特别是WWW技术的飞速发展,因特网已经变成了一个庞大的、分布式的、异构的数据库和应用计算平台。Web的大小和复杂性导致了对web页面的存储、管理和检索的巨大困难,原有的基于数据库和文本的理论、方法和技术很难直接应用到web上,因此,必须增强和发展相关的理论和技术来有效处理与web相关的问题在这样的背景下,一个崭新的研究方向web智能(Web intelligence,WI)应运而生,并已成为一个新的研究热点。,1.1 Web智能进展的背景 WI的研究可以追溯到许多相关领域的研究,如信息检索、数
2、据挖掘、ontology技术、智能Agent和多Agent系统等,这些领域的研究或多或少都已延伸到了Web这个巨大的、分布式计算平台上,然而这些研究都比较分散,没有一个统一一致的研究目标。WI就是要致力于将这些分散的研究统一起来,并进一步探索和研究更新的理论、方法和技术,因此,WI的提出具有非常重要的意义。 WI是信息技术在Web时代最为关键和紧急的研究领域之一,体现了计算机网络与人工智能两个领域在高层次上的结合和创新。,一、web智能的概念与介绍,一、web智能的概念与介绍,1.2 Web智能的概念 Web智能(Web intelligence,WI)是一个崭新的研究方向,要想给出它的一个精
3、确的定义是非常困难的,总的来说,不外乎下列两种: (1) WI是指在web和Internet上充分利用人工智能(AI)和高级信息技术(IT)WI的目标是AI和IT在新的Web平台上的联合目标,即WI将AI和IT应用到基于Web的智能信息系统的设计与实现上。,一、web智能的概念与介绍,1.2 Web智能的概念 (2)WI是指在Web支持的系统、环境和活动中,探测人工智能和高级信息技术的基本作用和实际影响。WI的目标是产生使我们能够在生活、工作和娱乐中充分利用web基础结构所提供的全局连通性的理论和技术。 综上两个定义可以得到这样一个定义公式:WI=AI+IT。这个公式说明AI和IT是WI的基础
4、,WI是AI和IT的融合。,一、web智能的概念与介绍,1.2 Web智能的概念 其他学者提出了计算Web智能 ( computational web intelligence,CWI)的概念,即将计算智能(computational intelligence,CI)与高级信息技术结合起来并应用到web上,并列出CWI技术的7个主要研究领域,即模糊 WI (fuzzy WI,FWI)、神经网络 WI (neural WI,NWI)、 进化 WI (evolutionary WI,EWI)、概率 WI (probabilistic WI,PWI)、粒度 WI (granular WI,GWI)、
5、粗糙 WI (rough WI,RWI)和混合 WI (hybrid WI,HWI)在他们看来,WI定义中的AI是指经典的基于符号的AI其实,就像CI与AI的关系一样,从广义上来说,WI应该包括CWI,CWI是WI重要的组成部分。,一、web智能的概念与介绍,1.3从不同角度理解Web智能 (1)智慧Web角度 智慧Web,可以简单地理解为在合适的时间(Right Time),将合适的内容( Right Content)和合适的服务( Right Service )提过给合适的对象( Right Object)。 (2)物联网角度 在HTTP、HTML/XML等Web核心技术的支持下,一个全新
6、的信息网络正在形成,它在人的社会世界和物的物质世界之间构建了一个飞速发展的信息世界。 当前,Web2.0、Web3.0、云计算、SmartWorld等各种基于互联网/物联网的广泛应用,一个涵盖了人、机、物的超世界将形成。,一、web智能的概念与介绍,1.3从不同角度理解Web智能 其中,超世界的基础是数据,要实现超世界中人-机-物的有机融合与和谐共存共生,就需要一个高效的循环系统来实现“物-数据-信息-知识-智慧-服务-人-物”的数据循环。该系统必须能及时、准确地捕捉超世界中不断的人和物的情况,从中抽取信息、知识,“智慧”地理解用户的真实需求,将主动的、透明的、安全的、可信的服务提供给用户。
7、总之,除了上面两种角度理解Web智能,还能从功能和技术的角度、Web信息系统角度、问题解决角度、人机交互角度以及人工智能研究角度。,一、web智能的概念与介绍,1.4 Web智能的功能与技术框架 从功能和技术层次上来说,WI技术至少可以分成如图1所示的4个概念层次:,图1 WI的概念层次,一、web智能的概念与介绍,1.4 Web智能的功能与技术框架 (1)因特网(Internet)层:通信基础设施和安全协议 。Web被看作一个计算机网络系统。WI技术需要解决web的分布式存取问题、安全和通信问题以及网络本身的特性研究问题。其中,WI技术包括Web预存技术,即是通过建立基于Web冲浪模式的We
8、b数据存取系统来解决Web时延问题。 Web预存取的智能来自于建立在用户冲浪行为观察的自适应学习过程。 (2)接口层:多媒体表征标准。Web被看作人与Internet交互的接口,在该层,WI技术需要开发具有交叉语言处理能力、个性化多媒体表示能力和多模式处理能力的智能web接口。,一、web智能的概念与介绍,1.4 Web智能的功能与技术框架 (3)知识层:信息加工和管理工具。Web被看作一个分布式的知识库/数据库。我们需要开发语义标记语言来表示web的语义内容,使机器理解和基于Agent的自动计算成为可能,比如网上搜索、聚合、归类、过滤、管理、挖掘以及推理。 (4)应用层:普适计算和社会智能实
9、体。Web被看作建立社会智能网络的基础WI技术需要对建立在Internet上的社会网络或各种虚拟社团提供智能支持进一步地,WI技术还要对日趋增长的各种无线普及设备的访问提供个性化服务 此外,对于一个具体的应用来说,一般要涉及到其中的几个层次或需要几个层次从下到上的共同支持。,二、Web智能的基础理论,为了能够深入的揭示复杂系统及Web研究的行为特征和研究Web智能的基础理论,刘际明在自治智能体的基础上提出了以面向自治的思想来概括这些复杂度系统及Web研究的一系列理论和方法,主要解决复杂的难以计算的问题,刻画它们的行为特征,挖掘它们的行为规律。 面向自治的计算(Autonomy-Oriented
10、 Computing,AOC),是一种由多个计算体构成的自下而上的计算系统,其中计算体最重要的特性就是自治。自治计算是一种处理大规模、分布式、异构、动态、开放系统中的问题求解方法,主要用来分析、刻画和重构复杂系统的自治行为和特征,并为复杂问题求解提供有效的解决途径。,二、Web智能的基础理论,AOC方法在WI中的应用: 推广面向自治计算方法的应用,为Web智能应用提供理 论及技术支持 2. 设计不受网络拓扑结构制约的分布式免疫策略,根据局部启发信息,自组织性和正反馈机制挖掘网络重要节点,抑制病毒传播,保护网络安全。 3. 推动网络搜索技术的研究,提高查询路由效率,降低搜索成本。,二、Web智能
11、的基础理论,Web问题求解是Web智能研究的核心问题之一。在海量的数据的背景下,即使对于较为简单的问题,如果要得到一有效解,也必须考虑很多方面的因素。以Web推理为例,传统的推理系统在中、小规模的知识库上取得了较大的成功,但在Web上,即使积累了足够多的基于Web知识表示的知识后,当研究者们、实践者们试图将传统的推理方法、推理系统运用到Web尺度的数据上时却发现了瓶颈。 粒计算是研究基于多层次、多视角粒结构的结构化思维方式、结构化问题求解和结构化信息处理的相关理论、技术和工具的学科。,二、Web智能的基础理论,基于粒计算的Web检索与推理 1.Web检索支持系统的粒计算框架 主要包括: 用户接
12、口子系统 文献信息子系统 检索子系统 基于知识的管理子系统,二、Web智能的基础理论,粒计算,2,二、Web智能的基础理论,2.从粒度的视角融合Web规模的搜索与推理 一个简单的搜索查询将会无休止地返回巨量的可能的答案,而用户则需要从冗长的返回结果列表中艰难地挑选出感兴趣的结果。而若在搜索查询的基础上运用逻辑推理,则得到的结果是最为正确的。 这一思想可以总结为通过推理来改善搜索,通过搜索到与需求相关的Web规模数据集中的一个子集,并在此子集基础上进行推理。,二、Web智能的基础理论,WA是指Web环境中具有自治性、能动性、反应性和社会性的软件实体。WA的作用主要体现在两个方面:其一是作为自治的
13、实体探测(explore)和利用(exploit)基于Web的服务,其二是作为原型实体展示和解释web产生的规则以下给出二者的详细描述,二、Web智能的基础理论,基于web的服务探测和利用: (1)向用户提供个性化多模式界面 (2)提供Push和Pull功能 (3)具有模式发现和自组织功能 (4)信息网关的作用 (5)引导用户的访问行为 (6)进行合式商品匹配 (7)帮助用户进行决策 (8)作为用户代表 (9)对合作工作的支持,三、Web知识表示与推理,知识的定义: 知识是人们在长期的生活及社会实践中积累起来的对客观世界的认识与经验,人们把实践中获得的信息关联在一起,就获得了知识。 知识反映了
14、客观世界中事物间的关系,不同事物或者相同事物间的不同关系形成了不同的知识,知识表示的定义: 所谓知识的表示实际上是对知识的一种描述,或者说一种约定,一种计算机可以接受的用于描述知识的数据结构。 对知识的表示过程就是把知识编码成某种数据结构的过程。 知识表示是研究用机器表示知识的可行性、有效性的一般方法,是一种数据结构与控制结构的统一体,既考虑知识的存储又考虑知识的使用。知识表示可看成是一组描述事物的约定,以把人类知识表示成机器能处理的数据结构。,三、Web知识表示与推理,常用的知识表示方法 . 一阶谓词逻辑表示法 采用一阶谓词逻辑表示知识 属叙述性知识表示 有严格的数学基础 . 产生式规则表示
15、法 将知识表示成“if then”的形式; 表示方法自然、简洁; III. 框架表示法 将知识表示为层状结构,一个对象或概念的所有信息均属于该层次的结构中; 该层次结构还可以表示对象间的关系; 该层次结构由一系列的“槽”和相关于“槽”的一系列“侧面”组成;,三、Web知识表示与推理,. 语义网络表示法 采用结点和结点间的弧表示对象、概念及其相互关系。 语义网络表示由下列4个相关部分组成: 1词法部分:决定表示词汇表中允许有哪些符号,它涉及 各个节点和弧线。 2结构部分:叙述符号排列的约束条件,指定各弧线连接的节点对。 3过程部分:说明访问过程,这些过程能用来建立和修正描述,以及回答相关问题。
16、4语义部分:确定与描述相关的(联想)意义的方法即确定有关节点的排列及其占有物和对应弧线。,三、Web知识表示与推理,语义Web知识表示: 上述传统的知识表示,通常是集中式的,这意味着每个人对于共同的概念,必须使用完全一样的定义。例如大家一般都知道爸爸、父亲、爹,是同一概念,但是计算机一般会将其当作三个概念。 语义Web是一个数据和知识多对多交换的大平台,其核心内容是建立一个语义明确的信息空间。毫无疑问,其中需要解决的关键问题就是语义的表达。这种语义信息要求定义完整、无歧义并能支持逻辑推理。为使语义Web工作,计算机必须能访问结构化的信息集合以及一套推理规则并据此进行自动推理,因此必须首先提供W
17、EB上信息的合适的表示方法。在WEB上进行知识表示时,采用单一的知识表示方法往往不够。目前,在语义Web中应用最广泛的是基于框架、描述逻辑以及谓词逻辑的方法。,三、Web知识表示与推理,语义Web知识表示语言:OWL OWL(Web Ontology Language,Web本体语言)是被W3C推荐为标准的,专门为描述语义Web上的本体而改计的描述逻辑语言,有清晰的语义,具备很强的知识表示能力。一个OWL本体中的大部分元素是与类(class)、属性(property)、类的实例(instance)及这些实例间的关系有关的。 OWL的两种语义表达能力: 1 类定义和属性定义 许多情况下,使用本体
18、是为了用它进行关于个体的推理。为了在一种有效的方式下做到一点,我们需要一种机制来描述个体所属的类以及这些个体通过类成员关系而继承得到的属性。尽管我们总能为个体声明特定的属性,但是本体的大部分能力在于基于类的推理。 2 0WL公理 OWL公理,相当于对OWL的类、属性、实例进行说明,主要提供一种强有力的推理机。这些公理为本体的合并、映射提供了具体的条件约束,使得本体合并以及概念共享的实现变得更为简单,OWL中提供的公理有下面几种:类公理、属性公理、实例公理。,三、Web知识表示与推理,知识推理的定义: 推理就是依据一定的原则从已有的事实推出结论的过程,这个原则就是推理控制策略。 知识推理是指在计
19、算机或智能机器中,利用形式化的知识进行机器思维和求解问题的过程。,三、Web知识表示与推理,推理与知识表示方法直接相关,产生式规则表示方法提供了最基本的推理模式。他与框架、谓词逻辑等其他表示方法相结合,可提供功能更强、更灵活的推理方法。 语义网络推理机: 基于语义网络,通过继承和匹配来实现问题求解。其推理步骤为: 根据求解问题的要求构造一个网络片断,其中有些节点或弧的表示为空,用来反映待求解的问题。 依据此网络片断到知识库中去寻找可匹配的网络,以找出所需要的信息。这种匹配一般不是完全的,具有不确定性,因此需要解决不确定性匹配问题。 当问题的语义网络片断与知识库中的某一语义网络片断相匹配时,则与
20、该网络相匹配的事实就是所求问题的解。,三、Web知识表示与推理,前向链推理方法: 允许在大量规则集上实行推理和演绎操作,并可在推理所得的结果集行搜索。前向链推理算法描下: 1初始化推理规则和事实集; 2根据当前的事实集,决定哪些推理规则可用; 3如果无规则可用,则退出; 4如果同时有多条可用规则,则通过冲突消解策略选择其中的一条规则; 5应用选定的规则进行推理,将规则的后件或结论添加至事实集中; 6重复第2步,三、Web知识表示与推理,四、Web数据挖掘,1、Web数据挖掘的概念,Web数据挖掘(Web Mining),简称Web挖掘,是由Oren Etzioni 在1996 年首先提出的。它
21、是数据挖掘技术和Internet应用研究相结合的研究领域。一般,对Web数据挖掘定义如下: Web挖掘是指从大量的Web数据中发现新颖的、潜在可用的及最终可以理解的知识的非平凡过程。Web挖掘是数据挖掘技术和Internet 应用研究相结合的产物,其涉及的技术覆盖了多个研究领域,包括数据库技术、信息获取技术、统计学、机器学习、神经网络等。,1、Web数据的特点,Web上的数据与其他的数据相比较存在着明显的特点,这些特点使得Web挖掘在方法和技术方面与传统的数据挖掘有着显著的不同。Web数据的特点如下: (1)异构数据库环境 Web上的每一个站点就是一个数据源,每个数据源都是异构的,因而每一站点
22、的信息和组织都不一样,这就构成了一个巨大的异构数据库。 (2)分布式数据源 Web页面散布在世界各地的Web 服务器上,形成了分布式数据源。,四、Web数据挖掘,(3)半结构化 半结构化是Web上数据的最大特点。Web上的数据非常复杂,没有特定的模型描述,是一种非完全结构化的数据,称之为半结构化数据。 (4)动态性强 Web 是一个动态性极强的信息源,信息不断地快速更新,各站点的链接信息和访问记录的更新非常频繁。 (5)多样复杂性 Web 包含了各种信息和资源,有文本数据、超文本数据、图表、图像、音频数据和视频数据等多种多媒体数据。,四、Web数据挖掘,3、Web数据挖掘的分类 Web 挖掘技
23、术根据挖掘的方向一般分为四类:Web内容挖掘,Web结构挖掘,Web使用记录的挖掘和Web用户性质挖掘。 (1) Web内容挖掘(WCM,Web Content Mining) Web内容挖掘是指从大量的Web数据中发现信息、抽取知识的过程。从内容方面,Web内容挖掘可分为Web文本挖掘和Web多媒体挖掘。 (2) Web结构挖掘(WSM,Web Structure Mining) Web结构挖掘是从Web的组织结构、Web文档结构与其链接关系中挖掘潜在的知识和模式。,四、Web数据挖掘,(3)Web使用记录挖掘(WUM,Web Usage Mining) Web使用记录挖掘是应用数据挖掘技术
24、从Web数据中发现用户访问模式的过程。 (4)Web用户性质挖掘 通过对Web用户自建的RSS等Web2.0功能模块下客户信息的统计分析,能够帮助运营商以较低成本获得准确度较高的客户兴趣倾向、个性化需求以及新业务发展趋势等信息。,四、Web数据挖掘,Web数据挖掘过程是一个完整的KDD 过程, 但是与传统的数据和数据仓库相比,Web上的信息是非结构化或半结构化的、动态的、并且是容易造成混淆的,所以很难直接以Web网页上的数据进行数据挖掘,而必须经过必要的数据处理。典型Web 挖掘的处理流程如下图所示,包括如下四个过程:,Web挖掘的基本过程图,4、Web数据挖掘过程,四、Web数据挖掘,查找资
25、源: 根据挖掘目的,从Web 资源中提取相关数据,构成目标数据集,Web 数据挖掘主要从这些数据通信中进行数据提取。 数据预处理: 在进行Web 挖掘之前对“杂质”数据进行过滤。数据预处理主要包括站点识别、数据选择、数据净化、用户识别和会话识别等。 模式发现: 利用挖掘算法挖掘出有效的、新颖的、潜在的、有用的及最终可以理解的信息和知识。常用的模式发现技术包括:路径分析、关联规则挖掘、时序模式发现、聚类和分类等技术。 模式分析: 利用合适的工具和技术对挖掘出来的模式进行分析、解释、可视化,把发现的规则模式转换为知识。,四、Web数据挖掘,5、常用的数据挖掘技术 常用的数据挖掘技术主要有以下四种:
26、 路径分析技术 关联规则技术 序列模式挖掘技术 聚类分类技术 由于时间的关系对这四种基础的数据挖掘技术就不在详细介绍了,有兴趣的同学课后可以具体了解下。,四、Web数据挖掘,6、Web挖掘的研究展望 在未来一段时间内,Web 挖掘研究的焦点可能会集中到以下几个方面: 高性能Web 搜索引擎 搜索引擎的最终目标是“理解用户需求精确返回所需”,如何翻译用户的非专业搜索请求,实现自然语言处理,涉及兴趣爬虫、元搜索引擎、垂直搜索等方面的研究。 Web 数据的特征描述与监控 如何表示Web文本内容的特征数据,如何表示和识别Web中的图像等多媒体数据,进而进行网页分类、内容跟踪、过滤和报警等,对于不良网站
27、的监控等有着积极意义。 Web数据的获取与集成 包括Web文本特征的提取和表示,如何用一种广泛兼容的半结构化数据模型表示网页;如何抽取动态网页中的数据;如何在分布的Web 中获取信息等。,四、Web数据挖掘,WI是一个崭新的、非常有前途的研究领域,该领域已成为国内外学者的研究热点,并已取得了许多研究成果,但还有很多关键的问题尚待解决。下面我们通过几个实例了解一下Web智能的应用。,五、Web智能的应用,(1)Ronald R.Yager设计了一种模糊智能Agent系统以帮助广告商制定电子商务冈站上的广告显示决策”。Ronald R .Yager研究了当网站中包含有多个广告商投放的广告,以及单个
28、广告商投放的多个广告的情况下,如何实现对于不同类型的访问用户显示某个适合的广告。他将模糊系统应用到了智能Agent框架中,其中模糊规则的前提表示访问用户的特征,而结论表示评价值。Agent系统通过电子商务网站的网页收集访问用户的特征信息,通过模糊系统得到一个与该用户的类型相关的评价值,通过对评价值的比较来决定访问用户是否是潜在的购买者,以及应该对其显示哪种商品的广告。与传统媒体的广告方式相比,电子商务网站可以凭借即时性信息处理的优势为不同的用户提供特定的广告,实现目标式营销。,五、Web智能的应用,(2)Ponthap Rojanavasu提出了一种采用粗糙模糊集理论的Web搜索Agent系统。系统为用户分别创建了包含不同分类的用户描述文件,在每个分类中的词为同义词,并且各个同义词具有不同的权值。应用粗糙模糊集理论,将词汇域定义为论域,将用户描述文件中的分类看成是论域上的等价关系。当用户查询时,将用户的查询条件作为参考集,应用粗糙模糊集理论对查询条件进行细化后得到查询条件的上近似(upper approximation)和隐藏近似(hidden approximation),然后将查询条件的上近似和隐藏近似作为新的查询条件提交给搜索引擎进行搜索。对搜索引擎返回的搜索结果web页进行模糊处理,根据Web页面的内容
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026江苏无锡市惠山区人民法院社会招聘编外人员5人备考题库【a卷】附答案详解
- 计算机保密管理
- 现代管理的定义
- 2026福建福州市光荣院招聘行政人员1人备考题库【能力提升】附答案详解
- 2026上半年四川事业单位统考遂宁市考试招聘174人备考题库附答案详解【b卷】
- 2026中国资源循环集团有限公司春季校园招聘备考题库及完整答案详解(考点梳理)
- 2026湖北宜昌市“招才兴业”教育系统事业单位校园专项招聘7人备考题库(三峡大学站)(轻巧夺冠)附答案详解
- 2026浙江招聘衢州市乡村振兴发展有限公司劳务外包工作人员6人备考题库及完整答案详解(网校专用)
- 2026浙江杭州上城区城市建设投资集团有限公司下属子公司招聘工作人员2人备考题库及答案详解(历年真题)
- 2026内蒙古锡林郭勒盟金盾押运服务有限公司招聘5人备考题库【名校卷】附答案详解
- Jetpack Compose入门到精通完整版
- 蜱虫防治教学课件
- 2025年黑龙江省纪委监委遴选笔试真题及答案解析
- 做账实操-金属制品有限公司成本核算SOP
- 老年性发声障碍嗓音声学评估与方案
- 认缴股权转让合同范本
- 经典安徽菜烹饪大全
- 购买资产包的合同范本
- 幼儿园大班语言《春天是一本书》课件
- 【《突发事件网络舆情管理研究的国内外文献综述》4600字】
- 职称评聘管理办法华润
评论
0/150
提交评论