概率数据库理论介绍综述课件_第1页
概率数据库理论介绍综述课件_第2页
概率数据库理论介绍综述课件_第3页
概率数据库理论介绍综述课件_第4页
概率数据库理论介绍综述课件_第5页
已阅读5页,还剩51页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

概率数据库理论计本一班李东伟Thetheoryofprobabilisticdatabases简介在许多现实的应用中,如过程监控,决策分析,遥感等领域,数据的不确定性普遍存在。传统的数据管理技术却无法有效管理不确定性数据,人们开始探讨数据不确定性的本质。

上世纪八十年代末开始出现的概率数据库(probabilisticdatabase)研究,这一研究认为元组在数据库中的存在具有不确定性、属性值具有不确定性、查询应答也具有不确定性。

但是,一直以来,人们对不确定性问题认识不足,这也决定了人们对待不确定数据管理的态度,很多研究工作虽然遇到了不确定性问题,但往往采取传统的“去除不确定性”方法避开对不确定数据的管理。课程号课程名学生C201201数据结构70C201202操作系统60C201203计算机原理60课程关系C属性属性值关系模式元组1元组2元组3关系状态举个简单的例子来比较一下确定与不确定数据精确集合131X=6举个简单的例子来比较一下确定与不确定数据113模糊集合数据库存储信息。信息的存储形式,历来被认为是简单的事实,如“SupplierXsuppliespartY“从数据建模的观点看,许多情景要求更复杂是信息形式可以用来回答下面这样的问题。1.供应商X供应的Y的这部分有多可靠。2.如果一个X类型的人已经买了产品Z,那么他还会买产品Y有多大可能性(或者说他再买Y的可能性会不会更大?3.如果X已知,则关于Y的有多少额外的信息能有Z提供。

随着信息管理技术的发展,现代社会已步入信息社会,信息量与日俱增。而与此相矛盾的是,在某一方面,信息量又显得非常匮乏,所掌握的信息也同时存在不确定性和不完全性。1:实体(Entity)与实体集 实体是指客观存在并可以相互区分的事物。具有相同属性的实体可构成一个实体集。2:属性

属性(Attribute)是指实体集中所有实体所具有的共同特征。

3:联系与联系集

联系(Relationship)是指实体集间有意义的相互作用。实体间的联系有一对多联系,一对多联系和多对多联系。具有相同属性的联系属于同一联系集(RelationshipSet)。

班级名学生班级属于班主任姓名性别年龄学号学生性别年龄学号班级姓名学生性别年龄学号MN这里,我们需要先来简介下传统的数据库。在传统数据库的应用中,数据的存在性和精确性均确凿无疑。在关系数据库模型概念中最重要的是信息与信息保存。关系模型的基本原理是信息原理:所有信息都表示为关系中的数据值。通常,一个关系数据库(RDB)被定义为一个有限的关系集合,其中每个关系是一个笛卡尔积的子集,称为域(domain)。也就是域是一组具有相同数据类型的值的集合。一个关系通常是由赋予它的元组语义来确定的。凡符合元组语义的那部分元素的全体就构成了该关系模式的关系。1.关系和概率数据库定义:设有属性集A1和A2分别在值域D1和D2中取值,则两个属性集的笛卡尔积定义为:笛卡尔积是集合论中的基本概念之一,由下面的定义给出。例如,A={a,b},B={0,1,2},则AxB={<a,o>,<a,1>,<a,2>,<b,0>,<b,1>,<b,2>,}BxA={<0,a>,<0,b>,<1,a>,<1,b>,<2,a>,<2,b>}下面我们先来说一下笛卡尔积。则D1,D2,D3的笛卡尔积为:

D1×D2×D3={(张清玫,计算机专业,李勇),

(张清玫,计算机专业,刘晨),

(张清玫,计算机专业,王敏),

(张清玫,信息专业,李勇),

(张清玫,信息专业,刘晨),

(张清玫,信息专业,王敏),

(刘逸,计算机专业,李勇),

(刘逸,计算机专业,刘晨),

(刘逸,计算机专业,王敏),

(刘逸,信息专业,李勇),

(刘逸,信息专业,刘晨),

(刘逸,信息专业,王敏)}例

给出三个域:

D1=SUPERVISOR={张清玫,刘逸}

D2=SPECIALITY={计算机专业,信息专业}D3=POSTGRADUATE={李勇,刘晨,王敏}课本中的笛卡尔积对于任何关系,关系中关联着域的属性集被称为一个关系模式,关系模式集被称为一个关系库模式。 通常,我们定义一个关系数据库(relationaldatabase)是一个集合RD={B1,.....,Bn}。这里每个RD中的元素B是一个关系系统,B=。●是组成该关系的属性名非空集合。●是属性集U中属性所来自的域。●是属性间的数据依赖关系集合。我们经常会谈到这个关系而不是全部的数据系统。●dom是每个属性向域的映像集合。它常常直接说明属性的类型,长度。(Bi中所有可能的元组,,简称Ti;)B=一个概率系统,就像一个关系系统。是一个四元组,但是它的第四个分量p是一个类型T->[0,1]的函数,限制为。我们指p是V上的一个分布。一个概率数据库(PDB)是概率系统中的概率数据的集合。PDB提供一种表示信息类型的不能被关系数据库捕捉的方法。用这种方法,关系数据库理论中所有的数据模式概念和机制被运用到更复杂的模式情景。2.信息和约束2.1信息内容一个重要的思想关联着关系当用在数据库上就是信息。任何关系,在它的域的范围内不是满的笛卡尔积,它就会有约束。一个具有约束的分布函数使元组T在一定程度上偏离了均匀分布。信息熵:信息的基本作用就是消除人们

对事物的不确定性。变量的不确定性越大,熵也就越大,把它搞清楚所需要的信息量也就越大。一个变量取值的信息量可以看作是它带来的“使人惊讶的程度”,一个必然事件没有任何信息量,而一个极其偶然的事件的发生则会使人非常“惊讶”,因而包括大量信息。自然地,信息量的概率就与变量的概率分布联系在了一起。香农熵(ShannonEntropy)成功表达了一个离散型变量所带来的平均信息量:设H是一个离散概率分布的(香农)熵。规定:0log0=0;显然H≥0;让我们考虑一系列可以生成随机数的程序。如果我们知道这些程序生成的随机数就是1,2,3,..,n个,并且每个数字出现的概率是不一样的,不妨设概率分别是p1,p2,…,pn。那么不同的程序就会有不同的生成数字的概率。

假如一个程序生成3的概率是99%,而另一个程序生成1~n个数都是可能的,这件事儿我们如何用数学来刻画呢,这就是Shannon找到的信息熵公式:对于第二个程序,如果所有的数字都是等可能的,那么p1=p2=…=pn=1/n,那么H=log(n)。显然第二种情况下的H大于第一种情况。所以H可以描述这些随机生成数程序的信息量大小。可以验证一下,对于第一个程序,如果确定生成3,所以p3=1,其他的p=0,那么H(0,0,1,…)就是0。对于第二种情况,H的计算过程如下:H(1/n,...,1/n)==log(n)由例子,我们可以得到一个重要的熵的特性:设N是系统S内的事件总数,则熵

。当且仅当p1=p2=....=pn时,也既p=,等号成立,此时系统S的熵最大。我们来看一下关系数据库中的投影定义:关系R上的投影是从R中选择若干属性列组成新的关系。记作:其中,A为R的属性列。这个操作是对一个关系进行垂直分割,投影运算的直观意义如图2-2所示。我们举一个实际的例子。设有一个学生情况表(student).查询学生情况表中的学生的学号和姓名。或投影:这里设P是一个关系,分布p,模式为V,让。则p到Z上的投影(Projection)是:且我们引用作为一个投影操作的结果。这个定义的有道理的,(当处理一个关系系统和特征函数r,对概率系统这个定义是相同的,除了操作被max取代。与关系数据库中符号相对应。这里,在后一个表达上,r是被特征函数取代。)系统将作为P的一个子系统被引用,且Z是V的一个子模式(dom|z是dom到z的限制。)一个p分布在数据库模式X=(V1,...Vk)上的投影是一个(数据库实例)子分布。分布在数据库模式的投影是:eg:p1(v1v2=00)=p(v1v2v3=000)+p(v1v2v3=001)例如:数据库中的依赖关系:依赖数据依赖函数依赖多值依赖学号->姓名语文成绩+数学成绩=总成绩

数据依赖的主要类型函数依赖(FunctionalDependency,简记FD)多值依赖(MultivaluedDependency,简记MVD)连接依赖(JoinDependency)在一个标准简单的数据库应用中,数据依赖经常可以由属性的意义推出,由应用所确定。在复杂的科学数据库情景中,经常的情况是依赖不能被事先预知。201201->郭靖通常在数据库上执行的操作(例如连接)可能导致一个分布p被一个分布q取代。为了发展大概的妥善的连接依赖的(数据库分解)的模糊想法,我们用一个信息损耗的方法作为代替。另一方面,我们也想要一种方法。PDB如何准确地确定在一些属性集(例如,)的一个分布,当这种分布是在数据库中一个单一的概率系统没有展示的时候。由于依赖这个关系重点我们在后面用到,这里我先简介一下最基本的函数依赖;函数依赖简单点说就是:某个属性集决定另一个属性集时,称另一属性集依赖于该属性集。函数依赖:

设X,Y是关系R的两个属性集合,当任何时刻R中的任意两个元组中的X属性值相同时,则它们的Y属性值也相同,则称X函数决定Y,或Y函数依赖于X。说明:

1.函数依赖不是指关系模式R的某个或某些关系实例满足的约束条件,而是指R的所有关系实例均要满足的约束条件。

2.函数依赖是语义范畴的概念。只能根据数

据的语义来确定函数依赖。

例如“姓名→年龄”这个函数依赖只有在不允许有同名人的条件下成立对于一个概率系统,其中有X,YV,以及X和Y在p上适当的投影。当且仅当这里H(Y|X)是X对Y的条件下的熵,也可以被定义为定义:以后,我们用YX表示YUX明显地,H(Y|X)=0意味着一旦属性X上的元组值已知,则属性Y上的元组就没有了不确定性可能。)H(Y|X)的值可以衡量大概的函数依赖。H(Y|X)离0越远,依赖性越弱。H(Y|X)能获得的最大值是H(Y),当X与Y没有关联性时。因此,一个可信的方法,关联着一个给定的系统P,是定义:关于多值依赖:定义:设R(U)是属性集U上的一个关系模式。X,Y,Z是的U的子集,并且Z=U-X-Y。关系模式R(U)中多值依赖X→→Y成立,当且仅当对R(U)的任一关系r,给定的一对(x,z)值有一组Y的值,这组值仅仅决定于x值而与z值无关。

若X->->Y,而Z=空集,则称X->->Y为平凡的多值依赖。否则,称X->->Y为非平凡的多值依赖。

举例如下,有这样一个关系<仓库管理员,仓库号,库存产品号>,假设一个产品只能放到一个仓库中,但是一个仓库可以有若干管理员,那么对应于一个<仓库管理员,库存产品〉有一个仓库号,而实际上,这个仓库号只与库存产品号有关,与管理员无关,就说这是多值依赖。例:在关系SC(Sno,Cno,Grade)中,非平凡函数依赖:(Sno,Cno)→Grade

平凡函数依赖:(Sno,Cno)→Sno(Sno,Cno)→Cno定义:

关系模式R<U,F>的一个分解:ρ={R1<U1,F1>,R2<U2,F2>,…,Rn<Un,Fn>}U=U1∪U2∪…∪Un,且不存在Ui

Uj,Fi为F在Ui上的投影。我们再来看数据库分解!1.SL分解为下面三个关系模式:

SN(Sno)SD(Sdept)SO(Sloc)分解后的关系为:模式的分解(续)分解后的数据库丢失了许多信息例如无法查询95001学生所在系或所在宿舍。如果分解后的关系可以通过自然连接恢复为原来的关系,那么这种分解就没有丢失信息我们注意到,除个别情况,一般分解后的关系模式包含不了原关系模式下的全部信息。也就是说,一般情况下用分解后的关系是恢复不了(或者说重建不了)原关系的。2.SL分解为下面二个关系模式:

NL(Sno,Sloc)

DL(Sdept,Sloc)

分解后的关系为:NL∞DL比原来的SL关系多了3个元组

无法知道95002、

95004、95005

究竟是哪个系的

学生

元组增加了,

信息丢失了第三种分解方法3.将SL分解为下面二个关系模式:

ND(Sno,Sdept)NL(Sno,Sloc)

分解后的关

系为:

NDNL────────────────SnoSdeptSloc────────────────95001CSA95002ISB95003MAC95004CSA95005PH

B────────────────

与SL关系一样,因此没有丢失信息。具有无损连接性的模式分解关系模式R<U,F>的一个分解ρ={R1<U1,F1>,R2<U2,F2>,…,Rn<Un,Fn>},若R与R1、R2、…、Rn自然连接的结果相等,则称关系模式R的这个分解ρ具有无损连接性(Losslessjoin)具有无损连接性的分解保证不丢失信息无损连接性不一定能解决插入异常、删除异常、修改复杂、数据冗余等问题概率数据库是怎么产生的?1)基本概念:客观世界的现象或过程中,存在以下两种基本情况:

**确定性:有规律性或无规律性,可预测性强,解释的唯一性,只有一种可能;有的测得准.

**不确定性:规律性不明显,时有时无,可预测性差,多种解释,多种可能,有的测不准.概率数据库可以存储那些不能用关系模型所代表的信息类型。概率数据库也可以被看做是一般化的关系数据库。任何关系数据库都可以被一个没有信息丢失的概率数据库代表。①数据固有的不确定性②数据获取过程中引起的不确定性③数据处理过程中引起的不确定性④数据转换过程中引起的不确定性⑤数据传输过程中引起的不确定性⑥数据提取与分类过程中引起的不确定性⑦数据应用不当引起的不确定性2)产生原因:

现在认为一个数据集成系统需要在三个层次上处理不确定性不确定性数据源、不确定性模式映射、不确定性查询。

系统的基本框架结构

如图5所示。中介模式数据源D4不确定性查询数据源D1数据源D2数据源D3数据源D5数据的不确定本质和数据集成过程中的不确定因素决定了数据集成系统具有不确定性。基于中介模式的一个例子数据源1:学生表数据源2:课程表姓名学号年龄性别郭靖11110124男黄蓉11110223女郭靖英语历史数学NN黄蓉英语物理化学数学美术基于中介模式,我们现在要查询学生郭靖的信息数据库系统要将郭靖同学所在的两个(也可能会有更多)表调出,利用模式映射技术构造中介模式,形成一个二维表。如图所示。姓名学号年龄性别选课郭靖11110124男英语历史数学NN黄蓉11110223女英语物理化学数学美术不确定数据库建模的研究工作很多,可能世界模型则是应用最广泛的数据模型。在该模型中,各元组的任一合法组合均构成一个可能世界实例(instance),实例的概率值可以通过相关元组的概率计算得到。ID信息概率1A0.32B0.73C0.6图2(a)是一个不确定性数据库,包含三个元组,概率字段表示该元组的发生概率。元组之间可能独立也可能存在依赖关系。首先假设各个元组之间独立,则共有23=8个可能世界实例,各实例的概率等于实例内元组的概率乘积与实例外元组的不发生概率的乘积,如图2(b)所示。(a)一个不确定数据库样例元组独立:(b)

PW

P(PW)

{}0.084{1}0.036{2}0.196{3}0.126{1,2}0.084{1,3}0.054{2,3}0.294{1,2,3}0.126假设规则为:

,即元组1与元组3不能够同时发生,但可以同时不发生。总共有6个可能世界实例,如图(c)所示。某些场景下,元组之间并非独立,而是存在依赖关系,这种依赖关系可以用规则描述。图C依赖规则:PW{

}{1}{2}{3}{1,2}{2,3}P

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论