




已阅读5页,还剩3页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Efficient Indexing Methods for Probabilistic Threshold Queries over Uncertain DataAbstract一个传感器数据库是不可能包含每个传感器在各个点的精确数据的。这个不确定性在这些系统里面是固有的,因为测量和采样的误差以及资源的局限性。为了避免基于过期的数据得出错误的结论,采用不确定间隔时间来对每个数据建模,成为一个范围以及概率密度函数(pdf),被广泛应用。查询这些不确定性数据以概率的形式引进不精确到结果。虽然结果概率时有用的,但是对于很多应用来说,它们的精确度没有那么关键。实际上,对于很多查询只需要知道概率是否超过一个给定的阈值我们把这些查询叫做概率阈值查询(PTQ)。这篇论文就是研究如何高效的计算这类查询。1 Introduction不确定性出现在任何尝试模拟和捕捉物理世界状态的数据库系统。在物理世界中,被监测的物体,例如:气压、温度、移动物体的位置,是不断变化的。如果使用传感器过期了的数据来回复查询,那么就会导致错误的结果。为了减缓这个问题,最近有人提议把不确定的信息引进传感器数据。这样,传感器记录的不是一个数值,而是一个有可能的范围以及一个概率密度函数(pdf)。概率查询有一个严重的问题:它们计算的代价是非常昂贵的。传统的查询要求精确和单一的输入,而概率查询必须要管理不确定性信息,包括间隔和概率密度函数。特别的是概率值扩张到查询结果时必须要进行巨大的开销才能得出结果。然后,我们应该注意到虽然结果概率时有用的,但是对于很多应用来说,它们的精确度没有那么关键。实际上,对于很多查询只需要知道概率是否超过一个给定的阈值我们把这些查询叫做概率阈值查询(PTQ)。这篇论文就是研究如何高效的计算这类查询。我们提出了一个高效的搜索技术。我们探索一个索引数据结构和它的相关算法是如何被发展用于不精确数据的。本论文的组织结构如下:第二节我们定义了不确定性模型和概率阈值查询。第三节显示一个带不确定性信息扩张的简单的索引来评价PTQ。第四节证实问题理论性的难度。第五节给出了一个评价PTQ的扩展的框架。第六节给出实验。第七节讨论相关研究。第八节总结本文。2 Data Uncertainty and Probabilistic Queries一些符号表示如下:T一系列的数据库对象TiT中的第i个对象Ti.aTi的值,看作是一个连续的随机变量。Ti.a的概率不确定性包含两个方面:概率阈值查询(PTQ)的定义如下:简单的说,一个PTQ可以看作是一个在概率不确定性信息操作的范围查询,它返回那些满足查询概率超过p的项。3 A Simple Uncertainty Index计算PTQ的一个原始方法就是先把所有与a,b有交集的Ti保存到一个集合S,然后对S中的Ti使用下面的公式计算其概率:(1)这里,pi就是Ti满足PTQ的概率,OI就是a,b与Ui的交集。返回的结果只包含那些pi大于阈值p的Ti。使用这种方法存在两个问题:第一,如何计算S的问题。如果对每个Ti都计算是否与a,b有交集的话,那么当数据库很大的时候这种方法是不可行的。一个典型的解决办法就是在Ui上创建一个索引结构然后在这个索引应用a,b的范围搜索。目前间隔索引被广泛采用。第二,使用公式1来计算S中的元素的概率是个非常大的开销。这与是否使用间隔索引无关的。如果许多元素都与a,b相交,但是它们中的很大一部分的概率都低于p,那么我们会花费很多时间来计算它们的概率,而结果却是它们不满足PTQ。3.1 Probability Threshold Indexing上面的问题显示了使用间隔索引来回答PTQ的效率很低。这主要是因为间隔索引没有利用pdf来进行剪枝。我们的目标就是重新设计一个索引结构,使得在索引搜索时充分利用概率的不确定性信息。这个结构就叫做概率阈值索引(PTI),它是基于一维R-tree的。令Mj表示R-tree第j个结点,R-tree是按照前序遍历的。那么Mj的x-bound的定义如下:把x-bound的信息保存在R-tree的主要目的是避免检测一个结点的内容,这样可以减少很多I/O开销。进一步来说,我们不必要计算那些间隔的概率,因为它们不能满足查询。考虑下面这个例子:上图以一维间隔的形式描述了在一个更大的MBR Mj中的三个孩子MBR(A,B,C)。同样显现了2个x-bound,一个为0.2-bound,另外一个为0.3-bound。上图表明一个x-bound就是一对直线,在MBR的每个间隔最多有x跨过这两条直线。上图还描述了A的不确定性pdf,从中可以看出,并且。对于间隔B,在右边0.3-bound的约束为。间隔C没有跨过0.2-bound和0.3-bound,所以它满足这两个x-bound。一个范围查询Q通过内部结点进行测试。如果没有x-bound的帮助,那么在进行Q的时候必须要(1)检测哪一个MBR(A,B,C)与Q的间隔有交集,(2)对于符合条件的MBR(这里是B),进一步检测B所指向的结点,直到到达叶子级别,(3)在叶子级别计算间隔的概率。有了x-bound的帮助能够减少很多不必要的计算。上例中,因为right-0.2-bound的右边的概率不会超过0.2,而Q要求返回在某个范围出现概率超过0.3。一般而言,给定MBR Mj的一个x-bound,如果下面的两个条件成立的话,我们能够消除对Mj的进一步计算。(1) a,b没有与Mj的左边以及右边的x-bound相交,也就是bMj.rb(x)成立。(2) px.3.2 Implementation of PTI4 Theoretical Implications4.1 2D mapping of intervals4.2 Relation of PTQU to other well known problems4.3 PTQU with fixed threshold5 An Extensive Uncertainty Index5.1 Uncertainty Indexing for Regular Sets5.2 Uncertainty Indexing for Arbitrary pdfs6 Experimental Results6.1 Simulation Model6.2 Results6.3 Scalability of Uncertainty Indexes6.4 Efficinet of Query Probability Threshold7 Related Work8 ConclusionsReferences1 Pankaj K. Agarwal, David Eppstein, and Jir_ Matousek.Dynamic half-space reporting, geometricoptimization, and minimum spanning trees. InFOCS, pages 8089, 1992.2 L. Arge, V. Samoladas, and J. S. Vitter. Ontwo-dimensional indexability and optimal rangesearch indexing. In PODS, pages 346357, 1999.3 L. Arge and J. S. Vitter. Optimal dynamic intervalmanagement in external memory (extendedabstract). In FOCS, pages 560569, 1996.4 H. Bronnimann, B. Chazelle, and J. Pach. Howhard is half-space range searching. Discrete andComputational Geometry, 10:143155, 1993.5 C. Chat_eld. The analysis of time series an in-troduction. Chapman and Hall, 1989.6 Bernard Chazelle. Lower bounds on the complexityof polytope range searching. Journal of Amer-ican Mathematical Society, 2:637666, 1989.7 R. Cheng, D. Kalashnikov, and S. Prabhakar.Evaluating probabilistic queries over imprecisedata. In Proc. of the ACM SIGMOD Intl. Conf.on Management of Data, June 2003.8 R. Cheng, D. V. Kalashnikov, and S. Prabhakar.Querying imprecise data in moving object environments.IEEE Transactions on Knowledge andData Engineering (To appear), 2004.9 R. Cheng and S. Prabhakar. Managing uncertaintyin sensor databases. In SIGMOD Recordissue on Sensor Technology, December 2003.10 Kenneth L. Clarkson. New applications of randomsampling in computational geometry. Discreteand Computational Geometry, 2:195222, 1987.11 Je_ Erickson and Pankaj K. Agarwal. Geometricrange searching and its relatives. Advances inDiscrete and Computational Geometry, ContemporaryMathematics 223:156, 1999.12 Michael L. Fredman. Lower bounds on the complexityof some optimal data structures. SIAM J.Comput., 10(1):110, 1981.13 Jonathan Goldstein, Raghu Ramakrishnan, UriShaft, and Jie-Bing Yu. Processing queries bylinear constraints. In PODS, pages 257267, 1997.14 Paris C. Kanellakis, Sridhar Ramaswamy, DarrenErik Vengro_, and Je_rey Scott Vitter. Indexingfor data models with constraints and classes.J. Comput. Syst. Sci, 52(3):589612, 1996.15 H. Kriegel, M. Potke, and T. Seidl. Managingintervals e_ciently in object-relational databases.In Proc. of the 26th Intl. Conf. on VLDB, Cairo,Egypt, 2000.16 B. Lin, H. Mokhtar, R. Pelaez-Aguilera, andJ. Su. Querying moving objects with uncertainty.In Proceedings of IEEE Semiannual Ve-hicular Technology Conference, 2003.17 Y. Manolopoulos, Y. Theodoridis, and V.J. Tsotras.Chapter 4: Access methods for intervals. InAdvanced Database Indexing. Kluwer, 2000.18 Jir_ Matousek. Geometric range searching. ACMComput. Surv., 26(4):421461, 1994.19 S. Saltenis, C. Jensen, S. Leutenegger, andM. Lopez. Indexing the position of continuouslymoving objects. Proc. of ACM SIGMOD, 2000.20 O. Wolfson, P. Sistla, S. Cham
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025复合隔断墙面板分包合同
- 德化县东信新能源科技有限公司年产1万吨生物柴油项目环境影响评价报告书
- 2025贷款反担保保证合同
- 2025写字间租赁合同(合同范本)
- 品牌营销策划服务与合作协议
- 我的暑假生活回忆录记叙文写人记事作文8篇范文
- 无人飞机农业植保应用技术 课件20、大疆T20植保无人飞机作业-3
- 行业报告编写手册作业指导书
- 《国际商法学》万字笔记
- 陶瓷销售员心得体会(6篇)
- 2025年铁路列车员(中级)职业技能鉴定参考试题库-上(单选题)
- 游泳馆安全知识培训课件
- 2025年辽宁省抚顺市顺城区中考一模历史试题(原卷版+解析版)
- 自动扶梯吊装方案
- 第5课 弘扬劳动精神、劳模精神、工匠精神(教学设计) -【中职专用】中职思想政治《职业道德与法治》同步教学教学设计(高教版2023·基础模块)
- 行政费用管理控制办法及规定
- 2025年产科门诊护理考试题及答案
- 地铁客运企业ESG实践与创新战略研究报告
- 建筑行业防震减灾技术培训计划
- 2025年度生态旅游区景区入驻经营合作协议
- 药品储存与养护课件
评论
0/150
提交评论