版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、归纳逻辑程序设计的开展机器学习试图利用计算机来模拟人类的学习行为,进而利用计算机的技术优势给人类的生活带来便利。归纳逻辑程序设计(Inductive Logic Programming,简写为ILP)是机器学习和逻辑程序设计的穿插研究领域。它在子句逻辑的框架下,通过让计算机考察详细的事例,然后学习出可以刻画这些事例特有属性的一般性规那么。详细来说,计算机进展操作时,根据背景知识在限定的归纳假设空间中不断地搜索,最后得出一个理论(也即满足某种语言偏向的子句集),使得所有的正例都能被理论覆盖,而负实例不被覆盖。ILP作为机器学习的重要方法,已经在生物信息学、自然语言处理、软件工程等应用领域获得成功
2、。一、归纳逻辑程序设计的研究现状近年来,ILP得到很大的开展,其应用领域也不断拓宽。一般说来,ILP最重要的应用领域之一是生物信息学(Bioinformatics)。ILP之所以能适用于生物信息学的任务,是因为它会将背景知识和构造数据考虑在内,学习产生人类能理解的知识。在学习蛋白质构造的折叠的过程中,由于对其构造的学习很重要,所以需要找到可以明晰描绘其构造的语言。传统的属性-值方法无法描绘对象问的关系,因此也就无法合理地表示蛋白质分子的三维构造,ILP的一阶逻辑工具子句逻辑是非常适宜描绘这种关系的语言,它在预测蛋白质构造信息和蛋白质次级构造生成中发挥了很大作用。同时,在预测化合物诱变问题上,I
3、LP也解决了传统方法无法解决的构造关系问题。机器学习一个非常独特的应用领域是自然语言处理,它的主要任务在于建立各种自然语言处理系统,如文字自动识别系统、语音自动识别系统、机器翻译系统、自然语言信息检索系统、自动索引系统等。在自然语言处理中,ILP的方法可以从文本中抽取复杂的关系数据,这是ILP优于其他机器学习技术的特点之一。ILP系统还常常为工程学、环境监控、软件分析、形式学习和关系发现等领域的数据构造预测模型。虽然ILP与其他机器学习方法相比有一定的优势,然而随着科学技术开展和需求的增加,ILP在应用中也面临许多挑战:首先,相比其他的机器学习系统来说,ILP系统对时问和空间有更高的要求,这使
4、得ILP很难去处理大的数据集。因此,ILP应该努力寻求与随机搜索和并行处理技术等方法结合以处理构造复杂的数据集。其次,隐马尔科夫模型、动态贝叶斯网络、双连词和三连词等技术都能充分表达任务中的内在概率,而ILP系统很少有表达、处理概率的才能,这也是ILP的重大缺乏之一。最后,当背景知识和数据集用一阶逻辑明晰表达出来时,ILP可以运行良好。但是当数据集是无法通过一阶逻辑明晰表达的图像、视频、音频时,ILP就无能为力。就这一问题来说,ILP需要从约束逻辑程序设计中借鉴经历,学习处理特殊数据格式的技术。二、归纳逻辑程序设计的开展展望ILP应用过程中所显现出来的缺乏之处,使得ILP必须与其他研究领域的技
5、术相结合,来进步它解决问题的才能。为了使ILP更好地完成归纳学习任务,戴维培基提出了ILP将来开展的五个研究方向。1 .ILP和贝叶斯网络目前在人工智能中,贝叶斯网络是处理不确定信息和进展概率推理的最有力工具,它在很大程度上取代了传统的基于规那么的专家系统。人工智能的研究者已经意识到概率的重要性,例如在医疗诊断中,几乎没有普遍真的医学规律存在,也很少有完全正确的实验可被利用。取而代之的是,概率被用来刻画任务本身内在的不确定性。贝叶斯网络被特别设计出来去表达一些可能的概率分布,并且尝试对这些概率分布进展推理。它已经在医疗诊断、拼写纠错、故障诊断等领域得到应用,也成为了国内外研究的新宠儿。虽然贝叶
6、斯网络有如此良好的应用,然而它本质上是命题的:变量集是确定且有限的,并且每个变量都有其确定的可能值域。这个事实限制了贝叶斯网络的应用。此外,当一个贝叶斯网用一个图表表示时,图表可以刻画的唯一关系是概率、或然性之间的条件依赖关系,它不能表达关系构造。要想使贝叶斯网络更好地为人类效劳,必须试图去拓展贝叶斯网络的表达力,并且试图用一个拓展的表达来进展归纳学习。理论证明,这个拓展的表达结果是复杂的,还降低了一阶逻辑的表达力。ILP研究者尝试学习添加概率的子句,来拓展贝叶斯网的表达力,在一定程度上可以解决这一问题。目前,学者已经提出几种可供选择的子句表达方式,其中包括概率逻辑程序设计,随机逻辑程序设计和
7、概率约束逻辑程序设计。库塞斯着手研究随机逻辑程序设计的算法和应用,而恩格和哈达维那么研究贝叶斯网络的一阶表达。一般说来,ILP和贝叶斯网络学习是正交的。ILP擅长处理关系域,而贝叶斯网络对概率处理的很好。因此,设想一个可以具有贝叶斯网络学习和ILP二者优点的学习算法的存在和应用是合理的,尝试将贝叶斯网络学习和ILP结合的领域也应该是一个有前途、有希望的研究领域。2 .ILP和随机搜索随着计算机技术的开展,人类搜集数据、存储数据的才能有了很大进步,对这些数据施以算法搜索处理,就能满足人类不同的需求。随机搜索是指在目的位置根本服从均匀分布的条件下,搜索轨迹随机且均匀分布在目的分布区域内的一种搜索方
8、式。常用的随机搜索算法主要包括模拟退火算法、进化策略、遗传算法。这些算法求解时搜索过程是非确定性的,算法对约束函数及目的函数有限制,因此可以解决大规模复杂问题。大局部ILP算法搜索由假设而定的一个子句格。它们寻找这样一个子句即可以使子句覆盖范围的函数到达最大化的子句。根据它们如何搜索这个子句格,这些ILP算法被分为(基于最小一般泛化脚自底向上算法和(基于求精的自顶向下算法。算法又根据它们是否利用贪心搜索、定向搜索、承受搜索来进展进一步划分。在几乎所有算法中,以上这些搜索方法都是确定性搜索。然而,对于其他ILP之外的具有挑战性的逻辑或人工智能任务,随机搜索常常胜过确定性搜索。1992年,考茨、塞
9、尔曼、维斯克、米切尔以及其他学者对局部搜索算法诸如LSAT, WSAT的可满足性问题的研究,已经证实了随机搜索更具优势。塞巴格和罗维洛从事于随机匹配和定理证明,并且在诱变性研究上超越PROGOL程序,同时并没有牺牲预测准确性和理解力。由此可以看出,随机搜索是ILP中一个有前途的研究方向。ILP可以尝试与随机搜索算法结合,利用随机搜索可选择的形式去检测子句格,尝试解决不确定搜索问题。3 .ILP和约束逻辑程序设计机器学习中广为人知的成功理论之一是约束逻辑程序设计。这个理论成功的原因在于它整合逻辑和特殊目的的推理者或约束解决者的才能。前面提到的在ILP中参加概率的方法也可以理解为特殊目的推理者在贝
10、叶斯网络片段形式中诉诸约束。关于约束问题,斯里尼瓦森和卡马乔使用线性回归去构建一个约束,而克莱文和斯拉特利的工作是用朴素贝叶斯技术去构造一个约束。值得注意的是,除了在演绎过程中所需要的约束解释器外,ILP还需要一个像类似线性回归一样的约束构造函数。一般情况下,采用一个数据库的标准逻辑解释,这里每一个关系是一个谓词,并且关系中每一元组是由那个谓词建立而来的一个基原子公式。如今假设数据库中包含一些复杂数据的格式诸如影像,简单的逻辑相似性就不可以刻画一系列影像的重要特征,这时就需要基于特殊目的的影像处理技术。我们将ILP运用于处理电影时,首先需要构造特殊目的的约束解释器,再用ILP技术对其进展处理。
11、关于如何将约束参加到ILP研究中,需要关注阿兰弗里希的工作。令人遗憾的是,他的工作没有涉及如何确保归纳学习系统的效率,以及如何去设计约束解释器的正确类型。这些问题正是留给我们去考虑的,阿兰弗里希至少给我们提供了一种考虑问题的思路。ILP确实需要从约束逻辑程序设计中借鉴经历,学习处理特殊数据格式的技术,进步其处理问题和解决问题的才能。4 .ILP和人类专家的交流在从远程通讯、分子生物学、制药学等领域的数据库中发现新知识的过程中,假设一个机器学习系统和人类专家可以以团队的形式合作,充分利用计算机的速度优势及人类专家的知识和技术优势,那么在很大程度上会进步机器学习的效率和工作程度,促进新知识的发现。
12、ILP系统的三个特性使得它在知识发现中可以很自然地与人类专家进展合作:首先,ILP系统可以利用可宣告的背景知识去构造假设,这就使得ILP和领域专家之间可以展开合作。其次,基于特征的学习系统要求使用者从描绘创造实例的特征开始,ILP系统允许构造实例根据组成它的对象以及这些对象之间的关系一起自然地被描绘。一个分子的二维构造可以将它的原子作为对象,将原子之间的联络作为关系,这样直接表示出来。三维构造可以通过添加间隔 关系而被表示。最后,ILP系统和命题逻辑学习者一样,都具有输出用户可以理解的规那么的才能,一些ILP系统甚至可以用英语返回规那么。尽管ILP系统呈现了如此多的有用特性,它在知识发现中作为
13、人类的合作者,仍然还有许多缺点和缺乏。首先,大多数ILP系统在探试程序根底上返回单一理论,因此丢掉了对一些领域专家来说有意义的子句。其次,ILP系统不能用人类合作者所使用的那种方式来答复人类专家的问题。它们用简单的成批处理形式操作,采用一个数据库作为输入,并且在此根底上返回一个假设。再次,ILP系统不会像人类合作者那样对输入的数据进展质疑。最后,人类专家可以为假设提供知识丰富的辩护形式,例如将一个新的假设与现有的信念联络起来,ILP系统做不到这一点,它仅仅能提供正确的判断。在知识发现和知识获取的人机合作中,要抑制ILP的缺乏,不仅需要逻辑和人工智能的技术,还需要对逻辑主体进展研究,只有二者结合
14、才能使机器与人类专家进展良好沟通。5 .ILP和并行处理技术面对今天复杂的科学计算、各式各样的图象处理以及大量的信号等问题,进步计算机的运行速度和缩短程序的运行时问至关重要。ILP系统对时问和空间有很高的要求,这使得ILP很难去处理大的数据集。并行处理技术的出现,为ILP处理大数据集提供理解决思路。并行处理系统由多个处理单元组成,通过特定方法可以将一个任务分成假设干个子任务,分别由各处理单元完成。目前并行处理技术最显著的是贝奥武夫簇群技术的普遍应用,以及个人计算机、工作站、智能终端并行处理技术的使用。大卫斯基利康在大容量同步并行模型之下开展了一个PROGOL的并行施行技术。艾伦韦德在贝奥武夫簇
15、群技术根底上,再次进展自上而下的ILP研究。并行处理技术的理想是在处理时问上的一个缩减,这里处理时问是处理程序所用数量的一个线性函数,斜率接近于1。由于程序之间的管理自检和资源的竞争,这个理想很难到达。一个好的并行策略,要求程序之间尽可能地相对独立,尽量使得程序之间拥有较少的交流或资源共享。在测试数据时,在不同的处理器之间派发假设空间。更详细地说,对一个完备的搜索,一个并行ILP方案可以产生一个户主用户形式,这里户主将不同分段的假设空间指派给用户,然后用户用假设对数据进展测试。用户反响给户主的所有假设在数据上到达一个预先最小评估值。当用户完成自己的任务时,户主继续指派时空的新程序段,直到整个空间被开发。在用户和户主交流过程中,要考虑每次交流产生数据的本钱,还要考虑户主所花费的时问和户主用户交流的时问。在相对较大的论域中,完备性搜索期望用户和户主之间有尽量少的假设交流。假设户主面对如此快速增长的假设空间片段,可以以这样一个方式将这些片段与用户简洁地交流是可能的;那么整体开销将是低的,处理时问也会缩减,这样也就接近理想的并行处理形式。三、结
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 施工砂采购合同范本
- 拉铆钉厂转让合同范本
- 正规的拍卖合同协议书
- 防水插头采购合同范本
- 设备加工材料合同范本
- 预制房屋服务合同范本
- 未签合同就书面协议
- 校园洗浴出租合同范本
- 测试工程师新人培训试题及答案
- 2026-2031年中国暖气片行业市场分析及投资可行性研究报告
- DB31∕T 478.21-2014 主要工业产品用水定额及其计算方法 第21部分:污水处理业
- 5.3细胞呼吸的原理和应用课件高一上学期生物人教版(2019)必修1-1
- 手术室人文关怀
- 医院信息安全培训:2024年网络安全热点探析
- 人教版(2024新版)七年级上册英语Starter Unit3单元测试卷(含答案)
- 2024年1月辽宁省普通高中学业水平合格性考试物理试题(含答案解析)
- 专升本-英语高频词汇
- 走进创业学习通超星期末考试答案章节答案2024年
- 安全生产全员责任制度
- 洗涤服务应急预案
- 宝钢股份发行绿色债券融资案例研究
评论
0/150
提交评论