




全文预览已结束
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
排序学习中的领域自适应研究【摘要】:随着监督式机器学习技术在各个领域的广泛应用,研究人员逐渐意识到,训练数据的缺乏是阻碍学习模型快速部署的关键因素之一。最近几年,如何解决训练数据缺乏的问题,已经成为机器学习,自然语言处理,信息检索、多媒体等领域的研究热点。排序学习是信息检索的关键问题之一。目前,基于监督的机器学习技术被认为是解决排序学习的最佳选择。如同传统监督式学习技术,目标领域缺乏训练数据也是排序学习正在面临的实际问题。针对排序学习,我们研究了如何利用其他相关领域的己有训练数据,学习出适用于目标领域的模型,即领域自适应。本文的主要贡献有以下几个方面:1.提出了基于文档权重的排序学习自适应框架。首先,利用领域分隔超平面估计源领域文档对目标领域的重要性;然后,把这些文档权重转换成文档对权重;最终,文档对权重可以集成到基于文档对的排序学习算法中。2.研究了著名的排序学习算法RankBoost的领域自适应问题。在基于文档权重的排序自适应框架下,提出了三种基于文档权重的RankBoost算法,并分别对它们进行了理论分析和试验比较。3.提出了直接在查询层次估计源领域查询对目标领域重要性的方法。在排序学习中,查询是带有相关性标签的文档集合,是排序学习的基本对象。我们分别从两个不同的角度进行查询权重估计:(1)将查询压缩成特征向量,然后采用传统的权重估计方法进行查询权重估计。(2)对每个源领域的查询,把它依次和目标领域查询进行比较;通过集成这些两两比较的结果,估计源领域查询对于目标领域的重要程度。4.提出了基于主动学习的排序学习自适应算法。为了获得目标领域特有的排序知识,采用主动学习技术,选择少量目标领域具有信息量的查询进行标注。这些查询可以弥补源领域所缺失的目标领域排序知识,同时,利用这些目标查询评估源查询对目标领域的重要性权重,从而充分利用源领域的训练数据。5.将领域自适应技术应用在语义实体识别中,提出了利用领域独立特征来增强领域自适应能力的方法。传统实体识别仅仅使用短文本特征,当训练文档和测试文档在风格上稍有差异时,性能便有明显下降。为解决该问题,我们设计了一个CRF与SVM的组合框架,通过该框架,短文本特征与领域独立特征可以有效的集成,最终获得的识别模型能够更好地适用于目标领域。针对不同的应用场景,本文研究了排序学习中的领域自适应问题。在目标领域没有标注数据的场景下,我们从样本权重的角度,研究了基于权重的排序学习领域自适应;在目标领域存在少量标注预算的场景下,我们研究了基于主动学习的排序自适应算法。另外,我们还研究了领域自适应在语义实体识别中的应用。从特征的角度,我们探讨了基于领域独立特征的语义实体识别领域自适应。我们在标准数据集上评价了算法的有效性。在实际应用中,比如多媒体新闻推荐,热点事件检测,情感分析,通用搜索,垂直搜索等等,通过本文提出的领域自适应技术,可以充分利用已有其他相关领域的标注数据,降低目标领域的标注成本,同时获得满意的目标领域模型。【关键词】:领域自适应排序学习文档权重查询权重主动学习领域独立特征语义实体【学位授予单位】:华东师范大学【学位级别】:博士【学位授予年份】:2011【分类号】:TP181【目录】:摘要6-8ABSTRACT8-14第一章引言14-201.1研究背景14-161.1.1机器学习技术的广泛应用141.1.2为什么需要领域自适应14-151.1.3领域自适应的研究进展15-161.2本文的主要贡献16-181.3本文的章节安排18-20第二章背景知识20-282.1领域自适应20-232.1.1领域自适应的基本概念202.1.2基于实例权重的领域自适应方法20-222.1.3基于特征变换的领域自适应方法22-232.1.4基于模型结构调整的领域自适应方法232.2排序学习23-282.2.1排序学习的基本概念23-252.2.2排序学习算法25-262.2.3排序学习的领域自适应研究现状26-28第三章基于文档权重的排序学习自适应框架28-423.1问题定义28-293.2权重估计29-323.2.1文档权重30-313.2.2权重转换31-323.3损失函数32-343.3.1文档对排序损失函数333.3.2基于权重的排序损失函数33-343.4整体框架34-353.5试验结果与分析35-403.5.1试验数据与设置35-363.5.2结果与分析36-403.6本章总结40-42第四章RankBoost自适应排序模型42-604.1Boosting算法42-434.2源领域权重与目标领域权重43-454.2.1源领域权重43-444.2.2目标领域权重444.2.3权重间的矛盾44-454.3三种基于权重的RankBoost算法45-524.3.1expWRB46-484.3.2linWRB48-494.3.3addWRB49-524.4试验结果与分析52-584.4.1试验数据与设置52-534.4.2结果与分析53-584.5本章总结58-60第五章基于查询权重的排序学习领域自适应60-705.1文档权重与查询权重60-625.2文档权重估计的相关工作625.3查询权重估计的两种方法62-645.3.1查询特征向量62-635.3.2源查询与目标查询的相互比较63-645.4基于查询权重的排序自适应64-655.5试验结果与分析65-685.5.1试验数据与设置65-665.5.2结果与分析66-685.6本章总结68-70第六章基于主动学习的自适应排序模型70-906.1主动学习概述70-736.1.1基本概念706.1.2样本信息量评价标准70-736.2主动排序学习73-746.2.1排序学习与传统监督式学习的差异736.2.2主动排序学习进展73-746.3主动学习与领域自适应74-766.3.1基于主动学习的领域自适应动机74-766.4基于查询委员会的主动排序学习76-786.4.1样本选择粒度766.4.2排序模型委员会76-776.4.3排序争议度量77-786.5主动排序自适应模型78-826.5.1总体框架796.5.2查询权重79-806.5.3主动领域自适应80-826.6试验结果与分析82-876.6.1试验数据与设置82-836.6.2结果与讨论83-876.7本章总结87-90第七章领域自适应技术在语义实体识别中的应用90-1067.1命名实体90-947.1.1基本概念907.1.2命名实体的识别方法90-927.1.3命名实体识别的领域自适应研究现状92-947.2语义实体94-967.2.1什么是语义实体94-957.2.2语义实体与命名实体的区别95-967.3领域独立特征96-997.3.1内部紧密性977.3.2上下文可变性97-987.3.3相邻停用词987.3.4词位置概率98-997.4CRF和SVM的集成99-1027.4.1语义实体边界的边缘概率99-1007.4.2两阶段训练100-1027.5
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 行政主办面试题目及答案
- 2025年民政厅公开招聘公务员面试题集及解析
- 2025年文印中心招聘面试高频问题解析与应对技巧
- 2025年医卫类病案信息技术(师)相关专业知识-专业实践能力参考题库含答案解析(5套)
- 2025年心理咨询师实操技能考核试题集及答案详解初级
- 2025年林业中级规划师面试指南与模拟题
- 2025年权威发布公司名岗位招聘笔试考前练习题
- 2025年医卫类微生物检验技术(中级)-专业实践能力参考题库含答案解析(5套)
- 270. 汽车租赁合同标准文本
- 2025年考题解析城市社区管理招聘笔试备考指南
- 小学语文新课程标准最新版2022
- 室外雨污水、消防管网施工方案
- 疫情防控实战演练方案脚本
- 资产评估事务所投标服务方案总体工作方案评估工作关键性内容及重难点分析
- 思想道德与法治全册教案
- (高职)旅游景区服务与管理电子课件完整版PPT全书电子教案
- 拆卸与安装油箱加油管
- 某国有企业精细管理降本增效经验交流汇报材料企业降本增效.doc
- 沪科版七年级数学上册全套ppt课件
- SCH壁厚等级对照表
- 海洋声学基础讲义吴立新
评论
0/150
提交评论