




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
OnlineEMforUnsupervisedModelsWrittenbyPercyLiang,DanKleinPresentedbyLinzhengACL-2009'''OnlineEMforUnsupervisedModOutlineIntroductionTasks,modelsanddatasetsEMalgorithmsExperimentsConclusion'''OutlineIntroduction'''Introduction在无监督学习的NLP任务中,比如tagging,parsing,alignment,往往需要引入隐含的语言结构。概率模型是解决这些问题的典范,而EM算法是用于模型学习的驱动力,它简单且直观。'''Introduction在无监督学习的NLP任务中,比如taIntroduction然而,EM算法存在收敛慢的问题,比如在词性标注问题中,EM迭代大约需要100轮来达到最高性能。EM算法执行慢主要源自它的批特性,即每趟遍历完所有的数据后参数只更新一次。当参数估计仍然粗糙或者数据存在高冗余时,计算全部数据后更新一次参数显然是浪费的。'''Introduction然而,EM算法存在收敛慢的问题,比如Introduction在这篇文章中作者调研了两种在线EM算法——incrementalEMandstepwiseEM.即在每个样本或者一小批样本后更新参数,在线学习算法通过频繁更新来实现加速收敛。文章主要研究stepwiseEM,发现选择合适的stepsize和mini-batchsize非常重要。stepwiseEM可以和batchEM达到相同效果并且速度更快,此外,stepwiseEM甚至可以超越batchEM的性能。'''Introduction在这篇文章中作者调研了两种在线EM算Tasks,modelsanddatasets定义一个概率模型其中x是输入变量,z是隐含输出变量,是参数。给定一组没有标记的样本x1,….xn,训练目标是最大化这些样本的对数似然:'''Tasks,modelsanddatasets'''Tasks,modelsanddatasets文章对四个任务进行了实验,分别是:词性标注(Part-of-speechtagging)文档分类(Documentclassification)分词(Wordsegmentation)词对齐(Wordalignment)'''Tasks,modelsanddatasets文章对四个Tasks,modelsanddatasets词性标注:对每个句子,代表一个词序列,我们希望预测相应的词性标记序列模型采用二元隐马尔科夫模型数据采用WallStreetJournalportionofthePennTreebank(49208个句子,45个标记)'''Tasks,modelsanddatasets词性标注:Tasks,modelsanddatasets文档分类:每篇文档包含L个单词,我们希望预测文档的类别
每篇文档的类别在其所包含的所有单词的类别上建模实验采用18828篇文档,20个类别。'''Tasks,modelsanddatasets文档分类:Tasks,modelsanddatasets分词:对每个句子代表一串没有间隔的英文音素或者中文汉字,想要将其分变成单词序列模型采用naïveunigrammodel,由于倾向于将每个句子形成一个切分,所以对长切分进行惩罚和最长字符限制。数据采用CHILDESdatabase(9790个句子)和SIGHAN前100k个句子。'''Tasks,modelsanddatasets分词:''Tasks,modelsanddatasets词对齐:每一个互翻译的双语句对要预测词语对齐模型:IBM模型1数据采用英法HansardsNAACL2003'''Tasks,modelsanddatasets词对齐:'EMalgorithmsEM算法是机器学习中一个很重要的算法,这种方法可以广泛地应用于处理不完整数据,主要包括以下两个步骤:E步骤:estimatetheexpectedvalues
M步骤:re-estimateparameters迭代使用EM步骤,直至收敛。'''EMalgorithmsEM算法是机器学习中一个很重要的算EMalgorithms完整似然函数:若隐含变量的值已知,得到完整数据的log似然函数为:'''EMalgorithms完整似然函数:'''EMalgorithms观测数据X已知,参数的当前值已知,在完整似然函数中,缺失数据(隐含变量)Y未知,完整log似然函数对Y求期望。定义其中是待确定的参数通过求期望,去掉了完整似然函数中的变量Y。即EM的E步。'''EMalgorithms观测数据X已知,参数的当前值EMalgorithms对E步计算得到的完整似然函数的期望求极大值(EM的M步),得到参数新的估计值,即每次参数更新会增加非完整似然值反复迭代后,会收敛到似然的局部最大值'''EMalgorithms对E步计算得到的完整似然函数的期望EMalgorithmsBatchEM'''EMalgorithmsBatchEM'''EMalgorithmsOnlineEM'''EMalgorithmsOnlineEM'''EMalgorithmsOnlineEM'''EMalgorithmsOnlineEM'''EMalgorithmsStepwiseEM算法有两个重要参数:Stepwisereductionpowera:a越小,更新越大,旧的统计数据衰减越快,可以导致快速收敛,也会造成不稳定性。Mini-batchsizem:可以通过在许多样本后更新一次而不是每个样本更新一次来增加稳定性,即把每一小批样本看成单个样本。m越大更新越缓,越稳定。'''EMalgorithmsStepwiseEM算法有两个重Experiments——词性标注'''Experiments——词性标注'''Experiments——文本分类'''Experiments——文本分类'''Experiments——分词'''Experiments——分词'''Experiments——词对齐'''Experiments——词对齐'''Experiments'''Experiments'''Experiments'''Experiments'''Experiments'''Experiments'''Experiments'''Experiments'''Conclusion
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年广东云浮市云安区招聘教育人才9人(南宁师范大学校区专场)考前自测高频考点模拟试题及参考答案详解1套
- 2025内蒙古师范大学招聘事业编制人员30人模拟试卷(含答案详解)
- 2025年机电工程模型分析试题及答案
- 2025年理货员技能认定(高级)试题库含参考答案解析
- 社会福利信息化管理研究-洞察及研究
- 2025湖南娄底市娄星区人民医院公开引进高层次医疗卫生专业技术人才15人模拟试卷及完整答案详解一套
- 2025安康石泉县两河镇中心卫生院招聘(2人)考前自测高频考点模拟试题及答案详解(夺冠)
- 测量招标咨询方案模板范文
- 2025年楚雄技师学院云南现代职业技术学院高层次人才和急需紧缺招聘模拟试卷及答案详解(新)
- 皮革产品市场细分-洞察及研究
- Unit 1~2单元月考测试(含答案) 2025-2026学年译林版(2024)八年级英语上册
- 中秋国庆节假期安全教育安全防范不松懈宣传课件模板
- 八年级语文写作技巧与课堂教案
- 鼻出血的课件护理
- 2025年干细胞治疗行业研究报告及未来行业发展趋势预测
- (2025年标准)清理乱账服务协议书
- 2025年4月自考00155中级财务会计试题及答案含评分标准
- 道路工程培训课件
- DGTJ08-2004B-2020 建筑太阳能光伏发电应用技术标准
- 国庆假期大学生安全教育
- 呼吸内科出科汇报
评论
0/150
提交评论