




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、逻辑回归分析及其在文本片断聚类中的运用 徐永东2019,6,12内容简介 研讨背景 逻辑回归分析 文本片断聚类 言语特征选择 特征自动交融 聚类 实验结果 结论研讨背景 多文档自动文摘技术的两个主要义务 关键信息抽取 内容重组 Majority ordering Chronological Ordering Augmented Chronological Ordering 关键信息抽取的几种方法 Text Surface Features Information Statistics method Discourse Structure Lexical Chains Information E
2、xtraction vs. Information Retrieval Information Fusion 文本片断聚类的特点:输入是面向同一主题的文档集,文本之间类似度较高,因此文本片断之间的区别较小,难以实现进一步的聚类处置;研讨背景 文本片断聚类信息交融的关键义务 多文档自动文摘技术的特点 文本间的反复信息被以为是重要的文摘候选 生成的文摘不能有冗余内容 信息交融技术的特点文本重组 文本片断聚类的特点: 输入是面向同一主题的文档集,文本之间类似度较高,因此文本片断之间的区别较小,难以实现进一步的聚类处置; 从长度上看,文本片断要远远小于文本,因此进展类似度识别时可利用的信息较少,因此尽
3、能够地利用多特征是处理上述难题的很好的途径逻辑回归分析 回归分析Regression analyze: 研讨一个或一组变量的变动对另一个变量的变动的影响程度的方法 用来研讨可以丈量的变量之间的关系的一个数学工具 研讨者遇到的问题 自变量和因变量能否有联络 这种联络是强是弱 能否根据自变量来预测因变量 假设能,如何预测,预测误差是多少,有效性如何? 逻辑回归分析 对上述关系进展定量描画的数学模型为回归模型 其中,Y为因变量,E(Y/X)为给定x的条件下Y的条件均值,为随机变量,且 E()0 相应的回归方程 XYEYXYExf)(逻辑回归分析当 时,称之为线性回归方程,这里 回归分析的步骤: 搜集
4、这些变量在一组单元或案例中的每一个数据。对Y和X分别进展k次独立观测,得到一个训练样本集Yi, Xi 对回归参数进展估计:估计方法有很多种,对于线性回归分析主要采用最小二乘法,即选择参数估计量,使得随机误差项i 因变量的观测至于模型估计值之间的差值的平方和到达最小。假设检验 用于检验拟合模型对被研讨的关系能否适宜、有用。 XXYE0/).,(),.,(2121nnxxxX逻辑回归分析大多数统计方法中,因变量是一个分类变量categorical variable而不是延续变量continuous variable在分析分类变量时,通常采用的一种统计方法是对数线性模型log-linear mode
5、l),本文中,我采用它的一种特殊方式, logistic回归模型Logistic模型: 其中 为一系列影响事件发生的概率的要素的线性函数exyp11)/1(x逻辑回归分析逻辑函数的分布曲线ln1PP逻辑回归分析Logistic回归的logit变换 也称自然对数转换,将非线性函数转变为线性函数对于k个自变量的情况相应的逻辑回归模型iiiiixppitpyit)1ln(log)(logkkxxxitP.log2211).().(221122111kkkkxxxxxxeeP逻辑回归分析Logistic回归模型的估计通常采用最大似然估计统计分析中的另一常用的模型参数估计方法假设由n个样本组成的样本空间
6、Y, 其观测值为 各项观测值相互独立,他们的结合分布可以表示为各边沿分布的乘积 其中该公式也称为似然函数,估计的过程就是求出可以使这一似然函数的值最大的参数估计).(,2,1nyyyniyiyiiippL1)1()1 ()(iixxieep1逻辑回归分析 Logistic 回归系数的意义 Logistic回归中的常数项表示,在自变量不起任何作用时=0时,因变量发生与不发惹事件的概率之比的对数值。 Logistic回归中的回归系数表示当自变量改动一个单位时,因变量发生与不发惹事件的概率之比的对数变化值。例如,当=0.693时, 那么当自变量变化一个单位时,因变量事件发生与不发生的概率比为0.66
7、7/0.333)2e逻辑回归分析Logistic 回归系数的统计推断,包含两个方面:显著性检验和参数估计显著性检验:讨论在模型中自变量x对logit作用的显著性检验,一个自变量能否与因变量显著相关的统计假设。包括:wald检验、L.R.检验等等 回归参数的置信区间 :为了得到关于估计精度的丈量,或者说是估计参数和实践参数的详细误差。回归系数的置信区间:得到实践参数间隔估计参数的范围,当=0.05时,参数的置信区间是发生比率的置信区间:可以经过对应的回归系数的置信区间的上下限求指数幂的方法获得事件概率的置信区间:得到因变量实践发生概率间隔估计概率的范围模型的扩展:对于先拟合胜利的一个初始模型,再
8、添加假设干自变量成为扩展模型,然后对两者加以比较、调整,反复多次最终到达确定最终模型SE96. 1片断聚类参数的选择词向量类似度:为每一个片断构造一个词向量,每个元素的权重取每个词的 tf.idf值名词向量类似度动词向量类似度名实体向量类似度同义词向量类似度:为每个片断构造一个同义词向量,每个元素的权重采用以下公式进展计算其中wik是第i个片断的第k个词的tf.idf值,m是片断中词的数量, 是采用基于词矢量的语义量化模型来计算的同义词集, 是一个布尔函数;sj是第j个同义词集的尺寸 同义名词向量类似度同义动词向量类似度同义名实体向量类似度),(kwordsimsetPmkjkikjsword
9、simsetPwelementscore1),()(simset片断类似度的逻辑回归分析逻辑回归模型其中, k是自变量的数量,在本文中k=8 vij是第i对片断之间的关于第j个向量的类似度,这里类似度的计算采用向量夹角余弦的方法。Yi的值由手工标注获得,当两个片断类似时, Yi=1;反之, Yi=0)()(1iiVVieeY).(21k).(21ikiiivvvV 实验结果value2FeaturevalueConfidence intervalWord2.29985.749(3.0838, 1.5158)Noun0.93912.347Verb0.24581.868Named entity1.
10、05356.584(1.3671, 0.7399)Similar word5.634014.058(6.418, 4.85)Similar noun2.20705.505(2.991, 1.423)Similar verb0.74726.145(0.9824, 0.512)Similar named entity6.455316.138(7.2393, 5.6713)聚类算法1删除同其他片断的类似度值小于0.1的片断,将剩下的片断每个作为一个候选类;2合并类似度最高的两个类,生成一个新类;3 对于一切的类别,计算两两间的类似度;4 反复步骤2,3直到类似度矩阵中的一切元素均小于给定的阈值;5 删除一切只包含一个元素的类。聚类实验结果采用平均精度AA(averaged accuracy) 作为聚类评测的规范其中, a,b,c,d的取值见表1 表12)(NAPAAAcaaPAdbdNAShould be classified to the same cluster yes no Be actually classified to the same cluster yes abno cd聚类实验结果All linguistic featuresHand tuningAutomatic tuning46.9%58%Shared
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 学校经验交流发言稿
- 新郎单人发言稿
- 观察柚子写作课件
- 前台接待礼仪培训
- 时间像小马课件
- 2025版水利工程设计与施工承包劳动合同模板
- 二零二五年度工业生产线转包协议合同范本
- 二零二五年度智能门窗安装与智能安防系统合同
- 二零二五年度房产抵押担保与教育项目合作合同
- 二零二五年度工业用厂房购置合同集
- 泡沫驱机理专业知识讲座
- 《大学》原文(古本)
- 员工综合素质与能力考核表
- 五年制诊断学水肿血尿等
- GB/T 9480-2001农林拖拉机和机械、草坪和园艺动力机械使用说明书编写规则
- GB/T 6569-2006精细陶瓷弯曲强度试验方法
- FZ/T 73001-2016袜子
- 2023年员工标准劳动合同范本版7篇
- 中国邮票目录大全(2015版)
- 倪海厦针灸讲义
- 施工放样测量记录表
评论
0/150
提交评论