




已阅读5页,还剩16页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
逻辑回归分析及其在文本片断聚类中的应用,徐永东 2004,6,12,内容简介,研究背景 逻辑回归分析 文本片断聚类 语言特征选择 特征自动融合 聚类 试验结果 结论,研究背景,多文档自动文摘技术的两个主要任务 关键信息抽取 内容重组 Majority ordering Chronological Ordering Augmented Chronological Ordering 关键信息抽取的几种方法 Text Surface Features Information Statistics method Discourse Structure Lexical Chains Information Extraction vs. Information Retrieval Information Fusion 文本片断聚类的特点:输入是面向同一主题的文档集,文本之间相似度较高,因此文本片断之间的区别较小,难以实现进一步的聚类处理;,研究背景,文本片断聚类信息融合的关键任务 多文档自动文摘技术的特点 文本间的重复信息被认为是重要的文摘候选 生成的文摘不能有冗余内容 信息融合技术的特点文本重组 文本片断聚类的特点: 输入是面向同一主题的文档集,文本之间相似度较高,因此文本片断之间的区别较小,难以实现进一步的聚类处理; 从长度上看,文本片断要远远小于文本,因此进行相似度识别时可利用的信息较少,因此尽可能地利用多特征是解决上述难题的很好的途径,逻辑回归分析,回归分析Regression analyze: 研究一个或一组变量的变动对另一个变量的变动的影响程度的方法 用来研究可以测量的变量之间的关系的一个数学工具 研究者遇到的问题 自变量和因变量是否有联系 这种联系是强是弱 能否根据自变量来预测因变量 如果能,如何预测,预测误差是多少,有效性如何?,逻辑回归分析,对上述关系进行定量描述的数学模型为回归模型 其中,Y为因变量,E(Y/X)为给定x的条件下Y的条件均值,为随机变量,且 E()0 相应的回归方程,逻辑回归分析,当 时,称之为线性回归方程,这里 回归分析的步骤: 收集这些变量在一组单元或案例中的每一个数据。对Y和X分别进行k次独立观测,得到一个训练样本集(Yi, Xi) 对回归参数进行估计:估计方法有很多种,对于线性回归分析主要采用最小二乘法,即选择参数估计量,使得随机误差项i (因变量的观测至于模型估计值之间的差值)的平方和达到最小。 假设检验 用于检验拟合模型对被研究的关系是否合适、有用。,逻辑回归分析,大多数统计方法中,因变量是一个分类变量categorical variable而不是连续变量continuous variable 在分析分类变量时,通常采用的一种统计方法是对数线性模型(log-linear model),本文中,我采用它的一种特殊形式, logistic回归模型 Logistic模型: 其中 为一系列影响事件发生的概率的因素的线性函数,逻辑回归分析,逻辑函数的分布曲线,逻辑回归分析,Logistic回归的logit变换 也称自然对数转换,将非线性函数转变为线性函数 对于k个自变量的情况 相应的逻辑回归模型,逻辑回归分析,Logistic回归模型的估计 通常采用最大似然估计统计分析中的另一常用的模型参数估计方法 假设由n个样本组成的样本空间Y, 其观测值为 各项观测值相互独立,他们的联合分布可以表示为各边际分布的乘积 其中 该公式也称为似然函数,估计的过程就是求出能够使这一似然函数的值最大的参数估计,逻辑回归分析,Logistic 回归系数的意义 Logistic回归中的常数项表示,在自变量不起任何作用时(=0时),因变量发生与不发生事件的概率之比的对数值。 Logistic回归中的回归系数表示当自变量改变一个单位时,因变量发生与不发生事件的概率之比的对数变化值。例如,当=0.693时, 则当自变量变化一个单位时,因变量事件发生与不发生的概率比为(0.667/0.333),逻辑回归分析,Logistic 回归系数的统计推断,包含两个方面:显著性检验和参数估计 显著性检验:讨论在模型中自变量x对logit作用的显著性检验,一个自变量是否与因变量显著相关的统计假设。包括:wald检验、L.R.检验等等 回归参数的置信区间 :为了得到关于估计精度的测量,或者说是估计参数和实际参数的具体误差。 回归系数的置信区间:得到实际参数距离估计参数的范围,当=0.05时,参数的置信区间是 发生比率的置信区间:可以通过对应的回归系数的置信区间的上下限求指数幂的方法取得 事件概率的置信区间:得到因变量实际发生概率距离估计概率的范围 模型的扩展:对于先拟合成功的一个初始模型,再添加若干自变量成为扩展模型,然后对两者加以比较、调整,重复多次最终达到确定最终模型,片断聚类参数的选择,词向量相似度:为每一个片断构造一个词向量,每个元素的权重取每个词的 tf.idf值 名词向量相似度 动词向量相似度 名实体向量相似度 同义词向量相似度:为每个片断构造一个同义词向量,每个元素的权重采用下列公式进行计算 其中wik是第i个片断的第k个词的tf.idf值,m是片断中词的数量, 是采用基于词矢量的语义量化模型来计算的同义词集, 是一个布尔函数;sj是第j个同义词集的尺寸 同义名词向量相似度 同义动词向量相似度 同义名实体向量相似度,片断相似度的逻辑回归分析,逻辑回归模型 其中, k是自变量的数量,在本文中k=8 vij是第i对片断之间的关于第j个向量的相似度,这里相似度的计算采用向量夹角余弦的方法。 Yi的值由手工标注获得,当两个片断相似时, Yi=1;反之, Yi=0,试验结果,聚类算法,1删除同其他片断的相似度值小于0.1的片断,将剩下的片断每个作为一个候选类; 2合并相似度最高的两个类,生成一个新类; 3 对于所有的类别,计算两两间的相似度; 4 重复步骤2,3直到相似度矩阵中的所有元素均小于给定的阈值; 5 删除所有只包含一个元素的类。,聚类试验结果,采用平均精度AA(averaged accuracy) 作为聚类评测的标准 其中, a,b,c,d的取值见表1 表1,聚
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 公文最易错别字的
- 饿了外卖市场经理月工作总结
- 如何说课培训课件
- 2026届山东省海阳市美宝学校化学九年级第一学期期中质量跟踪监视试题含解析
- 教学查房的价值与意义
- 2026届贵州省施秉县化学九年级第一学期期末联考试题含解析
- SMT生产现场培训
- 南昌市南大附中2026届英语九上期末调研模拟试题含解析
- 2026届安徽省蚌埠市怀远县化学九年级第一学期期末教学质量检测模拟试题含解析
- 江苏省苏州市虎丘区立达中学2026届化学九年级第一学期期中质量跟踪监视模拟试题含解析
- 伊斯兰教完整版本
- 计量经济学知到智慧树章节测试课后答案2024年秋安徽农业大学
- 《西方的文官制度》教学设计
- 食管纵隔瘘护理
- 外研版九年级英语上册单元模块满分必刷题 Module 1 【刷中考】(广东专用)(含答案)
- 华为ICT大赛网络赛道考试题库(786题)
- 新能源汽车检测与维修专业调研报告
- 2024年保安员证考试题库及答案(共240题)
- 2018低压电力线高速载波通信互联互通技术规范第3部分:检验方法
- 超声科医院感染管理:培训与演练
- 养老院餐饮供应服务行业发展全景调研与投资趋势预测研究报告
评论
0/150
提交评论