


全文预览已结束
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1内容安全概念模型2 Jaccard系数的缺陷,tf-idf要考虑哪些因素3 产生式与判别式的区别4索引的建立,倒排索引5检索评价指标计算6 极大似然估计,使用加1平滑答案:1. 信息安全的框架包括内容安全(信息利用的安全)、数据安全(信息自身的安全)、运行安全(信息系统的安全)、物理安全(信息系统的安全)。如图所示:内容安全涉及的是对流动的数据进行限制,包括可以对指定的数据进行选择性的阻断、修改、转发等特定的行为以及信息对抗,即针对信息中的信息熵而进行的隐藏、掩盖,或发现、分析的行为。它是指对信息真实内容的隐藏、发现、选择性阻断。主要的处置手段是信息识别与挖掘技术、过滤技术、隐藏技术等。2. Jaccard系数的缺陷:(1)不考虑词项频率,即词项在文档中的出现次数;(2)罕见词比高频词的信息量更大,Jaccard系数没有考虑这个信息;(3)没有仔细考虑文档的长度因素。tf-idf要考虑的因素:(1)词项频率,即词t在文档d中出现的次数;(2)文档频率,指出现词项t的文档数。(3)归一化向量3.判别式模型( discriminative model )产生式模型( generative model ) 特点寻找不同类别之间的最优分类面,反映的是异类数据之间的差异对后验概率建模,从统计的角度表示数据的分布情况,能够反映同类数据本身的相似度区别 ( 假定输入 x,类别标签 y)估计的是条件概率分布 (conditional distribution) : P(y|x)估计的是联合概率分布( joint probability distribution: P(x, y),联系由产生式模型可以得到判别式模型,但由判别式模型得不到产生式模型。 常见模型 logistic regression SVMs traditional neural networks Nearest neighborGaussians, Naive Bayes Mixtures of Gaussians, Mixtures of experts, HMMsSigmoidal belief networks, Bayesian networks Markov random fields 优点1 )分类边界更灵活,比使用纯概率方法或产生式模型更高级;2 )能清晰的分辨出多类或某一类与其他类之间的差异特征;3 )在聚类、 viewpoint changes, partial occlusion and scale variations 中的效果较好;4 )适用于较多类别的识别;5 )判别模型的性能比产生式模型要简单,比较容易学习。1 )实际上带的信息要比判别模型丰富;2 )研究单类问题比判别模型灵活性强;3 )模型可以通过增量学习得到;4 )能用于数据不完整( missing data)情况。 缺点1 )不能反映训练数据本身的特性。能力有限,可以告诉你的是 1 还是 2,但没有办法把整个场景描述出来;2 ) Lack elegance of generative: Priors, 结构 , 不确定性; 3 ) Alternative notions of penalty functions, regularization, 核函数; 4 )黑盒操作 : 变量间的关系不清楚,不可视。1) Tend to produce a significant number of false positives. This is particularly true for object classes which share a high visual similarity such as horses and cows; 2) 学习和计算过程比较复杂。 性能较好(性能比生成模型稍好些,因为利用了训练数据的类别标识信息,缺点是不能反映训练数据本身的特性)较差 主要应用Image and document classificationBiosequence analysisTime series predictionNLPMedical Diagnosis4. 设有两个文档D1,D2其文本内容分别如下:D1=abfcdgecfcdeagD2=dacfggfcbbaafc对文档D1,D2建立倒排索引,并写出倒排索引结构。用伪代码写出上述建立倒排索引的建立过程。给定查询Q=fc如果采用向量u 空间模型检索,请写出检索过程。(3)对于查询Q:(, )文档D1:(, , , , , )文档D2:(, , , , , )所以可得到,文档向量为D1: D2: Q:查询文档相似度计算:采用内积计算:文档D1和Q的内积:3*1 + 2*1 = 5;文档D2和Q的内积:3*1 + 3*1 = 6;
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025黑龙江哈尔滨市工人文化宫工作人员招聘7人考前自测高频考点模拟试题及答案详解(名校卷)
- 2025广西姆洛甲文化旅游投资有限公司公开招聘1人模拟试卷及答案详解(各地真题)
- 2025河南新乡市长垣市高章士学校招聘模拟试卷及参考答案详解
- 2025贵州黔西南州生态移民局公益性岗位招聘2人模拟试卷及答案详解(典优)
- 2025年吉林松辽水利水电咨询有限责任公司公开招聘模拟试卷有完整答案详解
- 2025内蒙古能源集团有限公司煤电事业部、金山第三热电有限公司招聘30人模拟试卷及答案详解一套
- 2025年洛阳宜阳县选聘县属国有集团公司部长10名模拟试卷及答案详解(历年真题)
- 2025广东湛江市坡头区社会保险基金管理局招聘编外人员1人模拟试卷及1套参考答案详解
- 2025河南郑州市新郑市面向社会聘任政务服务社会监督员、政务服务体验员10人模拟试卷及一套完整答案详解
- 2025河南郑州联勤保障中心二季度社会人才招聘132人考前自测高频考点模拟试题有答案详解
- 地面拆除合同模板怎么写(3篇)
- 2025秋新教材统编版八年级上册道德与法治第十一课 军强才能国安 教案(共2课时)
- 人教PEP版(2024)四年级上册英语全册教案(单元整体教学设计)
- 数控滚齿机操作指导手册
- 平安银行 iq测试题及答案
- 医保智能审核培训课件
- 导管相关性感染的预防与护理
- 2025年大学试题(大学选修课)-TRIZ创新方法历年参考题库含答案解析(5套典型考题)
- 如何培养数学尖子生的讲座
- 2025年义务教育劳动新课程(2025版)标准试题含参考答案
- 专题02选必一Unit2(知识全梳理考点精准练)
评论
0/150
提交评论