2文本分析、检索模型和基于内容的图像检索_第1页
2文本分析、检索模型和基于内容的图像检索_第2页
2文本分析、检索模型和基于内容的图像检索_第3页
2文本分析、检索模型和基于内容的图像检索_第4页
2文本分析、检索模型和基于内容的图像检索_第5页
已阅读5页,还剩76页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

文本分析与检索文本表示与特征选取文本中抽取出的特征词进行量化来表示文本信息。(利用分词工具,极易中文分词,je-analysis-1.5.3,庖丁分词,paoding-analyzer.jar,IKAnalyzer3.0,imdict-chinese-analyzer,ictclas4j

)目前通常采用向量空间模型来描述文本向量。如果直接用分词算法和词频统计方法得到的特征项来表示文本向量中的各个维??特征选择:找出对文本特征类别最具代表性的文本特征文本特征词选择特征项必须具备一定的特性:特征项要能够确实标识文本内容特征项具有将目标文本与其他文本相区分的能力特征项的个数不能太多特征项分离要比较容易实现字,词,短语

特征词的选择用映射或变换的方法把原始特征变换为较少的新特征;从原始特征中挑选出一些最具代表性的特征;根据专家的知识挑选最有影响的特征;用数学的方法进行选取,找出最具分类信息的特征基于统计的特征提取方法(构造评估函数)TF-IDF法:以特征词在文档d中出现的次数与包含该特征词的文档数之比作为该词的权重词频方法(WordFrequency)文档频次方法(DocumentFrequency)互信息(MutualInformation)基于统计的特征提取方法(构造评估函数)期望交叉熵(ExpectedCrossEntropy)信息增益方法(InformationGain)

统计量方法:度量特征w和主题类C之间的独立性A特征变换-隐语义分析(LSA)LatentSemanticAnalysis-LDALatentSemanticIndexing-LSI问题提出:一词多义和同义词中心思想:用概念(或特征)代替词基本方法:利用矩阵理论中的“奇异值分解(singularvaluedecomposition,SVD)”技术,将词频矩阵转化为奇异矩阵(K×K)隐语义分析LSAIntroducedin1990;improvedin1995S.Deerwester,S.Dumas,G.Furnas,T.Landauer,R.Harsman:Indexingbylatentsemanticanalysis,J.AmericanSocietyforInformationScience,41,1990,pp.391-407M.W.Berry,S.T.Dumas,G.W.O’Brien:Usinglinearalgebraforintelligentinformationretrieval,SIAMReview,37,1995,pp.573-595Basedonspectralanalysisofterm-documentmatrix隐语义分析LSA输入:term-by-documentmatrix输出:U:concept-by-termmatrixV:concept-by-documentmatrixS:elementsassignweightstoconcepts隐语义分析LSA1.建立词频矩阵,frequencymatrix2.计算frequencymatrix的奇异值分解。分解frequencymatrix成3个矩阵U,S,V。U和V是正交矩阵(UTU=I),S是奇异值的对角矩阵(K×K)3.对于每一个文档d,用排除了SVD中消除后的词的新的向量替换原有的向量4.用转换后的文档索引和相似度计算隐语义分析LSASVDuniquemathematicaldecompositionofamatrixintotheproductofthreematrices:twowithorthonormalcolumnsonewithsingularvaluesonthediagonaltoolfordimensionreductionsimilaritymeasurebasedonco-occurrencefindsoptimalprojectionintolow-dimensionalspace概率(p)LSAW:term,d:doucumentz:conceptPLSA不足:概率模型不够完备:在document层面上没有提供合适的概率模型,使得pLSA并不是完备的生成式模型,而必须在确定documenti的情况下才能对模型进行随机抽样(1)thenumberofparametersinthemodelgrowslinearlywiththesizeofthecorpus,whichleadstoseriousproblemswithoverfitting.(2)itisnotclearhowtoassignprobabilitytoadocumentoutsideofthetrainingset.LatentDirichletAllocation(LDA)用一组词及其词频分布来刻画主题,并认为文本片段是从一个概率模型中生成的。LatentDirichletAllocation(LDA)LatentDirichletAllocation(LDA)LDAassumesthefollowinggenerativeprocessforeachdocumentwinacorpusD1.ChooseN~Poisson(ξ)(N:文档长度,泊松分布).2.Chooseθ~Dirichlet(α)

(θ:k维向量,狄利克雷分布;k:Topic数量).3.ForeachoftheNwordswn:

(a)Chooseatopiczn~Multinomial(θ).(多项式分布)

(b)Chooseawordwnfromp(wn|zn,β),amultinomialprobabilityconditionedonthetopiczn.(β是一个k*V的矩阵,V是词的数量,β(i,j)表示词j在Topici中出现的概率,矩阵的一行对应一个Topic)LatentDirichletAllocation(LDA)参数估计方法(α,β)EM(原文作者方法);GibbsSampling.(求解过程)检索模型

(Retrievalmodel)典型的检索系统结构IRSystemQueryStringDocumentcorpusRankedDocuments1.Doc12.Doc23.Doc3..

信息检索模型是指如何对查询和文档进行表示,然后对它们进行相似度计算的框架和方法。本质上是对相关度建模。检索的评价标准:相关性相关性是一个主观指标,它可以包括:检索结果包含有相应的检索主题检索的结果具有及时性(最近的信息)检索的结果要具有权威性(来源于可信数据源)满足用户的目标和利用信息的意图(信息需求)

主要相关性标准:信息检索系统应该满足用户的信息需求IR模型分类信息检索模型检索模型浏览模型内容模型结构模型布尔模型向量模型概率模型非重叠链表模型邻近节点模型平坦模型结构导向模型超文本模型22检索模型的基本概念——相关概念

标引项(IndexTerm)

文档表示成多个Term的集合通常用词来表示,但是也可以用其他语言单位来表示关键词(keywords)可以看成Term的一种标引项的权重(Weight)

不同标引项作用是不同的通过权重加以区分

信息检索模型是描述信息检索中的文档、查询和它们之间的关系(匹配函数)的数学模型。23模型F检索模型的基本概念——检索模型的定义文档D查询Q匹配函数R(qi,dj)经典的IR模型-基本的概念文档:表示成一系列具有表达能力的关键字或term的集合一个被索引的term是一个可以用于记住该文档主题的文档关键字一个索引的terms也许只选择名词索引,因为名词本身具有意义应该尽量减少索引的大小需要名词识别

PartofSpeechtagger经典的IR模型-基本的概念标引项的权重(Weight)

不同标引项作用是不同的通过权重加以区分一些符号ki

是一个索引termdj

是一个文档wij

是与(ki,dj)相关的权重权重

wij

量化了索引term用于描述文档内容的重要性Boolean模型基于集合论的简单模型检索词被布尔表达式所指定精确的语义整齐的形式Terms在文档里只有两种状态出现不出现因此,wij∈{0,1}精确匹配-Boolean搜索检索回的文档必然完全满足检索要求:所有与检索词有逻辑关联或其它限制的文档精确:nothingless,nothingmore通过匹配下面的布尔代数规则‘newalgebra’用Venndiagrams图里面的圆表示28布尔代数在集合上的运算例如文档集合有四种运算操作

(就像在代数运算上一样):A:取回集合A我想要包含termlibrary的文档AANDB:取回集合A和B交集运算用AB表示取回同时包含libraryanddigital的文档AORB取回集合A或者B并集运算用AB表示我想要至少包含library

digital之一文档ANOTB:取回集合A但不包含集合B否运算用A–B表示取回library但不包含

digital的文档使用Boolean模型的检索系统30布尔模型——优缺点

布尔模型的优点简单而整齐,为现代许多商业系统所用自我保护功能,降低用户对搜索系统的期望,使自己不在责任方,检索结果不好的原因在于用户构造查询不好布尔模型的缺点检索是基于二值运算确定的,没有部分匹配的概念检索回的文档之间没有排序检索词必须被翻译成布尔表达式,这让很多用户感觉到不方便由用户形式化的布尔检索词大多数情况下太简单了因此,用布尔模型检索回的结果不是太多就是太少布尔模型目前仍然是商业文档数据库的主流模型,并为一些新的领域提供了一个好的起点基于向量的模型用二值的权重太受限制向量模型通过分派非二值权重给查询和文档中的索引项来实现检索目标这些权重用于计算系统中的每个文档与用户的查询请求的相似程度,向量模型通过对文档按照相似程度降序排列的方式,来实现文档与查询项的部分匹配文档排列有序可使检索词与文档之间的匹配更好,返回的结果更合理基于向量的模型若干独立的词被选作索引项(terms)索引项代表了一个应用中的重要词项例如计算机科学图书馆中的索引项应该是哪些?基于向量的模型Define:wij>0当ki

dj时wiq>=0与(ki,q)关联vec(dj)=(w1j,w2j,...,wtj) vec(q)=(w1q,w2q,...,wtq)这些terms之间是不相关的,他们形成了一个向量空间(vector

space)基于向量的模型实际上,这些词项之间是相互关联的当你在一个文档中看到“计算机”,非常有可能同时看到“科学”当你在一个文档中看到“计算机”,有中等的可能性同时看到“商务”当你在一个文档中看到“商务”,只有很少的机会看到“科学”基于向量的模型Sim(q,dj)=cos() =[vec(dj)vec(q)]/|dj|*|q| =[wij*wiq]/|dj|*|q|因为wij>0并且

wiq>0,所以0<=sim(q,dj)<=1 ijdjq

向量模型通过vec(dj)和vec(q)的相关度来评价文档dj和查询q的相关度。这种关系可以用定量表示,一般使用两个向量之间的夹角余弦值来计算36基于向量的模型N 文献数

ni

文献集合中包含标引词ki的词频

freqi,j

某篇文献dj中包含标引词ki的词频(描述能力)fi,j

词频的规范化值(局部权值,描述能力)idfi

标引词ki的逆词频值(全局权值,区分能力)37基于向量的模型

文档向量权值

tf/idf查询向量的构造:索引词权值WI,q

索引词权值wij=tf*idf缺点?38基于向量的模型基于向量的模型向量模型的优点:术语权重的算法提高了检索的性能部分匹配的策略使得检索的结果文档集更接近用户的检索需求可以根据结果文档对于查询串的相关度通过Cosine

Ranking等公式对结果文档进行排序基于向量的模型向量模型的缺点:索引项被假设为彼此之间相互独立的,然而在实际中,考虑索引项之间的相关性也许是个缺陷由于许多索引项之间的相关性具有局限性,不加区别地将其应用到所有文档中,会影响检索系统的整体性能41基于向量的模型——模型评价

重要的学术贡献,已用了几十年

G.SaltonandM.E.Lesk,“Computerevaluationofindexingandtextprocessing,”JournaloftheACM,15(1):8-38,January1968.G.Salton,TheSMARTRetrievalSystem–ExperimentsinAutomaticDocumentProcessing.PrenticeHallInc.,1971.

实践证明,尽管VSM在许多方面依然和“现实”都不符,但实际效果不错为什么比布尔模型好很多?42基于向量的模型——向量模型的改进

标引词位置加权结构位置标题、摘要、关键词、正文、结论和超连接重点句位置综上所述、结束语、主要在于辅助主题词表将带修饰和限制作用的词——形容词和副词做成辅助主题词表,用以扩展用户查询将检索关键词和字典库中的同义词和修饰词结合起来,形成新的查询,提高了检索的效率个性化协同检索设计将每次的检索结果、用户兴趣等建立个性化信息库,并进行信息反馈,定期刷新,不断充实概率模型概率论模型,亦称为二值独立检索模型1976年由Roberston和SparckJones提出的经典概率模型。它企图在概率的框架下解决IR的问题给定一个用户查询,存在一个文档集合,该集合只包括与查询完全相关的文档而不包括其他不相关的文档,称该集合为理想结果集合如何描述这个理想结果集合?即:该理想结果集合具有什么样的属性?基于相关反馈的原理,需要进行一个逐步求精的过程概率模型基本假设给定一个查询q和文档集中一个文档dj,概率模型试图找出用户对其感兴趣的概率模型假设这个概率只是依赖于查询和文档的表示,进而模型假设文档集中存在一个子集,它使得总体相关概率在集合中的文档被认为是与查询相关的,不在集合中的则被认为是不相关的P(dj/q,user)YN概率模型将信息获取看成是一个过程用户提交一个查询,系统提供给用户它所认为的相关结果列表用户考察这个集合后给出一些辅助信息系统再进一步根据这辅助信息(加上以前的信息)得到一个新的相关结果列表;如此继续。如果每次结果列表中的元素总是按照和查询相关的概率递减排序的话,则系统的整体效果会最好概率的计算基于当时所能得到的所有信息概率模型贝叶斯定理词条的独立假设

P(AB)=P(A)P(B)当且仅当A与B相互独立对一篇文档而言,若文档中的各个索引词相互独立,则有

P(dj)=P(k1)…P(kt)概率模型定义设索引词的权重为二值的,即:R表示已知的相关文档集(或最初的猜测集),用表示R的补集。表示文档dj与查询q相关的概率,表示文档dj与查询q不相关的概率。文档dj与查询q的相似度sim(dj,q)可以定义为:概率模型根据贝叶斯定理有概率模型假设标引词独立,则这是概率模型中排序计算的主要表达式概率模型取对数,在相同背景下,忽略对所有因子保持恒定不变的因子,则有如何计算上式中的和呢?简单假设作为最初的猜测

1)对所有的索引词ki是恒定不变的,通常取为0.5,即

2)不相关文档中的索引词ki的分布可以通过文档集中索引词的分布来估计,即其中,ni表示包含索引词ki的文档数,N表示集合中的文档总数初始值确定后,根据与查询q相关的大小进行初步排序,取前若干个文档作为相关查询集合之后通过如下方法进行改进(即开始递归计算)51概率模型52概率模型

用V表示概率模型初步检出并经过排序的文档子集

Vi表示V中包含索引词ki的文档数

改进和的过程如下:

1)用已经检出的文档中索引词ki的分布来估计

2)假定所有未检出的文档都是不相关的来估计即如此递归重复这一过程,得到理想结果集合53概率模型

对较小的V和Vi上述计算会出现问题,如V=1和Vi=0,可做一些改进:调整因子也可以为ni/N,即54概率模型

概率模型的算法步骤起始时(只有查询需求,没有检索结果)假设:

(1)对所有索引项概率是常数;

(2)索引项在非相关文档集中的分布近似等于在所有文档集中的分布,即:55概率模型

令V是初始检索结果的子集,有r个,取自检索结果集中前r个文档,这些检索结果是经过概率模型排好顺序的令Vi是V中所有包含索引项ki的那些文档,显然Vi是V的子集;为简单起见,直接用V和Vi表示这些集合中的元素数量修改对概率和的计算方法56概率模型

为保证数值计算的稳定性,常用下列公式计算相似度:概率模型优点理论上讲,文档按照其与目标集合的相关概率降序排列缺点需要最初将文档分为相关和不相关的集合所有权重都是二值的,模型中仍然假设索引项之间是相互独立的基于内容的图像检索提纲基于内容的图像检索简介检索模型

1.

基于内容图像检索简介

(ContentbasedImageRetrieval)Why?这得翻多少资料才能找到图像检索的历史图片环绕文字图像检索的历史传统的基于文本的图像搜索引擎对图像进行手工标注使用文本检索的方法例如

池塘里的花<其生物名>睡莲图像检索的历史为何要基于内容进行图像检索目前的技术还无法做到自动对一副图像的内容进行注释。一些视觉内容有时难于描述。可能对一副图像内容的注释存在诸多种无法约束限制的方式。手工注释是一项繁重而乏味的工作。WhatisCBIR?图像具有丰富的内容图像内容可以被多种特征表示:颜色均值,颜色直方图等等…减轻用户负担,把检索词形成的过程自动化。每一个图像将被自己本身的特征所描述CBIR–Asamplesearchquery例如用户想寻找有许多玫瑰花的图片他也许想将自己已有的一张含有玫瑰花的图片作为检索词他也许自己画一张玫瑰花的草图作为比照对象图像检索系统将从用户给出的检索词中提取相关的图像特征然后系统将把该图像与数据库中的图像比对最终相关的结果将会被反馈给用户SampleQuery基于内容图像检索(CBIR)的特点图像内容依赖其视觉特征而非文本描述进行表示,查询将根据图像视觉特征相似度进行。采用基于样例的图像查询方式,即用户通过选择具有代表性的一幅或多幅例子图像来构造查询,然后由系统查找与例子图像在视觉内容上较相似的图像,并按相似度大小排列返回给用户。检索过程是一个通过交互而获得优化的过程。系统通过可视化界面和用户交互,用户能够方便地构造查询,并对检索结果进行评估,系统可以通过这些评价信息来对用户的检索目标进行新的理解,从而改进检索结果CBIR系统的的基本框架CBIR系统工作过程用户图像数据库Queryimage特征提取特征特征表达比较检索结果IBM’sQBICQBIC–QuerybyImageContent第一个商用的CBIR系统.Modelsystem–影响了许多后来的CBIR系统特征:颜色(直方图、均值)、纹理(粗燥度、对比度、方向性)和形状(面积、圆形性、离心率)、草图特征融合了基于文本的检索使用R*-trees来做索引QBIC–SearchbycolorQBIC–SearchbyshapeQBIC–Querybysketch基于内容图像检索难题人类对多媒体信息

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论