




已阅读5页,还剩24页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
多语言文本信息处理的方法和框架多语言文本信息处理的方法和框架赵军中国科学院自动化研究所模式识别国家重点实验室北京,摘要本文在介绍多语言文本信息处理的几个重要任务的基础上,归纳出多语言文本信息处理的一般描述对于多语言文本信息处理领域的语言鸿沟问题以及信息处理领域的一词多义和一义多词问题,本文分析了几种主要的解决办法,并提出我们的解决方案一一基于多语言准文本平行语料库的隐含语义标引最后介绍了以为核心技术的多语言文本信息处理的基本框架关键词多语言文本信息处理,自然语言处理,机器翻译撇,】一,概述随着全球信息化的不断推广,因特网资源不再集中在英语等少数几种语言上,非英语因特网资源的比重不断增加另一方面,非英语英特网用户的比重也在不断增加。根据预测,到年,英特网用户总量将达到亿千百万,其中非英语用户将占到。因特网资源的多语言性和因特网用户的多语言性,使得多语言文本信息处理变得迫在眉睫。多语言信息文本处理可以有两种含义某个文本信息处理系统有多种语言版本,例如一个文本检索系统包含英文文本检索子系统、中文文本检索子系统和日文文本检索子系统等,在每个子系统内,用一种语言提问,检索出该种语言的文本某个文本处理系统具有蹬语壹处理多语言文本的能力,例如一个英汉日多语言信息检索系统中,用户用英文提问,系统除了反馈给用户英文的相关文本外还可以反馈给用户中文和日文的文本。因为用户提问和文本可能是由不同语言表示的,语言之间的差异性给检索过程带来困难。这种语言之间。的差异性给跨语言信息处理带来的困难称为蚤直婆渔问题本文所指的多语言文本信息处理指的是第种含义,即系统处理交叉语言和混合语言的能力。包含以下两种情形每个文本我们可以把信息检索中的用户提问和信息过滤中的用户信息需求都看作是文本是以一种语言表示的,但是不同的文本可以用不同语言表示每个文本本身就是用多种语言混合表示的,例如一个文本中有英文、中文、也有日文等。在英文中,与“多语言”相关的有个词,。按照作者的理解,信息处理是泛指,包括本文第一段介绍的两种含义。类似地,信息处理是对双语信息处理的泛指而信息处理特指系统的多语言之间交叉语言和混合语言处理能力,即本文第一段介绍的第种含义。类似地,信息处理是对双语交叉语言和混合语言信息处理的特指。因此本文所指的多语言信息检索是。多语言文本信息处理包含有两个主要的研究领域。多语言文本的存取和显示公布,成为多种语言文字的统一编码年公布了标准第一版,年/标准,从而为多语言的存取和显示的奠定了基础。年发布了一个多语言的网页浏览器。目前,/等著名的网络搜索工具都支持和多语言文本的统一存储和显示多语言文本的加工和处理,包括信息检索、文本分类、信息发现等等。例如多语言信息检索的任务是给出任意一种语言的提问,从多种语言表示的文本集合中找到与提问相关的任意语言的文本。本文讨论的多语言文本信息处理主要是针对这个研究领域,即多语言文本的加工和处理。多语言文本信息处理涉及到信息检索、机器翻译和自然语言理解等多个研究领域,具有重要的研究价值。目前这个领域的研究主要有双语之间的跨语言信息检索,代表性的研和的英语和西班牙语之间的究有美国大学的交叉语言信息检索研究,采用的是双语词典结合译词选择排歧的方法美国大学的将单语言信息检索中的隐含语义标引扩展到双语信息检索中,形成。,试验取得令人满意的结果在国内,多语言文本信息检索的研究有复旦大学吴立德和黄萱菁的英汉交叉语言信息检索研究,微软亚洲研究院高建峰等的英汉交叉语言信息检索研究,以及中国科学院软件研究所的英汉交叉语言信息检索研究。这三项研究工作主要都是基于双语词典和译词选择的方法双语之间的跨语言信息过滤代表性的工作是美国将用于双语信息过滤。在评测方面,美国国家大学标准委员会和美国国防部在年的文本检索测试会议中首次设立了交叉语言信息检索的评测,主要集中在西方语言之间的交叉检索,后来也加入了中文和英文之间的交叉检索在亚洲,年日本国立情报学研究所在其主办的第二届东方语言信息检索测试会议中开始了英汉交叉语言信息检索的测试。年,美国国防部开始设立,项目,组织多语言信息侦别、抽取和文摘方面的研究和评测,把多语言信息处理从单纯的信息检索拓展到多个领域。年,欧洲开始了欧洲语言跨语言信息处理的评测计划。这些项目和评测都极大地促进了多语言文本信息处理领域的研究和开发。综上所述,本文所说的多语言文本信息处理指的是多种语言之间的跨语言的信息检索、信息过滤、文本聚类和分类、信息抽取等信息处理任务。我们将着重介绍多语言文本信息处理的一般框架、核心技术以及它在多个多语言信息处理任务中的应用。以下,第章简要介绍几个重要的多语言文本信息处理的任务第章介绍多语言文本信息处理的一般描述,其中的语言鸿沟问题的处理方法以及我们的方法一基于准文本平行语料库的多语言隐含语义标引第章介绍我们在多语言文本信息处理领域所做的工作,即基于的多语言文本信息处理框架以及相关技术第章是结束语。多语言文本信息处理的任务多语言文本信息处理有多个应用领域,例如信息检索、信息过滤、文本聚类、文本分类、话题侦别和跟踪、信息抽取、文摘、问答系统等等,这些不同的应用之间有区别,也有着密切的联系。以下分别对信息检索、信息过滤、文本聚类、文本分类和话题侦别与跟踪等几个任务做简要介绍。多语言文本信息检索信息检索双过程是这样的用户希望看到关于某个话题的一些文本,用户首先用一个提问刚对这个话题进行描述,系统从这个提问中衍生出标引条目将这些标引条目与文本库中每个文本的标引条目文本库中的每个文本事先已经进行了类似的标引进行匹配双系统将匹配程度最好的文本序列返回用户。双系统的两个主要技术环节是自动标引包括提问标引和文本标引。信息检索是在维空间中的向量基础之上进行的,将提问或者文本表示为向量的过程称为标引相似度计算通过计算提阀标引向量和文本标引向量之间的距离,估计文本和提问之间的相似性,进而给出检索结果。影响系统性能的难点是提问向量和文本向量中的元素一般表示为词,词的一词多义问题和一义多词问题影信息检索的效率。与单语言文本信息检索相比,多语言文本信息检索的特点是用户提问和文本是用不同语言表示的,即用一种语言表示的提问检索到其他语言表示的文本。多语言文本信息检索在继承了单语言信息检索的一词多义和一义多词问题外,其关键问题是语言鸿沟问题。多语言文本信息过滤文本信息过滤包括兴趣过滤和不良信息过滤两种情况。文本信息过滤系统自动监控文本流新闻稿、通讯社等,发现用户感兴趣的文本分发给相应用户,或者发现不良信息阻挡在外。信息过滤和信息检索是密切联系的,也是有区别的。在信息需求方面信息检索和信息过滤的用户需求都是特定的需求。但是信息检索的信息需求提问是随时间动态变化的,而信息过滤的用户需求兴趣是相对稳定的在文本信息源方面信息检索和信息过滤的信息源都是非结构化的文本。但是,信息过滤的信息源是随时间而来的动态的文本流,而信息检索的信息源是在某个时间段内相对稳定的静态的文本集合。文本过滤有两个研究方向基于内容的文本过滤和基于合作的文本过滤,或。基于合作的文本过滤指的是别人帮助你判断哪些文本是对你有用的。最著名的基于合作的文本过滤系统就是,我们可以把它看作由合作过滤和个人过滤两部分组成。合作过滤用人工对网上的文本进行判断,找出感兴趣的文本分别进行话题标注,并存入结构化的文本数据库中个人过滤用户从人工得到的结构化文本数据库中挑选自己感兴趣的文本,这个过程可以看作是个人过滤。在基于内容的文本过滤中,每个用户的文本过滤任务都是独立进行的,因此基于内容的文本过滤系统只能利用文本内容中的信息进行过滤。在这里,我们只讨论基于内容的文本过滤,以下简称文本过滤。文本过滤主要涉及三个技术环节文本标引用户建模,相关性判断。其中用户建模指的是构造表示用户兴趣的模型,或称用户兴趣轮廓相关性计算指的是,当颏文本信息进来时,系统估计文本与用户轮廓的相似度,然后把文本送给对其感兴趣的用户。在向量空间模型中,用一个向量表示一篇文本,用一个向量包描述用户轮廓通用的相关性计算的方法是用向量间夹角的余弦来衡量用户模型和文本向量之间的相似度。与信息检索类似,影响文本过滤系统性能的难点是用户轮廓和文本向量中的元素一般表示为词,词的一词多义和一义多词问题影响信息过滤的效率。与单语言文本过滤相比,多语言文本过滤的特点是用户轮廓和文本是用不同语言表示的,即用一种语言表示的轮廓过滤其他语言表示的文本。因此语言鸿沟问题成了多语言文本过滤的特有难点。多语言文本聚类和分类文本聚类的任务是按照某种相似性度量,把文本集合中的文本划分成若干个子集,每个子集代表一个类别。类别集合事先是不知道的。文本聚类的两个主要技术环节是文本自动标引文本向量的聚类算法,包括单层聚类算法和层级聚类算法。文本分类的任务是按照某种相似性度量,给每个文本指派一个类别。类别体系事先已经确定。文本聚类的两个主要技术环节是文本自动标引文本向量的分类算法。虽然分类算法很多,例如回归模型、最近邻分类、贝叶斯分类、决策树和支持向量机等,但是它们的思想是一致的,即将人工分类的文本库作为训练集,从中学习文本分类知识对于新的文本,利用文本分类知识进行自动分类。影响文本聚类和文本分类系统性能的难点是文本向量中的元素一般表示为词,词的一词多义和一义多词问题影响聚类和分类的效率。与单语言文本聚类和文本分类相比,多语言文本聚类和文本分类的特点是文本可以用不同语言表示的。除了单语言文本聚类和文本分类中的一词多义和一义多词问题外,多语言文本聚类和文本分类的特有难点是语言鸿沟问题。多语言文本的话题侦别和跟踪,指的是从时序列数据流中例话题侦别和跟踪如网络信息、新闻通讯社数据、广播或电视稿件等中自动地侦别新的重要话题、并跟踪话题的最新动态。从年开始设立专项,对的研究现状和关键技术进行评测。在项目开始阶段,“话题限制为“事件”,指的是在某个时间点上发生的某个特别的事件。例如年月日火山爆发是一个事件,而“火山爆发”是一类事件。事件可以是不可预见的,例如地震、恐怖事件等,也可以是可预见的,例如政治选举等。的数据可以有两种类型来源于新闻通讯社或网络的文本类型的数据从广播或电视接收音频数据经过自动语音识别后以文本形式存储的脚本。这种脚本有两个特点一是没有标点符号、段落符号和篇章标记的,把多个稿件连接在一起二是因为是语音识别的输出,因此可能有很多错误。考虑到第二个特点,的算法必须有很好的容错性。有三个主要任务故事切分从广播或电视接收并经过自动语音识别后以文本形式存储的脚本是没有标点符号的,把多个故事连接在一起。故事切分的任务就是把连在一起的,一故事划分成单独的故事事件侦别从数据流中识别出未知的事件,分为回顾型事件侦别。回和在线型新事件侦别顾型事件侦别对故事语料库进行处理从而识别出其中的事件。事件是通过故事表达的,对语料库中的故事进行自动聚类,其中每个类表示一个事件,这个类中的每个故事都谈论这个事件。在线型新事件侦别在新事件发生时进行在线识别。每篇故事都按时间顺序进行处理,并决定这篇故事是否讨论一个新的事件。这些都要在处理下一个故事之前完成。事件跟踪事件跟踪指的是把新到的故事和系统已知的事件联系起来。分以下两个步骤目标事件的定义事件是由故事表达的,并通过与这些故事的关联来定义,每个目标事件都由一组论述该事件故事来定义新到的故事的分类在有了目标事件定义后,对于新到的故事,通过计算它与目标事件定义中的一组故事的相似度来进行分类。与文本聚类和文本分类有密切的关系,与以上各个任务一样,的难点也是词的一词多义和一义多词问题。与单语言相比。多语言的特点是文本可以用不同语言表示的。因此语言鸿沟问题也是多语言的一个难点。多语言文本信息处理的关键问题和处理方法本章首先归纳出多语言文本信息处理的一般描述,然后论述解决语言鸿沟问题的主要方法,并提出自己的方法一多语言隐含语义标引。多语言文本信息处理的一般描述第章介绍了信息检索、信息过滤、文本聚类、文本分类和话题侦别和跟踪等几个任务,其中信息检索和信息过滤考虑的是用户需求和文本之间的关系、文本聚类考虑的是文本和文本之间的关系、信息分类考虑的是类别和文本之间的关系、话题侦别和跟踪考虑的是话题和文本之间的关系。如果我们把信息检索和信息过滤中的用户需求、文本分类中的类别、话题侦别和跟踪中的话题都看作是文本,则以上任务考虑的都是文本之间的相关关系。这样,以上任务都统一到一个框架下,如图所示的。在这个统一的框架下,有两个主要的技术环节,即文本的自动标引和标引向量之间的相关度计算,而这两个环节都以语言鸿沟的解决机制为支撑。文本标引、要判断两个文本之间的相关性,考虑到效率问题,我们不可能直接对两个文本进行比较,而要首先从文本中抽取一系列特征来概括该文本,构成文本的特征向量,然后通过计算特征向量之间的距离来估计文本之间的相关性。这个从文本到特征向量的过程称为文本标引。目前普遍采用的是基于词语频度的特征向量标引,即基于词语在文本中的出现频度构造该文本的特征向量来表示文本。在这种方法中,词语之间是独立的,特征向量只与独立的词语有关,而与文本中通过词语之间的关系表达出来的文本的深层语义信息没有关系。但是,在对文本之间的相关性进行判断时,专家考虑的是两者之间的语义关系。因此,基于词语频度的特征向量标引不能很好地表达文本的语义信息,有其局限性。另一方面,虽然基于词频的向量表示不能很好地描述专家的信息处理过程,但是这种方法的简单性、可移植性和很好的时间效率使得它成为目前普遍采用的文本表示方法。相关性判断文本的相关性判断有两种类型二元判断即文本是相关的还是不相关的。这种类型的判断一般采用布尔模型有度量的相关性判断即对文本的相关性给出值域是,】的判断。一般采用向量空间模型和概率模型。专家对文本间的相关性的判断图多语言文本信息处理的框架多语言文本信息处理的关键问题语言鸿沟问题及其解决方法与单语言文本信息处理相比,多语言文本信息处理特殊之处就在于语言鸿沟问题,语言鸿沟问题和自动文本标引有关,也与相关度判断有关。和文本标引和相关性判断一样,对于不同的多语言文本信息处理任务,其语言鸿沟问题的解决机制也是可以统一起来的。与单语言文本信息处理相比,多语言文本信息处理将词的一词多义问题、一义多词问题和译词选择问题交织在一起。一方面是增加了译词选择歧义问题,另一方面,由于不同语言的互相牵制,可能从某种程度上给一词多义问题的解决提供新的信息源。多语言文本处理的一个关键问题就是如何能够巧妙地利用多语言之间相互限制等优势,同时解决语言鸿沟以及一词多义和一义多词问题。在处理多语言文本信息处理的语言鸿沟问题上,目前有多种方法。例如基于机器翻译的方法、基于人工构建多语言主题词表方法、基于双语词典的方法、基于平行语料库的方法、基于概念中间语言的方法等等。这些方法都是针对“翻译歧义”问题进行的,有的也兼顾了词多义和一义多词问题。以下为叙述方便,我们将针对多语言文本信息检索为例,说明一些主要方法。这些方法可以很容易地映射到多语言文本信息处理的统一框架上,从而应用到多语言文本信息处理的各个任务中。基于机器翻译的方法基于双语词典的方法基于词典的方法是中一心思想是基于双语词典对提闯中的每个词给出其所有的译词候选,生成目标语言的提问,然后进行目标语言的单语言信息检索。这种方法与“基于机器翻译的方法”的区别在于机器翻译方法要进行译词选择的排歧,而“基于双语词典的方法”不进行排歧,保留所有歧义到检索阶段。检索过程根据检索文本中的词语连续出现情况自动过滤掉译词选择的歧义问题。这种方法最大的特点是简单,双语词典容易得到,因此是目前最普遍最实用的方法。然而,将基于双语词典方法用于,检索效率不高。例如,基于这种方法的英语和西班牙语跨语言信息检索的查准率比单语言信息检索降低基于这种方法的英语和汉语跨语言信息检索的查准率比单语言信息检索降低以上。其主要原因除了词典的覆盖率不高外,最关键的问题是非组合短语问题有些短语,如果拆开逐词翻译,不可能得到正确的译文,其原因是双语词典中每个词的候选译词无论怎么组合也不可能得到正确的短语翻译。例如“上下班高峰时间”。特别地,在很多情况下,一个概念是以短语的形式表示的,如果把组成该短语的词拆开后,每一个词的词义叠加起来并不等于该短语的短语义例如猎户星云。以上两种情况,英文中称为非组合短语问题,与汉语的固定短语和半固定短语类似。在信息检索中,对于非组合短语,按照基于双语词典的方法进行逐词翻译,不可能或很难得到准确的短语翻译,进而不能进行正确的检索结果。如果有一个规模足够大的平行语料库,我们可以利用对齐技术找到不同语言之间的对应短语。这种方法为非组合短语的翻译提供了一个可行的途径。基于平行语料库的方法在介绍基于平行语料库的隐含语义标引,方法之前,先介绍基于单语言语料库的方法。基于单语言语料库的方法在单语言信息检索领域,传统的方法是对用户提问和文本进行基于词语频度的标引,并通过对标引词的精确匹配确定提问和文本之间的相关性。这类方法最大的缺点是,它假设词语之间是独立的,互不相关的。,这显然是不对的,因为专家的信息检索过程实际上是对提问和文本之间的语义相关性进行判断,而语义是通过表示概念的词语以及表示概念联系的词语关系表达出来的。所以这种方法不能检索到那些虽然没有恰好包括用户提问中的词语,但实际上包含了与提问词语同义或表达同一个概念的词语的相关文本。模型的中心思想就是要在对词语之间的语义关系进行自动评测的基础上,分别标引出提问和文本的隐含语义,并在此基础上进行提问和文本之间的语义相关生判断,从而提高信息检索的性能。基于单语言语料库的的核心思想是假想有一个语义空间,用户提问的一组词语在语义空间中构成某个点,而相同主题的文本所使用的词语在相同的语义空间中构成另一个点,而语料库中的信息确定了两个点在相同语义空间中的相邻关系。这种思想是方法的基础。根据词语出现的上下文环境衡量词语之间的相关性,并通过建立一个减维的特征空间使得具有相似上下文环境的词语在这个特征空间中彼此相邻。图是对词语表示的几何直观描述。传统的向量表示是每个词语的线性组合,这样“笔记本电脑”与词“便携机”之间是正交不相关的图左。而与之对比的,图右所示的,词语之间不是独立的,在减维空间中相似的词语映射在相邻的位置上。例如词“笔记本电脑”与词“便携机”在降维后的空间中位置比较接近。关键词检索两个词无关检索相似词关联桀七墼冒昧譬门,罚一的一个维图对词语表示的几何直观描述示意图基于平行语料库的方法如所述,我们可以利用机器翻译中的对齐技术解决非组合短语的翻译问题。但是多语言信息检索和机器翻译是有区别的,它并不需要找出一个词语在特定的上下文环境中的精确翻译,而只是需要找出以不同语言表示的特定主题的文本。基于这个特点,我们可以使用某种方法将一组源语言词语与一组目标语言词语对应起来,而不关心双语词语之间的精确翻译关系。从语料库中获取词语之间的语义关系,并对文本做出语义标引。如果把这种方法扩展到多语言文本信息处理领域,做到多语言的语义标引,将为语言鸿沟问题解决提供了一个可行的途径。这种方法就是基于平行语料库的。基于平行语料库的方法的核心思想是假想有一个语义空间,源语言文本的一组词在语义空间中构成某个点,而相同主题的目标语言文本所使用的词语在相同的语义空间中构成另外一个点,双语平行语料库确定了两个点在相同语义空间中的相邻关系。这种思想是基于平行语料库的方法的基础。基于平行语料库的方法对多语言文本做到语义标引,不仅可以解决一词多义和一义多词问题,而且可以很好地解决语言鸿沟问题,是一种非常有潜力的研究方法。但是这种方法也有其与生俱来的不足,它依赖于大规模的平行语料库,而大规模非受限领域的平行语料库是很难获得的。我们的方法一基于准文本平行语料库的多语言隐含语义标引综上所述,作者认为,解决多语言文本信息处理领域的语言鸿沟问题的两种有前途的方法是基于双语词典的方法和基于平行语料库的方法。前者的优点是简单,只需要双语词典,不需要其他昂贵的资源。其不足是这种方法是基于关键词的标引,在描述文本的语义方面有与生俱来的缺陷不能处理非组合短语的翻译问题因为它只是给出译词候选而不进行排歧,而检索阶段的文本过滤并不能过滤掉所有的歧义。这三点不足限制了基于双语词典的多语言文本信息处理系统的性能。而基于平行语料库的方法对多语言文本做到语义标引,不仅可以解决一词多义和一义多词问题,而且可以很好地解决语言鸿沟问题,是一种非常有潜力的研究方法。但是这种方法也有其与生俱来的不足,它依赖于大规模的平行语料库,而大规模非受限领域的平行语料库的很难获得的。将两种方法有机地结合起来是一个非常有潜力的研究方向。基于这样的思想,我们提出了基于准文本平行语料库的多语言隐含语义标引的多语言文本信息处理核心机制。其基本思想是首先利用双语词典,结合基于目标语言词语统计信息的译词选择技术以及基于一定规模的双语平行语料的多语言短语对应的获取技术,自动地建造大规模的多语言准文本平行语料库然后在多语言准平行语料库基础上通过技术获取多语言词语之间的语义关系,从而对多语言文本做出语义标引。我们这里称准文本平行语料库,指的是经过译词选择的目标语言文本不是一般意义上的文本,它只是词语的堆积,不是由真正的句子构成。幸运的是,面向于信息检索等任务的技术并不需要严格的平行语料,准平行语料也可以为它提供充足的多语言词语关联知识。基于的多语言文本信息处理框架多语言文本信息处理是中国科学院自动化研究所模式识别国家重点实验室的重要研究方向之一。目前的主要研究内容是多语言文本信息处理的核心技术基于准文本平行语料库的多语言隐含语义标引及其在多语言文本过滤、多语言话题侦别和跟踪领域的应用。目标是通过信息检索技术、自然语言处理技术、机器翻译技术的有机融合,带动多语言信息处理技术的提升。我们的多语言文本信息处理的框架如图所示。图多语言文本信息处理的框架其中是多语言文本信息处理框架的核心技术。译词选择技术多语言准文本对齐语料库的建立、多语言多词基本语言单元的识别技术和短语对齐技术是保证实现的外围技术。多语言文本聚类技术、文本分类技术和文本检索技术本身是多语言文本信息处理中的一些应用,同时又是实现多语言文本过滤、多语言话题侦别和跟踪的支撑技术。我们希望以研究和实现为起点,以它的需求带动译词选择技术、多语言多词基本语言单元的识别技术和短语对齐技术的研究在实现多语言信息处理框架的内核之后,带动多语言文本聚类技术、文本分类技术和文本检索技术、多语言文本过滤、多语言事件侦别和跟踪等多种应用的生长。以下介绍围绕多语言文本信息处理的框架,我们所做的一些主要的工作。多语言隐含语义标引核心技术以下分别从核心技术以及支撑它的外围技术一译词选择技术、多语言多词基本语言单元的识别技术和短语对齐技术等方面进行介绍。、的核心技术将用于多语言信息处理有两个难点如何提高在信息处理中的性能花费比、如何实现多语言隐含语义标引如何提高在信息处理中的性能花费比将稀疏的向量转化为稠密的向量,如果稀疏向量只有两个元素在信息检索领域是很典型的,而稠密向量有个元素研究人员的实验证明,对于信息检索来说,维的标引效果是最好的。,则标引时间花费代价是很大的,而时间效率是信息处理的一个重要指标。因此,将用于信息处理中的关键问题是如何以最小的时间代价和计算代价获得最好的标引效果如何实现多语言隐含语义标弓除了本身的问题外,的另外一个问题是语言鸿沟问题。平行语料库可以为这个问题提供信息来源。问题是大规模的领域非受限的多语平行语料库是不容易得到的。另一方面,信息检索、文本分类和文本聚类等问题并不象机器翻译一样严格考虑词语之间的句法关系和句子结构,可以只考虑词语之间的语义联系,因此可以不考虑词语之间的顺序问题。在这个思想下,我们在源语言文本的基础上根据译词选择技术构造目标语言的译文严格的说不是译文,只是进行了译词选择的文本,这样源语言文本和它的依次选择文本构成“多语言准文本平行语料库”。只要有大规模的源语言
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 吉利学院《制药过程自动化技术实验》2023-2024学年第二学期期末试卷
- 大连汽车职业技术学院《媒介综合设计》2023-2024学年第二学期期末试卷
- 兰考三农职业学院《急危重症护理学实训》2023-2024学年第二学期期末试卷
- 宾馆客房促销活动方案
- 智能机械手机构设计答辩
- 休闲体育概论课件
- 2025年农村山林地转让合同书样本
- 魅族基于互联网的营销策划方案
- 素描画瓜子课件
- 公民代理合同范例
- 基于PLC的校园照明智能控制系统设计毕业设计(论文)
- 2024年保密教育培训考试(题目和答案)
- DL∕T 1254-2013 差动电阻式监测仪器鉴定技术规程
- DL∕ T 802.7-2010 电力电缆用导管技术条件 第7部分:非开挖用改性聚丙烯塑料电缆导管
- 足浴场所卫生管理要求
- DL-T5496-2015220kV-500kV户内变电站设计规程
- DL-T5440-2020重覆冰架空输电线路设计技术规程
- 2069-3-3101-002WKB产品判定准则-外发
- MOOC 市场调查与研究-南京邮电大学 中国大学慕课答案
- 绿植租摆服务投标方案(技术方案)
- 凉水井煤矿矿山地质环境与土地复垦方案
评论
0/150
提交评论