




已阅读5页,还剩2页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
武汉理工大学硕士研究生课程论文课程:多媒体通信网络任课教师:杜谦学期:2009-2010年度第2学期成绩基于语义编码概述并演进猜想姓 名 涂 希 学 号 104972092495 院 系 信息工程学院 专 业 通信与信息系统 班 级 信研0904 提交时间:2010年06月 26日基于语义编码概述并演进猜想涂希武汉理工大学信息工程学院,湖北省武汉市 430070摘要:语义编码是通过词语对信息进行加工,按意义、系统分类或把言语材料用自己的语言形式加以组织和概括,找出材料的基本论点、论据、逻辑结构,按语义特征编码。在讲述了语义编码的操作原理并通过对几种常用的编码方案的分析后,提出了一个基于语义的多文种编码方案SemaCode及其模型,在语义层以及其他层次提出了基于码位和描述协议的语义表示方法,并使得SemaCode成为一种具有部分可计算特性的编码方案。关键词:语义;语义编码;SemaCode模型Outline based on semantic code and evolution suspicion TU XiWuhan University of Technology,Wuhan Hubei 430070Abstract:Along with fiber optic communications technology development, optical transmission superiority, for instance: Loses slightly, is disturbed and so on characteristics to relief more and more not easily, specially for these years the optical fiber and the light component fabrication technologys improvement, caused the fiber optic transmission the cost to be also getting more and more low. Therefore carries on the sensing using the optical fiber to obtain day by day the widespread application, thus provides a more reliable safety control for ours life. This article introduced the optical fiber sensing technology principle as well as the optical fiber sensor in detail on various the application. Key word: Semantics; Semantic code; SemaCode model 0 引言2O世纪6O年代,符号学“巴黎学派”的创始人、立陶宛裔法国著名语言学家格雷马斯在讨论科学语义学的产生条件时曾经指出:“对人而言,人类世界从本质上来说大概就是意义的世界。一个没有意义的世界,决不会被称为人的世界。因此,正是在探寻意义这一点上,各门不同的人文学科找到了它们的共性。实际上,如果说自然科学要回答什么是人和什么是世界的问题,那么,人文科学以或隐或显的方式所探讨的,则是它们二者各有什么意义。”1意义探寻以及意义世界的建构是人类理性思维和实践活动中随时都会发生和经历的基本事件,它正是人类区别于其他动物的一个显著的种族特征。随着人类在认识世界和改造世界过程中知识的不断积累和现代科学技术的飞速发展,意义问题成为语言哲学、解释学、符号学乃至人工智能科学和工业技术设计等领域中的研究热点。考究意义理论的演进史,我们不难发现:“人类对语言和意义问题的思考在19世纪末发生了前所未有的重大变化,人对语言和意义的理解较前大为深化和扩展。这一现象几乎是同时出现在哲学和语言学中的。这就是以弗雷格与罗素为代表的逻辑语义学,以胡塞尔为代表的认识论语义学和以索绪尔为代表的语言学语义学。他们的研究不仅本身重要,而且开辟了其后的语义学方向,并终于使2O世纪成为一个对语言和意义问题高度关切的世纪。对语言和意义的研究虽然集中于这两大科学领域,但也深入触及人文科学各个范畴。对语词和意义的敏锐意识当然也出现在自然科学各领域中。2O世纪各学科大量新术语、新定义、新实体的出现,都与语词和意义的科学思考有关。”2语言学理论的计算机化或计算机语言信息处理的障碍主要有语义精确描写的困难和在文本自动分析过程中语义非单值(模糊性、多义及歧义等)的消解。HBFlepttor指出:“如果研究者能成功地找到像语音和形态层次单位表征那样严整的方式来表示知识,如果能研制出用于语言表达式语义表示客体处理的精确程序。那么就有望迅速掌握语言客体形式化或计算机化的方式,进而取得文本自动化处理的高质量效果。”3语义信息代码化的目的就是要让语言系统各要素的意义得到恰当的符号化、形式化表示,以便于计算机更准确地理解和处理自然语言文本所蕴涵的各种信息。在计算机中文字信息一般用代码来表示,而用代码表示的文字实际上就是二进制的数字流,其本身并不能表达文字的语义。在计算机对文字进行处理的过程中,除了文字的代码外,程序还需要更多的附加信息,如词汇结构、词性、词义和句子的结构等,以提高处理的效果。但是用二进制代码表示的文字目前还无法满足这个需求。所以,如果让文字信息的编码本身具有一定的语义描述能力,将对信息处理技术具有重要的价值和意义。目前,把文字映射到代码的编码方案有上百种,其中最典型的是Unicode和MetaCode。Unicode是目前文字代码的国际标准。Unicode的编码模型共分为五层,分别是应用层、字符属性层、字符控制层、码位层和传输层 。Unicode是目前最好的多文种文字编码方案,并且已经得到了广泛应用,解决了在多文种信息处理中的很多问题。但是,Unicode也存在很多缺点,主要包括编码的依据不确定、汉字容量的可扩充性差、汉字没有统一的编码、编码缺乏语义信息等 。其他的编码方案基本与Unicode类似。1 语义编码的操作理据和操作背景近几年来,计算语言学界关于经验主义与理性主义的论争相当激烈,我国著名计算语言学家黄昌宁教授在全国第三届计算语言学联合学术会议上曾以“经验主义向理性主义的挑战”为题作了学术演讲。美国哲学家威廉詹姆斯试图以实用主义作为二者的调和体系,并且把它们各自的许多特性分成“柔性的”和“刚性的”两栏,揭示这两种类型的心理结构的差异。4简言之,实用主义哲学的特质是既讲原则,又讲事实;既注重全局的整体性概念,也重视局部的经验事实。形象地讲,这是一种“既见树木,又见森林”的哲学观。基于上述认识,我们实施通用语义码建模工程必须坚持实用主义的方法论原则,语义概念体系的构拟一定要以可观察的具体语言事实为依据,即能为经验所验证。对于非经验属性的心智思辨以及认知把握的作用尽管可持科学的怀疑态度,但也不能加以低估,因为理性思维可以处理颗粒度较粗的语言知识,有利于通过语料统计发现规律、制定规则。我们知道,自然语言的语义之所以难以精确描写,语义信息之所以难于形式化,就是因为语义问题首先是一个哲学问题。从哲学的角度来看,语义探求的是语言表达式与现实世界之间的联系。因此研究语义问题不能脱离开人们对现实世界的感知与认知,世界知识的分类与编码应当成为语义信息代码化的基础。建立世界的语义模式既要根据原则而行,也要根据事实而行,它一端联系着可以进行概念化认知操作的现实世界,另一端联系着能以约定的元语言或数学符号形式记录的表征世界,而表征世界就是一个经过编码的世界。认知主义作为一种新的学术范式,在当代语言学中呈现出强劲的发展势头。语言学中的认知转向源于心理学中的认知革命,后者发起于2O世纪5O年代。认知心理学研究信息加工的一般原理,将人脑看作类似于计算机的信息加工系统,认为无论人的或计算机的信息加工系统都是操纵符号的,而符号就是模式,如语言、标记、记号等,符号的功能则代表、标志或指明外部世界的事物。一些符号通过一定的联系形成符号结构,亦称语句。符号及符号结构是外部事物的内部表征。但是,符号不仅可以代表外部事物,而且还可以标志信息加工的操作。一个符号结构可以标志另一个符号结构,或标志一个程序。信息加工系统得到某个符号,就可得到该符号所代表的事物,或进行该符号所标志的操作。认知语言学研究始于70年代,其基本主张是:自然语言是概念化的现实的符号表达,句法结构直接对应于语义结构,而语义结构与概念结构相对应。这一学科领域的关键原则有:概念(主观主义)语义学;百科VS词典语义学;结构化的范畴;梯度语法合格性判断;语言和其他认知能力之间的密切交互性联系;句法的非自主性。如前所述,语义信息代码化离不开对现实世界的概念化认知操作。为了制定在认知上可把握的语义信息编码原则,我们将用“指称性概念”和“述谓性概念”来标示客观事物及事件,二者在语言学中就体现为名词和动词这两大主导词类。5事实上,自然语言符号系统的运作或语言信息发动机的工作主要依靠这两大词类,它们是构筑语句、传递信息、实现交际的基本材料,因此应当成为语言知识库(词库、语法库)的主体部分。我们所谓的认知把握,是指通过对客观世界本体范畴(事物及事件)的能动把握,从而确定对应于语义结构的概念结构。因为“惟有概念的世界才存在确定性。如果我们认为概念可以表达实在,那么这就是确定性。”并且“对所有拥有同样的语言,或至少说可沟通语言的人来说,概念是共同的。”6从认知角度而论,概念的确定性和普遍性(共同性)要求我们设计的语义码模式应具有通用性,这正与万维网的通用性设想不谋而合。它的基本启示是用一个信息空间囊括全部,把每个信息对象的名称或地址以一个URL(统一资源定位器)字符串的形式进行编码。在用万维网与人交流时。计算机网络的主要工作就是建立信息空间,并为此排除其他一切障碍。目前,语义万维网的建设被提到议事日程上来。此处“语义”表示机器可以理解的含义,它是指不同形式的数据之问的各种联系。随着能力的释放,计算机将会在语义万维网上实现描述、猜想和推理的能力。顺便指出,我国著名学者董振东先生等创建的“知网”和黄曾阳先生提出的“概念层次网络”理论,对概念知识及语义表达的通用性也予以极大关注。通用语义码模式不仅要能反映概念范畴和语义范畴的心理现实性,而且还应具有可计算性,这是计算机语言信息处理的必要条件。语言的计算分析带有一定的技术色彩,它要求从无限和不确定的语言表象中统计归纳出有限和确定的本质。鉴于量化计算在当今语言学各领域的支配地位,我们将采用量化的标准对语义情景、语义总场及分场、语义集群及分类、语义因子和语义角色进行逐级编码。语义知识编码不能没有度量,正如开尔文勋爵所说:“如果你不能度量,你的知识就是贫乏的、不能令人满意的。”2 语义编码的操作方法对语言学研究的基本要求,人们普遍认同乔姆斯基提出的三个“充分”:充分的观察、充分的描写和充分的解释。7相应地,我们实施通用语义码建模工程的工作程序包括三个步骤:观察就是要注重系统性语料采集,寻找语料及其种种相关形态的层次关系,并使其得到初步类化,这是前期研究目标。通过充分观察所建立的语料库应具有样本再现性、规模开放性和输出形式化等三个基本特征;描写的充分性是指对相当规模的真实语料的穷尽描写,它讲求有序性、精密性和严整性,具体而言就是语料归类的操作原则、类与类之间交叉重叠现象判定的操作原则以及描写标准的一致性、术语的单义性和程序的可操作性;解释的充分性是指对所观察和描写的语言事实进行有效解释,充分揭示各层次语言单位的概念信息、语义信息、语法信息和语用信息,以增强通用语义码模式的解释力。在此,我们不能低估人的主观内省和直觉判断作用,不仅要注意积累对语言内在规律的感性认识,而且要努力掌握技术上可操作的形式化标准。定位涉及语言研究的出发点,即选定语言系统的哪一级单位作为研究对象。我们设计建立通用语义码模式的目标是,通过对俄语名词和动词这两大主导词类认知交际性能及语义组合性能的系统描述,构造俄语的静态语义网络和动态语义网络;定量就是采用量化计算和概率统计的方法,对一定数量的俄语名词和动词进行语义分类编码,力求做到词汇覆盖面大量、格式定量、配价恒量、形式高量、语义低量,以便于形成尽可能简洁的信息表述,从而有利于编制可操作性尽可能透明的信息处理程序;定性涉及语言研究的参照点。我们把通用语义码模式定性为以信息加工的认知心理学为背景、以人工智能的语言信息处理为导向、既能反映客观世界概念化信息又能得到具体语言事实验证的实验模型,它应具有一个联贯、透明和实用的解释机制。3 SemaCode编码目前,把文字映射到代码的编码方案有上百种,其中最典型的是Unicode和MetaCode。8Unicode是目前文字代码的国际标准。Unicode的编码模型共分为五层,分别是应用层、字符属性层、字符控制层、码位层和传输层 。Unicode是目前最好的多文种文字编码方案,并且已经得到了广泛应用,解决了在多文种信息处理中的很多问题。但是,Unicode也存在很多缺点,主要包括编码的依据不确定、汉字容量的可扩充性差、汉字没有统一的编码、编码缺乏语义信息等 。其他的编码方案基本与Unicode类似。Steven Edward提出了一种基于描述标签的编码方案MetaCode ,该编码方案制定了一系列的描述性标签来描述字符。MetaCode的优点是为字符提供了更多的描述信息,与Unicode相比更适合信息处理;但它也存在很多缺点,如提供的描述信息太少、语义支持较弱、文字编辑不方便、MetaCode是l6位编码方案、编码空间过小等。3.1 SemaCode设计思想和模型多文种信息处理需要一种高效、方便而且能够表示语义的编码方案,但目前现有的编码方案还不能满足这个需求。基于语义的多文种编码方案SemaCode,用于表示字形、字符和浅层语义,从而更好地满足信息处理的需要。SemaCode编码的设计思想主要有以下几个方面:(1)多文种编码SemaCode必须能够包容现存主流文种的绝大多数文字,并且能够在一个编码空问中并存;另外,还需要考虑它的扩展性和兼容性。(2)基于码位和描述协议的语义表示SemaCode表示的语义分为两层:利用码位本身表示基本的语义,再结合描述性标签来表示稍高层次的语义,从而可以兼顾方案的灵活性和应用对语义的不同层面需求。(3)具有部分可计算能力SemaCode在码位层的语义定义为部分可计算,如能通过计算得出简体汉字词组“国家”对应的繁体词组是“國家”等。(4)以语义为轴心,以词为语义单位的编码方案在绝大多数的语言中,词是表意的最小单位。英文中的字母和汉语中的汉字仅仅是一种符号而言,它们本身并不表意。所以,完全基于字符的编码方案无法正确描述语义,只有以词为基本单位才能使得编码方案在代码层表意。同时,在基于理解的自然语言处理系统中,语义是连接词汇的主要桥梁,所以,SemaCode还必须以语义为轴心。只有这样,才能在同一语言的不同词汇、不同语言的同义词汇问建立联系,从而为各种信息处理服务。(5)基于文种的码位分配方式Unicode的一个最大失误是它以字形/字符为编码依据,而并不进行文种的区分。如字符串“汉字”的Unicode编码是“22 6F 57 5B”,如果该字符串被识别为日文、韩文、中文和中文,可以发现,相同的Unicode编码在不同文种下显示的字形是不一样的。为此,SemaCode提出了基于文种编码的理念,即不同文种的字符,即使字形相似或相同也应该编在不同的码位上,从而避免了不同文种汉字的字形混淆问题。SemaCode模型主要分为六个层次,分别为交换传输层、字符码位层、词码位层、属性层、语义层和应用接口层。3.2 SemaCode各层设计和分析在字符码位层,SemaCode是真正意义上的基于字符而不是字形的编码方案。而Unicode却不是,因为它存在兼容字符、字符变形、一个字符多个码位、由多个字符组成的复杂字符等情况。SemaCode是一个32位的编码方案。9字符码位层的基本设计准则如下:所有文字的码位按文种进行分类,相同字符的码位在不同文种中具有对应关系;针对字符而不是字形编码,每个字符只有一个码位,但可通过其他属性来区分字形。变形字符、兼容字符和多码位字符在SemaCode中将只有一个码位;在字符码位层,收录了Unicode定义的所有复杂字符,但是它们在SemaCode中被当做一般字符看待。在SemaCode内部,不认为一个字符可以由其他若干个字符组合而成。把若干个字符组合成一个字符的过程将由上层来实现; SemaCode把所有Unicode定义的字符分为拼音文字和CJK象形文字(包括符号)两大类。每个字符只分配一个码位,在Unicode中存在多个码位的字符在SemaCode中仅分配一个码位。词码位层主要利用字符码位层空余的码位对词组进行编码,每个词条和字符一样,也拥有32位的码位,但可以通过码位区分词和字符。属性层用于描述词和字符的基本属性。这些属性包括是否字符合并、兼容字形、控制代码、字符属性、拼音字符的大小写和文字方向等。字符属性层描述了字、词以及字符流所附带的部分语义,这些语义是表层语义,主要用于文字的显示和一些基本的处理工作。语义层则描述了作为语言特性的文字的基本特征和属性,这些特征和属性包括词性、词形和词义等信息。交换传输层主要解决SemaCode和其他编码方案的转换传输问题。而应用接口层是SemaCode和各种上层应用的接口,它主要为各种应用提供所需不同特性的文字信息。不同的应用对文字信息的需求是不一样的。所以,应用接口层应该提供多种接口,用于提供适合具体应用的文本信息。4 结束语为了在国际互联网上提供一个多语种通讯环境,使世界各国能共享全球化的信息资源,1995年底由联合国大学高级研究所牵头实施大型国际合作项目UNL(通用网络语言)工程。该工程的实施目标就是设计一套软件系统嵌入INTERNET上的www浏览器中,使用它的人都可通过“转换器”把本地语言文本自动转换成对应的UNL文本,也可通过“逆转器”把UNL文本自动转换成本地语言文本。UNL首先是一种中介语言,它以英语为基础素材,用一套约定的符号系统来表达各种本地语言所传递的信息;其次还是一种语义语言,它不刻意描写各种本地语言句法结构的差异性,只求准确表达各种本地语言语义关系的共同性。为了使计算机能够描述和分享发布在语义网页上的数据,并能描绘世界的复杂性,万维网之父蒂姆伯纳斯一李极为重视语义万维网的建设。在这种背景下,我们实施通用语义码就显得不仅具有理论探索价值,而且具有实际应用价值。参考文献1何忠龙等.多媒体通信技术M.北京希望电子出版社.2006年2月HE Z.L.Multimedia communicationM. Beijing Hope Electron Publishing house .2006.022STEVEN EA framework for multilingual information processingDFlorida Institute of Technology,20033 ASMUS FUnicode 41 tutorial:Un
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 卫生噪音面试题及答案
- 家电公司库存处理管理细则
- 采制样考试题及答案
- vda考试题及答案
- 放射防护考试题及答案
- 造林绿化工技师的考试试题及答案
- 三亚雇员考试试题及答案
- 职教教研工作总结
- 家电公司合同印章管理细则
- 家电公司应急演练管理规定
- GB/T 20000.6-2006标准化工作指南第6部分:标准化良好行为规范
- GB/T 16311-1996道路交通标线质量要求和检测方法
- GB/T 1149.4-2008内燃机活塞环第4部分:质量要求
- 地基基础工程施工方法及基础知识课件
- 江苏省无锡市各县区乡镇行政村村庄村名居民村民委员会明细及行政区划代码
- 江西师范大学研究生院非事业编制聘用人员公开招聘1人(专业学位培养办公室助理)(必考题)模拟卷
- 2021社会保险法知识竞赛试题库及答案
- SF-36生活质量调查表(SF-36-含评分细则)
- 小学数学校本教研的实践与思考(课堂PPT)
- 经历是一种收获的作文5篇
- 血液透析管路及透析器安装操作评分标准
评论
0/150
提交评论