




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、汉语概念内涵分析及其应用,陆汝占 上海交通大学 计算机系,目录,目的 检索实例 理论基础 我们的设想 总结与展望,语言处理的现状及困惑,词法分析:准确率95%(Jiang2004) 考虑未登录词的话,大致在90%以上(Liu2004) 句法分析:准确率大约90%(Collins2005) 汉语句法分析的准确率80%(Meng2003) 反映了什么问题?结构规律难以驾驭语言现象。 表面看:由词组句结构规则约束太粗?太细?太死板? 深层看:语句表达意义广泛,词汇组合手段丰富。整体上,结构与意义不同构。 语言开放性,常突破句法规则约束: 通常:“很”+形容词:很漂亮,很幸福 限制*“很”+名词?:很
2、阳光,很青春,很郊区,很农民,很董建华。,趋向,重视词汇研究,重视词汇与语义的关系 词汇-语法,法Maurice Gross 本体论,目录,目的 检索实例 理论基础 我们的设想 总结与展望,检索实例 来源:Chinese queries for TREC-5 Chinese Collection: Number: CH4 中国大陆新发现的油田 中国大陆 新 发现 的 油田,观点: 从整体语义理解的角度看网页是否符合查询需求,太困难,这需要自然语言理解技术实质性的突破。所以退而求其次,考察网页中出现的关键概念之间的关系,是否符合需求生成的概念图。,“中国大陆”有两种理解: 中国大陆1 地理范围的
3、描述 中国大陆2 “借代”修辞格,指中国政府 这样就存在两种概念图,如果我们认为“中国大陆”是一个地理范围,那么用户需求 生成的概念如下图所示:,E: 油田,发现,新,中国大陆,检索需求生成的概念图,结果,方式,地理范围,处置状态,分析了前三页共30个检索结果(snippets),返回的结果中有一个基本符合的网页 中国发现新油田(04年4月6日) - 2004-04-06 在位居中国第二大油田的胜利油田发现了一个储量为二亿八千万吨的隐蔽油气藏油田。 有关人士指出,新油田的勘探发现会缓解中国对能源短缺的忧虑。 中国这些年来经济的持续 高速发展致使能源出现严重短缺,石油进口连年递增。2003年进口
4、了九千七百四十万公吨 - 32k - 网页快照 - 类似网页 (无法访问),其他的返回结果,大多不符合检索需求,但是由于能匹配上关键词,在Google非完全基于内容的排序方式下放在了前面。事实上,在第一页的结果中就出现了基本的三种错误:,油田的地理范围不是中国大陆 如: 胡锦涛访非和中非能源外交 不过,沃尔夫表示,中国以前在安哥拉和苏丹进行的投资都得到了回报,所以预计中国在 尼日利亚的投资也会得到回报。只不过尼日利亚新发现的油田大部份是在海上,由于中国 缺乏深海作业的技术,因此要想充份利用这些油气资源,中国需要与西方石油公司合作。 - 34k - 网页快照 - 类似网页,2.发现的广义方式不是
5、“新” 如: 北大招生网 大庆油田后来发展到年产5000万吨,而且是稳产、高产30年。1963年,又发现了胜利油田, 后来产量达到每年3000万吨,最好的时候 . 青藏形成过程中,对于整个中国大陆是一个 强烈的挤压改造的过程,使地壳明显增厚。到晚白垩中渐新世的时候,东部太平洋这 - 32k - 2006年8月19日 - 网页快照 - 类似网页,3.发现的结果不是油田 如: 中科院科研成果入选2002年中国十大科技新闻候选条目(中国科学院) 中国大陆科学钻探工程的主要科学目的就是研究超高压变质岩的形成机制及地球动力学。 11.科学家发现世界最早的有胎盘类哺乳动物攀援始祖兽化石。我国辽宁省凌源县新
6、发现的 攀援始祖兽化石,被确认是世界最早的有胎盘类哺乳动物化石。这为真兽类(有胎盘)哺乳 - 27k - 网页快照 - 类似网页,我们的目标就是要在需求概念图和网页中相应的关键概念图的引导下,把不符合需求的网页后移/去除,把符合用户需求的放在前面。 希望正确率和召回率同步增长。,检索实例,“上海哪里能买到火车票?” 用户在检索时会建立各种关键词串: 上海 买 火车票 “上海火车票” 销售 上海 “买火车票的地点” 上海 出售 火车票,例1,检索字串:上海 买 火车票 这个网页确实符合用户的需求的。,例2,如果使用关键词“上海 火车票 销售”查询,这个网页也是在第一页结果上的。但是,这个网页上的
7、销售火车票的企业实际上是浙江的。 关键词 “上海”出现在推荐网站中(仅“查询”,而非“销售”)。,例3,使用的关键词是 上海 “买火车票的地点” 这里的“买火车票的地点”是在孟买,而不是上海。上海是签证的地点。,例4,检索字串:上海 出售 火车票 这里出售的是“上海火车票”,但是,这是一个二手票的网站,符合用户的需求吗?,检索现状,现状 表达形式:关键词串(非自然话语、非连续词语:碎片) 限于关键词串不完全正确反映用户初衷关键词的选择会影响召回率 仅限关键词布尔逻辑运算“与”、“或”、“非”、“邻接”等,不反映、不考虑关键词之间概念联系概念关系理据(即使关键词完全贴切) 解决方法: 检索的基本
8、单位是“概念”(能表达意义的)而非字串 什么是“概念”呢? 语言与概念的关系是什么? 概念应该如何分析?,目录,目的 检索实例 理论基础 我们的设想 总结与展望,语义三角图(1923年)(行为主义语言理论,奥格登,里查兹),解释: 词代表概念,概念代表所指对象。 指称关系B - C。 概念属心理范畴,属物质范畴 交际功能:说: 听:(声) 发展: 指称语义学,模型论(弗雷格1892,克里普克1977,塔斯基1944,丘奇1951,蒙太古1970,巴怀兹、佩里1975,克瑞斯维尔1990) 词语指称外延实体。(直线)。 词语的概念内涵定义。 内涵在不同可能世界下指称不同外延实体。(蒙太古语法),
9、新解释,,category 分类。(How to sort) 将实体按一定的特征分布(组成,功能,形态等)归为一类并赋予一概念。按上下文关系细划子类并赋予一子概念。 例“笔” 功能用于书写、作画的工具。形状:杆状。 组成与材料杆:竹管,塑料管,金属管,。 书写头:羊毛,圆球,合金,。 耗材(书写液):墨,墨水,油墨,颜料。 铅,毛,钢,圆珠,。,新解释(cont.),,ontology, 命名。(How to name concept) 为每个概念赋予一个词语(词,短语) ,(How to name entity) 蒋绍愚(1999):二次分类 与社会、历史、文化、领域、地域都有关 ontol
10、ogy specification, 没有统一标准。 ,指称外延。 词语指称客观实体(集合、个体)。,新解释(cont.),,词语概念内涵定义。 问题:名词指称实体必须经过“概念”? 行为主义解释 例:“我是太郎。”(讚井 唯允语用上的具体化与一般化) 概念同指:“我”说话人自称;“太郎”日本人长子取名之一。 批评:“我”“太郎”,“是” 指称语义:我,太郎,(实体) (语言的语义要用元语言来表示) 表示可能世界,即说话场合,角色,时间,空间。 为实体对象域下的模型(语义指派),新解释中的关键,A,B,C之间的联系反映了对应关系 A,B,C内部的组合合成关系,既反映了词语、概念、实体三者本身内
11、部的构成,而且这三类的组合又要对应。 反映在词语上的关键问题:ww1 w2,求解|w| = |w1| o |w2|,其中是词法句法上的复合运算(搭配组词、组短语、组句)。 o是语义上的组合运算(限制、修饰、合并、联合),在语义特征上是如何操作的。 现实意义:自动解释合成表达式语义,包括词典上未释义项(“我家”,“我国”),新词新语的解释,即使是词典上有解释的义项,也需要自动提取逻辑特征,要按概念分层、分类 。 创意点:提取词的最大遗传基因(最大公因子),有益于自动处理义项识别与语义生成。希望能有益于现代汉语语法的改进。,语言学基础论题:复合词(合成词),构词法 结构上困惑:NVN,是复合词、短
12、语、句? V+NVP?NP? 例:“节目主持人” “宪法修改草案” “路径寻找算 法” “术语过滤策略” 推广:标题、标语、广告语 (结构、概念、翻译) 摆脱结构上的困惑,这类词在概念上做什么解释?,复合结构及概念理据,复合结构,游泳池 格语法解释:“池”是“游泳”的场所。 写字板 “板”是”写字”的场所吗? 写字台,写字间 我们的解释,池,游泳,功能,板,写字,功能,台,写字,功能,办公,写字,间,功能,借代,例:“汉语语法分析问题” (吕叔湘) 三种理解: (1) *用语法去分析问题 (2) *分析语法上的有关问题 (3) 语法分析上的问题 翻译:*Problems in Chinese
13、Syntax 原义:从分析方法视角论述汉语语法 参考译法: On Analysis of Chinese Grammar/ Difficulties in Analysis of Chinese Grammar/ The Analysis Problem of Chinese Grammar,Google上搜索的结果,“汉语语法分析问题” 共2910项,全是指吕叔湘先生的书 “语法分析问题” 共3150项 “汉语语法分析” 共6350项,大多作名词短语用 “分析问题” 共1290000项 大多作动词短语用 “语法分析” 共125000项 大多作名词短语用,理据:概念分析 “问题” :“需要研究
14、讨论并加以解决的矛盾、疑难。” 干什么活干不下去。 “语法”:语言结构方式;语言的语法研究。 “分析”:找出事物、现象、概念组成的本质属性及其关系。 问题: 矛盾、疑难; 功能(-)影响(-) 分析:功能(-)(受阻行为),影响(-) 语法:行为对象 汉语:例化,NVN型复合词联结构造:概念链,栈(先进后出,倒序) 路径寻找算法 Path Finding Algorithm 算法 功能(+)算什么 寻找 (功能):操作 路径 操作对象,概念表示,实体(名),属性,名,值,一般情况,E1En,Atr1,1 Atr1,m,Value1,1,1,Value1,m,e,允许多重,概念表示,名词模型 动
15、词模型 形容词模型,名词: “笔”,功能用于书写、作画的工具。形状:杆状。 组成与材料杆:竹管,塑料管,金属管,。 书写头:羊毛,圆球,合金,。 耗材(书写液):墨,墨水,油墨,颜料。 铅,毛,钢,圆珠,。 激光笔,录音笔,笔:用于书写、作画的工具,形如杆状。组成材料.。 钢笔,毛笔,铅笔,水彩笔,都符合特征:功能,形状,组成,材料,.。其实只需要满足“笔”类主要特征,即有一个或几个主要特征就归属该类。这是单调逻辑的特征。 “激光笔”、“录音笔”,功能分别是发激光,录音,不具“笔”类的共性:功能特征。这称为非单调逻辑。但是“形状”杆状,携佩带方式同某些笔。我们称为“笔”的内涵定义特征中某些特征
16、被“激活”,“刺激”,其他特征被“抑止”。这像人的神经网络及其工作原理一样。“网,刺激,抑止”,三个要素。 同理,“布”:用棉、麻等织成,可以做衣服或其他物件的材料。这是其内涵定义特征。棉布、麻布,花布,粗布都属该类。“塑料布”,词典无定义,也是非单调的变异,材料、加工方法都改变了,但能“包裹、覆盖、做衣服”等功能被激活了。,名词: “笔”,唱,唱 chang4: 动依照乐律发声 一支歌|演|独。 动大声叫、说;大声念、读 鸡三遍|收付|票。 名歌曲;戏曲唱词 听儿|渔家小|本。,“唱”的语义模型,Vi为动词义元 Ni为名词的语义特征或语义类别,歌、哀歌、悲歌、船歌、儿歌、国歌、国际歌、夯歌、
17、九九歌、军歌、凯歌、乐歌、俚歌、恋歌、民歌、牧歌、情歌、山歌、挽歌、校歌、渔歌、战歌、主题歌、祝酒歌、壮歌、组歌、歌曲、诗、小曲、小调、花腔、戏、藏戏、大戏、地方戏、社戏、采茶戏、戏剧、川剧、越剧、京剧、小生、花脸、青衣、红脸、白脸、高音、低音、和声、马派 唱颂歌、唱赞歌、唱赞美歌、唱主角、唱反调、唱高调、唱空城计、唱双簧、唱独角/脚戏、唱对台戏、唱拿手戏、唱重头戏 唱本、唱名、唱针、唱头、唱腔、唱片、唱词、唱盘、唱机、唱功、唱工、唱段、唱碟,“唱”的实例,红,例 1:红 a. 像火或鲜血那样的颜色。现代汉语 学习词典 像鲜血或石榴花的颜色。现代汉语词典 (red; color of bloo
18、d or the pomegranate flower) 像鲜血的颜色。 应用汉语词典 形容颜色像鲜血一样。 现代汉语规范词典 规范复合结构: 鲜血颜色 (N1N2) 概念分析: 实体:鲜血 (喻体) 属性名:颜色 属性值:红,“红+N”语用解释: 组合结构指称某个(类)实体 (本体) 属性名:颜色 属性值:红 E: 鲜血(喻体) N(本体) A: 颜色 V: 红,比喻辞格,相关的语言工程,概念抽取: 语言词典中有关词条的概念内涵定义知识的抽取及概念网表示。 例1 “红” Def. 形容颜色像鲜血一样 模板:像一样 扩展型模板:形容像一样。 实体(喻体):鲜血;属性:名:颜色,值:红 A+N:
19、红+N 例:红苹果;红葡萄柚 图上操作:联结弧: 实体,属性:名值; 比喻 归约 reduction:pullback,多语种的复合概念对齐,对齐的依据是没有“四态”变化(时态tense、模态modal、体态aspect、语态voice),目录,目的 检索实例 理论基础 我们的设想 总结与展望,概念分析与智能检索,检索问题:标引+匹配(判定) 标引:需求标引/图书、网页资源标引 匹配判定 需求与资源标引之间的匹配与连接 判定资源是否满足需求,Semantic Web 标引流程,需求/资源信息:自然语言表达式,序偶组:,树形结构:RDF(框架)+URI(标示符),(结构化)XML表达式,问题:人
20、/机器?,应用Ontology的匹配,需求与资源信息之间存在内容上差异 内容上相同,但是: 词汇异形同义 上下位关系 部件-整体关系 其他关系 如何识别,判定?,应用Ontology的匹配,靠OWL(Web Ontology Language)表示本体知识匹配 需求/资源上关键词各自映射到Ontology上 若相关,则可连接路径,两者可操作 问题:本体知识完善吗? 本体知识应具备性质 概念化(conceptualization):客观世界的现象的抽象模型; 明确(explicit):概念及它们之间联系都被精确定义; 形式化(formal):精确的数学描述; 共享(share):本体中反映的知识
21、是其使用者共同认可的。,问题及分析,问题1: 用户需求从思考到表达都是采用自然语言形式,怎样将需求信息转换到拟结构化的属性序偶组? 语义网研究者假定已经实现了、存在的 谁实现?用户自身/智能机器? 实际上将难点推给自然语言处理范围 硬骨头!,问题及分析,问题2: 本体知识应具各性质之外,知识完善、够用吗?缺少常识和常用词汇的知识,如何提取和挖掘? 真正能超越领域障碍去表达语言上的常识关系。 关于实体知识的定义: 专业的(科学上) 常识(语言习惯上) 临界边缘的(非单调逻辑),问题及分析,问题3: 语言与知识不完全吻合,多多对应关系 语言不同,认知不同,存在差异,概念(具体,非最上位概念)是与语
22、言、民族文化有关 二次分类问题(蒋绍愚) 单词多义项/概念不确定性 vs. 具体文本中词语概念的确定性。 单纯用关键词检索带来的问题:准确率下降 概念的确定性如何保证? 用复合词表达确切概念,义项单纯:可弥补静态WordNet单一词汇及语义上不确定的缺陷。,概念网(复合结构概念及其关系理据表示),克服单一关键词的多义性、不确定性的缺点,用一个整体概念指称实体,真实地反映了资源信息本身的内在本质和独特性。 概念网匹配:序列对齐 需求概念网基因 资源概念网细胞,火车票,Q:“上海哪儿能买到火车票?” CW:“上海火车票售票(实体单位)” 说明:实体单位未知待求,由“借代”操作,用其属性(功能、地点及辖区)来替代该实体,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 卫生招聘知识试题及答案
- 通信原理高校试题及答案
- 透析相关试题及答案
- 2025年水利基础设施劳务分包协议
- 2025年技术监管合作协议
- 人力资源管理中的风险防控机制
- 如何应对股东纠纷与治理问题
- 2025年交易市场协议规范
- 企业法律权益保护风险管理评估
- 2025年城乡基础设施改善策划合作协议
- 山东财经面试试题及答案
- 2025年租房合同房东模板
- 2022年高考物理试卷(广东)含答案解析
- 【MOOC】政府审计学-南京审计大学 中国大学慕课MOOC答案
- 英国签证房产证翻译模板(汇编)
- 挖掘机装载机定期检验报告
- 新版现代西班牙语第二册课后答案
- 园林植物病虫害防治技术操作质量标准
- 水泥土防渗墙施工方案
- 财务报销制度与报销流程图
- 国外教学设计研究现状与发展趋势
评论
0/150
提交评论