版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、关于建议设立“汉语句典”课题的刍议周锡令xlzhou04212003/1/22各位老师:提出的“无论国内国外,大家都在沿同样的思路做工作,难以打开局面”的看法,的确反映了很多人的忧虑。除了古典的句法分析,乃至较为新颖的基于语料库的统计分析方法以外,还能不能找到别的思路,是值得研究的问题。国内外现在都开始有少数人期待有关自然语言的“日心说”的出现。他们认为,目前研究自然语言处理的方法好比哥白尼理论出现以前的托勒密的理论。在天文学中,这种理论认为地球是静止的,而且处于宇宙的中心。坚持这种扭曲的理论的结果是,在我们的心中制造了一个比实际情况更加繁琐而又复杂的图景。哥白尼的“日心说”出现以后,人们放弃
2、了“所有的东西都必须直接围绕着地球转”的想法,这一来,宇宙的图像立即变得简单明白得多了。半个世纪以来,人们企图让计算机处理自然语言的工作困难重重、进展缓慢。另一方面,儿童学习自然语言的过程却非常自然,使用的途径和方式也完全和科学家、工程师们考虑的完全不同。这种鲜明的对比使得一些人反思:在自然语言处理方面我们是否依然处于“托勒密时代”?要是我们把观察和思考问题的角度变换一下(就是所谓的 paradigm-shift),能不能找到自然语言处理领域里的“日心说”,使得我们对自然语言的描述和处理变得更加简单和明白?如果这种“日心说”真的存在,那么它又是什么呢?计算机进行“智能”工作时所采取的方法可以分
3、为两类:一种是“仿生学方式”(模仿人类的做法),例如硬件进行的四则运算;另外一种是“非仿生学方式”,即采用适合计算机的特点(速度快、记忆容量大,但是空间拓扑分辨和推理能力差)的方法。汉字识别基本上采用的就是后一类方法,而且取得了成功。在自然语言处理方面,人们长期以来所采取的是“非仿生学方式”。这可能是因为,在计算机语言以及相应的编译器方面所取得的成功鼓舞了人们的信心。而且还有人“证明”:乔姆斯基的理论对形式语言和自然语言都是行得通的。认为自然语言也可以用一套形式语法系统来描述是这种方法的基石,也是处理这种语言的切入点。但是我对这种看法表示怀疑。l 首先,没有哪个国家或者民族的儿童在学习自己的母
4、语时要先去学习语法的。l 听说,原教委曾经委托一些语言专家为国外到中国来的留学生起草汉语语法大纲,但是三次都失败了。留学生的反映是:我不学汉语语法还能说一些中国话。学了这种语法以后,反而不会说了。意味深长的是:虽然现在没有一种社会上所公认的“汉语语法”,绝大多数中国人也都从来没有学过汉语语法,可是这并不意味着汉语没有规范。具有一定文化基础,特别是读书较多的人,在阅读或者听别人说话的时候,却能判断哪些句子是“规范的”,哪些是不规范的、甚至是“病句”。我们不禁要问:这种判断“规范”或者“不规范”的依据是什么呢?一种合理的解答是“句模(pattern)”。换言之,支撑自然语言大厦的主要支柱可能不是着
5、眼全局、面向分析的“语法”体系,而是渐进积累式的“句模”集合。可以支撑这种想法的理由有:l 如果我们仔细观察小孩子学说话的过程,他们是在增长对周围环境的认识的同时,通过模仿大人讲话,一个一个地掌握各种句模的用法,从而提高他们的说话和理解能力的。鲁迅在他的人生识字胡涂始一文中说过:“小孩子往往喜欢听人谈天,更喜欢陪客,那大目的,固然在于一同吃点心,但也为了爱热闹,尤其是在研究别人的言语,看有什么对于自己有关系能懂,该问,或可取的。” 这说明,呀呀学语的儿童浸泡在他的母语的环境中,每时每刻都有各种新鲜的“句模”提供给他模仿。他的语言能力就是这么发展起来的。l 古语说:“读书破万卷,下笔如有神”也是
6、通过读破万卷书,在脑子里装满了文言文体系中的标准句型而获得的写作能力。世界上没有人是通过熟读文法书而成为作家的。l 不少人有这样的经验:过去从小学到大学的英语教学方法基本上是按照课文分析句法,学了十几年下来依然不能开口说话,等到改革开放以后,按照英语900句中的办法作 pattern drill (就像小孩学大人说话那样按照各个句模反复作换词练习)以后,才打破了不能开口的局面。现在,我们也有教外国人的汉语400句了。除此之外,计算机语言基本上是一种“封闭、静止”的体系。除了在发布语言的新版本时对语言的定义进行重新修订或扩充的例外情况以外,这个体系基本上是静止和封闭的,来不得半点更动。相反地,自
7、然语言却是一种“开放、动态”的体系。随时随地不断会有新的句型产生,也有旧的句型消亡注1。以上的说法并不是完全否认“语法”的作用。不过“句模”是生动的,活跃的。 “新句模”的生成和“旧句模”的消亡过程收到全社会成员的参与,而“语法”只是语言学家事后的、统计性质的总结。而且,与英语、德语、俄语等相比,“语法”在汉语中的地位更低,好比一个丫头,可以随时不理她。基于以上的认识,我想建议自然科学基金会设立“汉语句典”课题注2,招请天下有识之士进行研究。为了使工作能够分阶段进行,句典可以按照规模的大小分为“1级”,“ 2级”,“ 3级”,。甚至还可以按照使用人群的群体或者地域进一步细分注3。现在市面上已经
8、有了的汉语400句就是一个1级汉语句典的雏形,不过它是面向“人”的。而这个课题所要解决的是面向计算机的句典。因此,它应该对被收进句典的每一句型:l 以计算机易于理解的方式标注出该句型的内部结构(语块的划分、允许的排列次序、语块的边界特征)l 指出该句型中的起标志作用的词语或者结构l 最好还能给出一种算法,用来判定被处理文章中的任一语句是否属于本句型。其结果可以有三种:“是”,“不是”,“不知道”。如果判定结果是“是”,则给出语块的具体划分。“汉语句典” 这一课题本身也可以分阶段进行:1. n:=12. 建立n级汉语句典3. 然后寻找对应的典型应用,从中取得经验,发现句典中需要改进的地方4. 改
9、进本级句典,直到满意为止。5. n:=n+1; Goto 1与传统的技术途径(基于句法分析、或者基于语料库和统计方法)相比,上述基于句典的方法的特征是:l 仿生学方式,类似于人类自己掌握自然语言的过程l 有限目标,技术边界明确,容易考核工作的实际进展。上次在会上张钹院士提到了“去火星、还是在爬树”的问题。有时我觉得,传统的技术途径好比是把目标定为不着边际的说法:“把石头扔到天上去”。于是,把一块石头扔到太阳系以外算是“扔到天上去”, 把一块石头扔到三米高也算是“扔到天上去”。l 基于句典的处理软件(例如翻译软件)容易判断自己工作的质量,不会“不懂装懂”,这一点是传统的技术途径难以做到的我相信以
10、上的描述过于简单和trival。实际的情况总是比我们一开始预想的要复杂得多。与自然语言处理有关的工作中的困难很多来源于工作对象(自然语言)无边无际、具有类似于数学上的“无穷大”的性质。我提出上述建立句典的建议,是着眼于首先“把对无边无际的探究 化为 有明确技术边界、工作量有限的具体工程技术问题”。基于“句典”的技术途径的成败关键在于能否建立起具有实用意义的有一定规模的句典,并且找到被处理的文章中的任一语句是否属于本句型的算法。除此之外,还应该有一系列的“广义词典”(包括成语、常用缩略语、)与之配套。如果这条路行得通,我们就能在汉语句子的理解方面前进一大步。反过来,如果我们发现实际生活中的某些语
11、言现象根本无法纳入我们心目中的句典中,有可能它们就是计算机在现阶段“不可能”处理的对象而应加以排除,改由人工处理。根据我有限的了解,基于“句典”的技术途径似乎尚未有人认真探索过。既然我们不希望所有的人都拥挤在同一条道路上,设立国家自然科学基金的目的又是鼓励创新,就不妨设立这样一个目标,招揽天下英贤来攻它一下。以上是个人的浅见。不知道这个建议对不对,特来请教诸位老师。希望得到指教。周锡令 2003/1/22注解注1 例如:在五十年代全面学习苏联时期出现过的那类很合乎语法的说法:“请允许我通过茶壶给您倒一杯茶。”现在听不见了。而不合乎语法的、在名词前面加上“很”,“非常”的说法则成了时尚。以下这些
12、句子都是从电视台上听到的:“我们的这个节目还是很生活的。”“同学们说我穿这条裙子很青春。”“台上这四位男生都很阳光。”昌平的一位交通协管员甚至说:“每到五一、十一,我们这里总是很高峰的。”注2 我最早是从鲁川教授那里听到句典的提法的。鲁川教授曾经表示他一生最大的愿望就是编一本汉语句典。不过他现在又沉浸在“汉语基因”的工作中去了。注3 同时中国人,都讲中国话,但不同的人群使用的语言却往往具有不同的色彩。一个刚毕业分配到政府机关去的大学生到了岗位以后,他的领导对他提出的第一个要求很可能就是在他为领导起草的文件中放弃原来的“学生腔”,而改用政府公文中惯用的句型。“语法”不可能描述这种区别,而句典却应
13、作得到。附录:一个可能是“句型”的例子在我被卷入“九五”中文信息处理技术与产品攻关项目的期间,正值家里的小孙女学习说话的年龄。我注意到,她每次发现大人说了一个新鲜的、值得加以仿效句子以后,就在那几天反复找机会使用这种“说法”。有一次,她在餐桌上学到了“这菜把我辣死了”这句话。就反复使用:“把我累死了”,“ 这气味把我熏死了”。那个周末,和她一起乘出租汽车,在拐弯处,离心力使她偏倒一侧,她马上说:“这汽车把我歪死了!”我们听了都忍俊不禁地笑起来,觉得她说的不对。但是笑了半分钟以后,我就觉得事情不对头。“把我 * 死了”这种pattern中的“*”原本可以是动词或者形容词,而“歪”也是形容词,“把
14、我歪死了!”这种说法有什么不对呢?仔细想了一段时间,方才领悟到,作为“把我 * 死了”这种pattern中的“*”虽然可以是形容词,但必须是描写某种主观感觉的形容词才行。而在汉语中,“歪”只能用来描述客观的事物。因此,如果把这种说法提炼为一种句型,应该是:<名词> 把 <指生物的名词> <动词 | 描写某种主观感觉的形容词> 死了。其中,粗体字“把”,“ 死了”是句型中“不变成分”。< > 中的则是句型中“可变成分”。 中则是可有可无的成分。这个例子也说明了在自然语言处理的工作过程中,“词性”恐怕是一种过于宽泛、粒度不够精细的概念。“语法分析”如
15、果只分析到“词性”为止而不涉及“具体的词”总是会遇到危机的原因大概就在这里吧!。讨论:以下是与一些专家通过Email进行讨论的内容的剪辑。由于还没有征求这些专家的同意,所以暂时不能写出他们的名字,而用符号代替。LH:1. “句典”与句型的区别与关系是什么?2. 如何正确界定短语? XL:我想象中的“句典”就是“(人可以理解的)句型的集合”或者“(计算机可以对付得了的)句型的集合”。它是“字典”,“词典”概念的扩充。也许中间还应该有“短语典”之类的东西。 “正确界定短语”,“寻找语块边界”是计算机处理自然语言工作中遇到的一个大拦路虎。有了“句典”之后,这件工作就可以分为两步。首先看所得到的句子是
16、否“似曾相识”。也就是到的句典中去查找有没有可以与之匹配的句型。由于“句典”是一个“有限集合”,只要计算机足够快,这事是不难的。如果找不到,马上放弃,承认自己水平太低,处理不了。如果找到了,由于句典中的句型是已经经过事先分析过的,其中应该含有针对本句型的(而不是面对无边无际的语言海洋的)如何寻找短语(语块)边界的信息。 像这样,把原来希望“一蹴而就”的工作分为两步走,而且是以有自知之明、量力而行的方式去做,您觉得是否会有一点希望? 有一些句子,特别是那种十分依赖于“语境”的句子,是无法纳入“句典”的。例如,卖西瓜小贩高喊的“一块、一块”要结合他摊子上已经切开的西瓜的场景才能理解。丰子恺有一幅漫
17、画的标题是:“花生米不满足”,如果不看漫画本身,这个短句人也难以理解。计算机目前尚没有“五官”,当然无法处理这类语言。而“句典”中无法纳入这种句型,自然就避免了我们见惯了的计算机“不懂装懂”的尴尬。 YM:你的建议非常之好。不过,“语法”是一个极为复杂歧异的术语,各家的看法多不一样。你所说的也可以径直就叫做“语法”因为语法是语言组合的规则。我觉得,计算机语言处理,缺乏的是资源。人们已经挖掘出来的关于汉语的语法(我还说“语法”)知识,远远没有被利用到处理的实践中。一个可行的办法,是将语言学家几十年研究的汉语语法知识进行一次彻底的梳理,看看家底究竟有多少。我是学语法出身的,我自己的感觉是,许多规律
18、,语法学家已经有所揭示,但是却没有并利用。原因之一是,语法学家不是为机器研究语言的,机器一下子用不上,需要在加工,原因之二是,计算语言学界并没有真正关注语言学家的工作。这两方面的综合,可能会有所成效。ZB:感谢您发来“关于建议自然科学基金会设立“汉语句典”课题“的刍议。回复晚了,抱歉!说实在的,我对自然语言处理是门外汉,没有什么发言权。但由于您在文中提出一些极具挑战性并另我感兴趣的问题,所以也就大胆地提出一些问题,供您深入思考时参考。(1) 机器自然语言理解,需要有新的思考,才有可能有新的突破,这一点我非常同意您的见解。(2) 目前自然语言处理研究所面临的困难说明了什么,是自然语言的本质造成?
19、还是所采用的方法不对头?也就是说,“登月”目前还只是幻想?还是因为我们用“爬树”来实现“登月”,办法不对头?如果办法不对,我们有没有解决自然语言问题的“火箭”?(3) 目前的困难,我以为主要因为自然语言表示的灵活性与多样性造成的。即一个意思可以用多种形式表达,很近似的表达可以表示很不相同的意思。形式与语义间一对多和多对一的关系,而不是一一对应,表现在语言的各个层面,特别是“句”这个层次上。(4) 您的一个依据是“人学说话就是一个句型、一个句型地学”,我以为这可能只说对了一半(儿童初学语言时可能如此)。因为学会了“英语九百句”,固然可以开口说话,说出别人能听懂的话。但很难听得懂千变万化其他人的话
20、(与“九百句”相关的领域),因为同样的意思人们可以不用“九百句”中规定的句型来表达。(5) “句典”的作用似乎要进一步明确和思考。XL: 谢谢您在百忙中给我写信。请允许我就您来信中的内容作如下补充性的讨论。我认为“自然语言表示的灵活性与多样性”固然会在工作量方面带来一些困难,但这不是本质性的。计算机处理自然语言过程中遇到的最本质的困难在于:l 人们通过自然语言进行的沟通过程往往含有大量省略与扭曲。l 但是对于人来说,这些省略与扭曲是可以通过“知识”加以校正的。从这个意义上讲,我一直觉得,自然语言理解类似于“猜谜”。l 然而,与人相比,当代计算机在“知识的拥有量和知识的运用能力”方面实在是差得太
21、远了,因而从原理上说,不可能对这些省略与扭曲加以校正。【注1】所以我们一定要承认,计算机只能处理自然语言中“比较规范的子集”,也就是“省略与扭曲”比较少的句子的集合。【注2】问题就在于,我们过去很少对“规范”这一术语加以认真的、可以考核的限定。例如,一般搞机器翻译的只是说:“我们只限于某某技术领域”,或者“文学语言不在考虑的范围内。”【注1】 例如,说汉语的人在听到“回家洗了一个澡,终于恢复了疲劳”中的“恢复疲劳”这四个字时,决不会按字面理解为“重新恢复到疲劳状态”,而总是会理解为“重新恢复到疲劳以前的状态”。因为,只有这样理解才符合“情理”。同样地,在火灾现场听到“救火”的呼声时,决不会理解
22、为“把已经扑灭的火救得从新燃烧起来”。但是,在野外篝火堆前听到“救火”的呼声时,却应该理解为“把已经扑灭的火救得从新燃烧起来”。对于计算机,“诗词”的处理困难更大。原因就是“诗词”中的“省略与扭曲”更多。杜甫的名句“名岂文章著,官应老病休”只有熟悉那个时代科举制度和数会情况的人才能把它的语序调整并展开为“人岂是因文章而著名,现在既老又病应当休去官职才是”。计算机能够做到这一点么?【注2】 承认这一点,并不降低我们工作的“伟大性”,因为每一个具体的“个人”能说能懂的也是很小的“子集”。实际上,现在自然语言工程项目的目标往往“自不量力地”要求超越“人(个人)”的水平。您说:“学会了“英语九百句”,
23、固然可以开口说话,说出别人能听懂的话。但很难听得懂千变万化其他人的话(与“九百句”相关的领域)”。这个意见我既赞成,又反对。赞成的方面:的确,当一个人学会了“英语九百句”,他也只能说一些很普通的话。他拥有的词汇量和句型的种类非常有限。正是在这一点上体现了一个人的语言文化水平。他如果要进一步提高,就要掌握“九千句”或者更多。对于计算机来说,我们正是要通过这种手段来明晰地划定计算机语言能力的范围,也就是上次在会议中我们所说的“技术边界”。反对的方面:当一个人学会了“英语九百句”以后,的确,他也只能说在这九百句句型的基础上略加变通的话。不过,要是他听到别人讲了一些不在这“九百句”句型之内的话,只要所
24、涉及的是(与“九百句”相关的领域),他多半是能够听懂的。因为他(人)有强大的“猜谜”能力。但是,从原则上讲,计算机不可能做到这一点。我们也正是要通过这种手段来明晰地划定计算机语言能力的范围,也就是上次在会议中我们所说的“技术边界”。关于“句典”的想法实际上落实在以下两点上:l 在计算机拥有的知识量和运用知识的能力远远低于一般人的水平的情况下,我们要老老实实承认在自然语言处理方面计算机决不可能与人相比l “句典”就是用来描述或刻划计算机的能力边界的一种手段。借此我们可以要求计算机:会做的事情就去做,不会做的事情,不要瞎做。“瞎做”只能帮倒忙!ZB经过两次讨论,基本上同意您的意见。其实我们的意见是
25、一致的,比如,我所说的“本质性的困难”,“九百句”等等都是针对计算机而言,并非指人。说实在的,我原本有两个担心:(1) 担心“对机器的自然语言处理期望值过高,因而规定一些不切实际的目标”。从您两次的补充中,我了解到您还是很清醒的,因此我就放心了。我以为,中国从古代的先哲开始,都把理论看成绝对真理,总试图搞出“放之四海皆准”的永恒真理,从而后人只能“笺注经书”。这很影响我国科学理论的发展。西方把科学当成相对真理,因此只是阶段性的、可批判的。作为阶段目标,既然我们没有火箭,那就乘飞机好了。(2) 中国人重“泛论”、重“宏观”,西方重“细节”,西方有句名言: “God is in the detai
26、ls”,我主张两者结合,对于中国人,特别是后者。正因为这样,我赞成不妨一试,把问题做细:看看究竟“句典”能解决多大问题?“1000米”,还是“10000公里”, 的确,一个人学了“英语九百句”,不仅像您所说的,能说出与其类似的洋话,而且还能说出、并听懂以不同形式表达的话(与九百句完全不同),但这已经不是“九百句”的功劳,而是人类的其他能力。这个能力,正如您所说的,多半计算机作不到。我们的目的就是要看看“只有九百句”(九千,九万句)能作些什么?XL:昨天给您回了一封信,不知道把问题说情出了没有?我想,基于“句典”的想法显然不是一种“进攻性的战略”。但是它是一种paradigm-shift。作为类似的“思想方法的转移”的例子,可以举出圆珠笔的一段发展历程。您可记得,上世纪四十年代末,由美国传来了圆珠笔。当时大家叫它“原子笔”。原因是当时大家使用的自来墨水钢笔每个几天
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026江西南昌市西湖区图书馆招聘1人备考题库(必刷)附答案详解
- 2026重庆市万州区沙河街道办事处公益性岗位招聘1人备考题库及答案详解【易错题】
- 2026天津铁路建设投资控股(集团)有限公司招聘1人备考题库一套附答案详解
- 2206北京大学未来技术学院招聘劳动合同制人员1人备考题库及答案详解【夺冠】
- 建筑工地深基坑高边坡安全防护联席会议制度
- 2026云南临沧检测机构招聘食品检测聘用人员1人备考题库(原创题)附答案详解
- 2026上海虹口区卫健系统招聘38人备考题库及答案详解一套
- 2026中国农业科学院饲料研究所新兽药与免疫调控创新团队科研助理招聘2人备考题库(培优a卷)附答案详解
- 2026福建漳州市龙文区教育局招聘43人备考题库含答案详解(完整版)
- 咸宁市物品采购领用制度
- 乡镇禁毒举报奖惩制度
- 2026年江西赣州市高三一模高考数学试卷试题(含答案详解)
- 2026年安徽工业职业技术学院单招综合素质考试题库及答案详解(全优)
- 2026年安徽新闻出版职业技术学院单招综合素质考试题库及一套答案详解
- DLT 5035-2016 发电厂供暖通风与空气调节设计规范
- 国际标准行业分类第4版ISICRev-4中文版
- 特种设备安全培训课件
- (2023最新)给水排水管道工程施工及验收规范
- 部编人教版九年级历史下册全册知识点总结
- 新版北师大版小学3三年级数学下册全册教案完整(新教材)
- 矿井水综合利用分析及前景展望
评论
0/150
提交评论