




已阅读5页,还剩41页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
学位论文题目:中文网页褒贬态度的机器评价 中文网页褒贬态度的机器评价中文网页褒贬态度的机器评价摘要天网知名度系统是基于北大天网搜索引擎技术和中文信息处理技术,针对用户定制的实体信息开展的个性化网络服务研究。重点研究了网页实体相关度评价算法,从而优化了针对特定信息的网络查询服务质量。在此研究中,通过对中文网页文本内容的大量观察,作者提出了中文网页褒贬态度机器评价的研究方向。基于褒贬评价的修辞属性,作者确定了以语言手段及领域标准为策略的评价算法,独立完成了网页褒贬态度机器评价模块的全部设计与开发,并为此准备了必要的褒贬评价语言知识库,包括在转化现有的基础静态褒贬义词典的有限资源之外,搜集来自真实中文网页的领域相关褒贬义补充词典,积累了一批褒贬态度表达的语言形式模板。该评价模型针对中文网页,依据领域补充褒贬义词典,对网页实体进行褒贬态度评价,其中包含了一系列评价要素,如褒贬结构、领域标准、实体有关、褒贬猜测等关键方法,关联了多种语言知识,从而更合理地模拟了人对网页褒贬信息的解析方法。该模块被应用到天网知名度系统,通过对75万网页近300个实体的评价测试,得到了有价值的实验结果。网页褒贬相关度评价模型的研究开发,为天网知名度系统的个性化网络服务做出了新的和有意义的尝试。关键词:褒贬态度 机器评价 网络信息服务- IV -The Evaluation of Appraise in Chinese WebPagesAbstractTianWang Fame System was focused on personalizing Web Information Services, which was based on TianWang Information Retrieval System and the technology of Chinese Information Processing, mainly developed the relevance evaluation on entity WebPages and improved the sorting quality of the information retrieval aimed at the customized requirements, following which the author has proposed the evaluation of appraise in Chinese WebPages as the extended research.In view of cognitive rhetoric, the author developed the appraise evaluation method based on the language knowledge and domanial criterion about the entity. The author has finished the implement of this module and embedded it into TianWang Fame System. As the necessary language knowledge for machine evaluation, the author has formalized an elementary appraise dictionary and established several domanial supplemental lexicons from actual Chinese WebPages, especially a series of appraise template.This module gave the evaluation focused on WebPage entity and domanial criterion, including the following factors, such as entity-aboutness, appraise-structure, appraise-hypotheses. Through associating several linguistic materials and simulating the cognizance of appraise rhetoric of human, the research has gotten the value result and carried a new exploration in Web Information Services.Key words: appraise, machine evaluation, Web Information Retrieval正文目录第1章 引论11.1 天网知名度系统11.2 网页观察机器评价视角下看中文网页类型21.3 项目延伸探索新的网络服务(网页褒贬态度的机器评价)31.4 本文的研究内容及意义51.5 本文的结构5第2章 相关工作及工作基础62.1 语言手段62.1.1 词语手段62.1.2 句式手段82.1.3 辞格手段82.2 评价的规范与标准92.3 资源准备112.3.1 基础褒贬义词典112.3.2 典型网页文本搜集112.3.3 领域补充褒贬义词集122.3.4 褒贬评价模板搜集132.4 系统基础142.4.1 天网知名度系统流程142.4.2 天网知名度系统结构及模块分布16第3章 网页褒贬态度评价模块243.1 数据需求243.1.1 网页表示信息库243.1.2 注册实体信息库243.2 关键策略253.2.1 实体有关性253.2.2 领域相关性283.3 模块设计283.3.1 处理流程283.3.2 褒贬结构303.3.3 基本结构P31第4章 实验结果及展望334.1 结果浏览界面334.2 有效性分析344.3 改进方向374.3.1 更精细的褒贬评价模板374.3.2 转折结构及褒贬权重374.3.3 更精确的褒贬冲突控制384.3.4 褒贬评价的程度考虑384.3.5 更精细的褒贬义词典构造394.4 其他应用394.5 实验评价39参考文献与资料40图表目录图 1网页褒贬评价关系分析图4图 2天网知名度系统流程15图 3用户注册界面17图 4用户检索界面实体信息列表18图 5用户检索界面实体相关网页排序19图 6人名实体对应示例27图 7一篇网页的褒贬评价流程29图 8 P的识别流程32图 9实体相关网页的褒贬评价结果浏览33图 10实验网页中人名实体对应关系35表 1实验考察与实验资源的对应分布10表 2网页褒贬评价例句11表 3注册实体信息表的信息项定义12表 4实体领域及对应的领域褒贬补充词典12表 5面向领域的褒贬补充词典候选样例13表 6褒贬评价候选模板样例13表 7褒贬评价用到的网页表示库信息项24表 8褒贬评价用到的实体信息库信息项25表 9褒贬结构模板要素30中文网页褒贬态度的机器评价 实验结果及展望第1章 引论因特网(Internet)自1994年开始登陆中国,短短几年内得到了迅猛的发展,今天的因特网确实是一个信息的宝库,但是在很大程度上它还只是信息的堆砌,因此它更像一个宝矿,等待有需求的人们去挖掘。网上海量信息的涌现迫使人们越来越依赖搜索引擎,而目前中文搜索引擎的服务还远远不能满足用户的需要。常见的网络检索服务,常常没有语义分析,只是根据用户所给出查询词串的逻辑组合机械地找出一系列匹配网页,同时检索结果中常有很多无关或无用的网页。通用的搜索引擎缺乏针对性,用户不能通过搜索系统定期、定量、和自动地获得目标相关的网页,必须手工地进行繁复的筛选任务。面对网上的海量信息,人们越发看重准确性、及时性,迫切需要一种更加智能的网络检索服务,能够针对用户关心的焦点,为用户自动收集、分析和整理相关信息,因此,提供个性化检索服务已势在必行。1.1 天网知名度系统北京大学计算机系网络实验室于1997年推出了 “天网”搜索引擎,据“天网” 搜集的网页估计,中文(简体)网页数已超过1亿。从2002年7月开始,北京大学计算语言学研究所信息提取(Information Extraction, IE)项目组与北京大学网络实验室在北京大学-IBM创新研究院的支持下开展了“天网知名度”研究项目。本项目在天网搜索引擎的基础上,力求利用中文信息提取的先进技术,尝试个性化检索服务,提高网络服务的质量。在天网知名度系统中,用户可以通过指定一批具体的实体来定制自己的查询需求,即用户可以指定一个或多个实体作为信息收集、分析和提供服务的目标对象,例如: 名人实体:姓名,主要职业、社会兼职、社会形象、工作单位、代表作品等;公司实体:名称(含别名、缩写名、英文名),所在地、所属行业、产品(服务项目)、负责人(可选)等;机构实体:名称(含别名、缩写名、英文名),所属地区、部门、性质、负责人(可选)等;产品实体:名称(含别名、缩写名、英文名)、型号、功能、规格等。经过对名人实体、机构实体及产品实体的前期考察,天网知名度系统选择了名人实体做为实验对象。用户将其要查询的名人信息注册之后,系统将为每个用户登记专用的实体信息,形成个人信息库和实体信息库,以保证尽量满足每个用户的个性化检索需求。用户通过天网知名度系统用户界面登陆并提交要查询的实体,系统将通过检索评分库和索引库将检索到的实体相关网页的排序结果返回给用户。该系统依托天网搜索引擎的原始网页库,目前在75万中文简体网页范围内小规模提供了近300个名人的网页搜索服务。系统采用了基于内容的浅层分析技术,提取网页中人名、人的职业描述以及人所在的工作单位等二元关系描述,结合特征向量的加权统计,对查询信息建立了合理的结构,大大增加了网页中有关人物分析的准确性。不同于Google等搜索引擎,“天网”知名度项目着眼于用户的特定检索需求(表现为系统中的注册实体,包括各信息条目及其权重),因此实体信息注册、二元关系抽取、加权分析等是实现系统目标的关键环节。1.2 网页观察机器评价视角下看中文网页类型天网知名度系统实验过程中的实体信息,来自前期考察对网页实体信息的认知抽象。而天网知名度系统的相关度评价即是让机器来模拟人自身对网页与实体的相关性的认知策略,最终机器的模拟结果也要接受用户认知体验的检查。因此作者在参与网页与注册实体相关度评价模块的开发时,一直注意积累对网页文本内容的观察。以公司类实体的网页为例,作者发现如下规律:从来源看,有来自企业自身也有来自外界的,如行业网站或新闻网站。从网页内容来说,有介绍企业的产品、经营领域(与该企业的产品类型相关)、下属子公司、发行的证券、股票的;也有介绍公司的负责人的(其人、其事、访谈);有关于该公司的经营研究报告、业务分析、公司的事件新闻(收购、兼并等)等的;还有谈及企业文化概念的,如核心理念、市场口号(例如,“以您的生活为本”,“无抗”等)、特色概念、论坛、周刊、市场策略、经营模式,以及它们的改变等;甚至也有介绍其使用的软件管理系统、电子商务等(即借该企业宣传另一个企业产品的成功案例的)。形式上,除了单独出现在网页中,也常在行业网站和企业峰会的网站中和其他公司一起出现的,甚至只是名称列举。网页内容除了文本本身,还有格式标记,某些类别的标记可表示一篇网页的主题信息或通过控制显示效果而表示一段内容的重要性。对网页的观察帮助项目组制定出注册实体信息的格式和内容,也确定了系统进行分析评价所需要的信息。作者从大量的网页观察中发现,与目标实体实际相关的网页,可以分为两类。一类是强文字相关的信息类网页,这类网页与实体信息匹配程度高,简历型名人网页是很好的例子。另一类是弱文字相关的事件或事物展开型网页,相比前者,这类网页与实体的背景性信息匹配程度就低多了。事件展开类网页,譬如,关于某名人的事件报道或访谈记录,恰好谈论的不是名人实体中注册的那些常见资料性信息,假设一篇谈论克林顿在家锄草的报道,则这篇网页的内容相对于系统中的资料信息延伸距离很大。另一个典型的例子,中央电视台的节目表网页,整个网页是一份央视节目单的具体展开。这些都是与目标实体相关但无法由特征词简单覆盖的网页类型。对此要取得好的评价结果,则需要更灵活深刻地利用特征词手段。反过来,特征词频繁出现的网页未必与目标实体相关性很大。例如有时一篇网页中分散出现了大量某个注册实体的特征词却并非着意于谈论该实体,这是由于这些代表实体信息的特征词,也正是大多情况下人们谈论实体时的语言环境,甚至有时只在这种语言环境下才可能顺带提起那个实体而已。除了人员单位和人员职位二元关系之外,如果我们的语言技术能准确地提取出更多特征信息与实体的确切关系,则能在衡量实体相关度时起到定性作用,而在有限的计算语言技术下,即使是特征词统计过程中的定量尺度,也是不易把握的。针对上文的一个更普遍而典型的情形是,网页在谈论同领域的其他人物时提起了我们要考察的人物实体,这种情况将在网页褒贬态度的机器评价中继续讨论。1.3 项目延伸探索新的网络服务(网页褒贬态度的机器评价)在参与相关度评价的前期开发过程中,通过对网页文本内容及机器评价的联系思考,作者获得了新的实验方向。网页是传递信息的。从效果上看,人们通过构建网页来传递信息,也可以进而表达态度和传递情感。前一阶段中的网页与注册实体信息的相关度评价,针对用户感兴趣的目标,优化了检索排序。而有些用户在得到与关心的实体相关的一批网页后,也可能会希望进一步分出其中的正面报道和负面报道,例如企业希望了解市场上对其产品的正负面评价,名人希望了解媒体和公众对自己的评价。在满足这种用户需求时,机器需要做的工作就是分析现实网页的修辞效果,即分析网页所表达出的态度和情感,反馈给用户。网页的内容作者,作为话语构建者,总是在一定言语环境下选择适切的话语来达到传递信息和交流交流感情的目的的,因此我们的考察是针对一种有意识、有目的、有规律、有效果期望的话语组织行为,也即修辞行为,这里它是以网页的形式通过网络传播的,而我们需要获取的是这种修辞行为的修辞效果之一:网页所包涵的褒贬态度信息。网页的内容作者实施的是话语的构建,即对实体评价的褒贬信息编码;网页读者实施的是话语的解构,即信息的接收和解析。网页构建者构建网页,需要掌握和运用语言知识,读者解析网页也要利用语言知识基础来解析网页的各种话语信息,包括网页内容作者所表达出来的对谈论实体的褒贬态度信息,是一种褒扬的态度还是贬斥的态度。文本褒贬态度的机器评价其实是在模拟人对网页的解析活动。作者以下图来标示褒贬评价中各元素的关系,分析此图可以得到,网页、实体和语言知识本身,是网页内容作者、读者及模拟读者的机器所共同关联的因素。网页机器读者语言实体语言实体语言实体构造认知评价解析评价认知认知评价解读网页内容作者图 1网页褒贬评价关系分析图上图揭示,机器的有效模拟,需要关注三个要素:网页、语言知识、实体。1.4 本文的研究内容及意义天网知名度系统是立足个性化网络服务的探索研究。网页相关度评价利用计算语言学技术针对用户定制的实体信息进行网页相关度的评价及排序,从而获得了更高效优质的个性化服务。作者在参与网页相关度评价模块的开发过程中积累了对中文网页的大量观察,从而发现和明确了网页褒贬评价的问题目标。网页褒贬态度的机器评价研究符合网络用户的进一步查询需求,也符合天网知名度系统个性化网络服务的研究定位,同时可以利用系统已有的实体针对性平台基础。此项实验具有研究和实验的可延续性。另一方面,网络传媒在现代社会中充当着信息传播的重要手段。网络文本是典型的传播性文本。现实网页中的褒贬态度表达往往含有明确的目标、动机和效果期望,因此构造者会很重视语言知识这个交流手段,网页中的褒贬态度表达也就是一个典型的修辞行为,所以实验可以充分利用修辞学的理论成果,具有理论指导基础。而从语言学角度看,修辞涉及语言的附加意义,这区别于概念意义。因而此项实验具有丰富创新性研究价值。1.5 本文的结构本文后面的部分将介绍三部分内容。首先是理论基础和实验资源的考察。这一部分既验证实验的可行性,也是作者完成资源积累作好实验准备的基础工作过程。第二部分介绍网页褒贬机器评价模块的具体设计实现。最后给出实验结果并做合理性分析。此项实验中,本人的原创性实验工作主要包括针对领域的褒贬词集的语料搜集整理和网页褒贬机器评价模块的全部设计与实现。实验本身涉及网页、实体、语言知识三个要素。对于实验处理对象网页褒贬态度的话语形式的关注自始至终贯穿本作者的思考和实验过程,指导作者选择合适的资源或实现策略来捕捉和覆盖目标问题,这也将成文下文论述的重要线索。第2章 相关工作及工作基础“修辞就是在运用语言的时候根据一定的目的精心选择语言材料的过程。” 文献7, pp.532 网页中褒贬态度的表达,是有目标有指向的评价活动,因此是典型的修辞活动。修辞者要组织出适切、有效的话语,需要掌握修辞手段的结构和功能。机器进行网页修辞效果的判断,也必须利用这些手段和规律来展开修辞效果的分析。所谓修辞手段就是修辞所需要的材料,主要是指可以利用的语言要素和辅助性非语言要素。按照是否是语言要素,修辞手段可以分成为语言修辞手段和非语言修辞手段。前者包括词语、句子、句群、辞格和语篇。后者主要是指一些辅助性的文字符号以及表情、动作等。文献3, pp.42表情、动作等辅助手段可以用在人机交互多媒体技术中,本实验目前针对天网知名度系统的大规模网页库进行文本处理,因此下面主要考察语言手段,关注其中与褒贬态度的表达有关联的理论。2.1 语言手段2.1.1 词语手段文章是由句子构成的,句子的基本单位是词语。词语是组成能完成一定交际任务的句子的基本手段。文献3, pp.43词性:词语可以分为名次、动词、形容性等。词语的语法功能分类是为了进行语法分析,这有助于解决话语组织的正确性问题,即话语是否合乎语法规则的问题,但却不能解决词语的其他修辞问题。词义及词语的修辞功能:所谓词语的意义,实际上就是语音或文字符号在人们的心理上引发的心理形象或记忆、认识、经验、体验和感受等。在运用中,实际上是起一定的刺激中介作用。因此说,词语实际上所具有的是表意功能或修辞功能。文献3, pp.54词语对人脑的刺激作用有两种,离开言语环境所具有的基本表意功能,即语言修辞功能,和在具体的言语环境中的表意功能,即言语修辞功能。文献3, pp.54词语的语言修辞功能包括两个方面:一是表示概念意义(或理性意义),二是表示附加意义的功能(语体、文化、态度等标示功能)。文献3, pp.55标示说话者的褒贬态度,就是词语的附加功能之一。在汉语中,具有表示态度功能的词语很多,例如“撤退逃跑”,“效果后果”,“鼓励教唆”,“起义叛乱”,“爱护庇护”,“团结勾结”等,这些词对中,前者表明了说话者对所谈及事物的肯定、拥护、赞成和褒扬态度,后者则表明了说话者对所谈及事物的否定、反对、不赞成甚至贬斥的态度。文献3, pp.59与一般词语一样,熟语除标示理性意义的功能之外,也具有一些附加修辞功能。比如“守株待兔”、“揠苗助长”、“刻舟求剑”、“阳奉阴违”、“口是心非”、“狼子野心”、“狼心狗肺”、“不三不四”等成语,“抓小辫”、“吃老本”、“吹牛皮”、“出洋相”、“开小差”、“半吊子”等惯用语,“擀面杖吹火一窍不通”、“老鼠过街人人喊打”等歇后语,多具有贬斥功能。而“坚持不懈”、“老骥伏枥”、“废寝忘食”、“众志成城”、“一心一意”等成语,“众人拾柴火焰高”、“三个臭皮匠,顶一个诸葛亮”、“若要工夫深,铁杵磨成针”等谚语,“知识就是力量” 、“谦受益,满招损” 、“千里之行,始于足下” 、“世上无难事,只怕有心人” 、“良药苦口利于病,忠言逆耳利于行”等警句格言,则具有褒扬功能。文献3, pp.83 在话语组织过程中,选择什么词语直接关系到修辞的效果。比如形容好喝酒的人,就有许多词语可供选择:“酒仙” 、“酒鬼” 、“酒囊饭袋” 、“酒桶” 、“酒篓子”等等。每一个词语的修辞功能都不完全一样。每一个词语的修辞功能都不完全一样。“酒仙”通常是指那些虽然好喝酒,但却品性高雅的人,“酒鬼” 、“酒囊饭袋” 、“酒桶” 、“酒篓子”,则多形容和比喻那些酗酒且无所作为的人。这些同中有异的词语为话语组织提供了选择余地,所以说,词语是重要的修辞手段。文献3, pp.43根据词语修辞功能的不同,可以从修辞效果的角度来划分:分为书面语词语、口语词语;或者褒义词语、贬义词语等等。这些功能表示了词语的使用范围,比如是书面语还是口语,说话者的态度是褒还是贬。词语的褒贬修辞功能划分有利于人们使用词语来有目标地构造话语,也方便人们解析说话人的话语信息。褒贬的划分确定了词语褒贬评价的极性,而褒贬评价不只是两极对立的,也常会受到程度性修饰,例如“有点吹毛求疵” ,“非常绚丽” 。有时也甚至因为修饰而改变极性方向,例如“高”这个词语本身属于中性,如果说“有点太高了”则往往是否定的态度。词语的形式:词语包括词和短语。短语包括固定的短语和不固定的短语。固定短语包括成语、惯用语、谚语、格言及歇后语等。文献3, pp.52不固定的短语同样有修辞功能,关于不固定的短语我们后面会从模板的角度来考虑。2.1.2 句式手段汉语不仅有丰富的词汇手段而且有丰富的句式资源。汉语句式按照语气划分为陈述句、疑问句、祈使句和感叹句四种。话语组织汇过程中,我们可以根据表达需要,选择不同语气的句式。文献3, pp.86其中,陈述句和感叹句句式对褒贬态度的表达有影响。陈述句是四种语气的句式中使用频率最高的。陈述句主要是对事物、情况等进行描述的句子。陈述句还有肯定和否定之分。文献3, pp.87其中的否定句会造成褒贬态度的指向改变。除肯定句和否定句之外,还有一种双重否定句,表达的是肯定的意思,可起强调作用。例如:“我们不是没有能力解决这个问题,而是目前时机还没到”。文献3, pp.88感叹句用以表达强烈的情感。例如:白杨树实在不平凡,我赞美白杨树!(茅盾:白杨礼赞)如果采用陈述语气,则显得十分平淡。文献3, pp.912.1.3 辞格手段汉语中的辞格非常丰富。一类重在深化话语的意义,如比喻、借代、比拟等,这类辞格可以体现说写人的态度、情感,例如比喻辞格。如果用来打比方的事物是美好的,那么表示说话人对被比方的事物的态度是褒的,反之则是贬的。另一类则是话语形式的辞格,例如对偶、排比、反复等。文献3, pp.108目前还没有可用的针对辞格形式的计算识别技术和考量方法。考虑到中文网页的文本大多是媒体传播型的,辞格的丰富性不及文学类文本,因此,本评价系统中对于用辞格来表达的褒贬态度,将简化为利用词语手段等来捕捉,例如,“她像盛开的莲花”与“她端庄美丽” ,机器评价能识别后者,但不理解前者,除非机器被灌输语体“莲花”这个词的修辞意义。当然,如果句子是“她像莲花一样端庄美丽” ,那么机器同样能获得该句的褒义评价信息。如果话语构建者用一系列排比的褒贬评价,本评价系统仅仅起到累积的效果。2.2 评价的规范与标准网页的内容作者也就是最初给出褒贬态度表达的人,是在主观标准和社会评价规范上,遵循褒贬态度表达的语言规律来构造有目标的褒贬态度话语表达的,相应的,网页的读者也是在个人和社会的规范和标准指导下来解析话语信息中所传递的褒贬态度信息的。因此机器对网页褒贬态度评价除了文本解析也需要引入评价规范和标准。例如,作者在考察汽车产品实体的过程中发现,对于汽车产品的评价,尽管各国轿车都在向更安全、更环保、更经济的共同目标发展,但由于各国的地理环境和民族文化背景的不同,不同地域也会有很多标准的差异,具有各自关注的重点指标。例如,美国路面条件好,车马力大,加速性能较好,底盘高度适中,轮胎较宽,具有较好的稳定性和抓地力,适合平地驾驶,宽敞的车厢是美国车追求的一大特色,对美国人而言宽敞才能乘坐舒适。在欧洲,由于阿尔卑斯山纵穿欧洲大陆,丘陵地带多,平原少,城镇星罗棋布。因此欧洲轿车需要底盘较高,悬挂系统较好,震感少才意味着乘坐舒适。要适合丘陵地带的需要,欧洲车操纵性能较好,扭力较大,爬坡快,加速度高,短距离超车得心应手很重要。日本国土狭窄,人口密度大,且集中于城市,人们善于精打细算,讲究效率。因此日本轿车就讲究轻巧美观,造型新颖,改型快适应面广。日本轿车通常钢板较薄自重较轻,底盘较低,车身容积较小,耗油低经济性好,使用效率高。车厢内各种设备齐全,装饰做工细腻,操纵性及刹车性能优良,适合城乡行驶。汽车产品的这个例子充分显示了评价标准的差异。结合名人实体的网页褒贬评价观察的阐述:使用被评价实体所在领域的评价标准:职业的领域,例如,“严谨”,在科教领域是好的,但对一个歌唱领域的演员就不重要,而“嗓音好”对于歌唱领域的人来说就是关键的,对科教就没有这个严格的要求。做一个好市长和做一个好的足球运动员,标准一定不同。网页中的褒贬评价是针对实体发出的,被评价实体所处领域的评价标准是同时影响网页构建者和读者的价值标准,因此关照到实体领域相关的褒贬评价规范和原则,机器才能更准确地解析褒贬构造者的褒贬态度。针对领域的褒贬评价标准的发现:这里提到这个,基于一点考虑。褒贬构造者对被评价对象的评价可以是多角度展开的,但合理的语言具有一定的一致性。这个一致性可以表现在一定距离内搭配出现的褒贬信息应该保持态度的一致,或者说褒贬不冲突。我们从网页中只能获得文本信息。不同句子,或者复合句中前半个分句和后半个分句的可能会在不同方面做出方向不同的褒贬评价,但在并列结构内部应该保持一致性。在这个前提之下,系统对于并列结构的识别得到了褒贬义约束,同时还可以获得未登陆评价词的褒贬猜测。例如,谈到歌声“悠远而美妙” ,“悠远”本身并没有被收入基础褒贬义词典,但“美妙”是静态褒义词,因此机器可以猜测“悠远”在这里也是构造者发出的一个正面评价,(音乐领域,悠远,)的经验信息被收入待验证词库。当这种来自经验的积累足够多时,机器就能从中归纳出自己的新知识,这将同时补充机器掌握的褒贬评价语言手段和评价规范及标准。语言是人类表达和交际的基本手段,即使是评价过程中关涉的个人与社会因素,也可以透过语言得以传递。因此,作者选择用词典向机器评价系统注入褒贬评价的静态基础知识和领域相关知识,同时让机器在网页评价中充分从文本获得新的褒贬评价手段与规范知识。综上,结合褒贬评价的语言手段和评价规范标准考察,作者计划使用如下一些实验手段和策略实现褒贬态度的机器评价,涉及基础褒贬义词典、领域补充褒贬义词典、褒贬评价结构模板等主要实验资源。与实验目标问题域的实验考察项目对应,实验资源的分布情况如下表所示:表 1实验考察与实验资源的对应分布实验考察实验相关词褒义词基础褒贬义词典贬义词短语固定短语不固定短语褒贬评价结构模板句式陈述句感叹句辞格比喻等意义辞格词典部分覆盖评价排比等形式辞格形式累计修辞标准和规范主观标准褒贬评价原则领域标准领域补充褒贬义词集2.3 资源准备2.3.1 基础褒贬义词典没有现成可用的电子版基础褒贬义词典。作者在比较了多个相似的褒贬义普通词典后,选择了商务印书馆的1996版常用褒贬义词语详解词典转化生成了系统的基础褒贬义电子词典。这部词典选收的词语均属静态状况下的褒义、贬义词语,包括双音词,成语,惯用语,以及少数谦辞、敬辞。每个词条包括三部分内容:褒贬色彩,词性,释义,例句等;提示,重叠形式,同义解析等;近义,反义等。静态褒义、贬义词语含有词语所固有的、客观的、明显的褒贬评价色彩。例如,“英雄”含歌颂的感情色彩,“钦佩”含敬重的感情色彩,“懦夫”含鄙视,“粗俗”含贬斥。词典对感情色彩做了分类,表示谦逊的15个,表示喜爱的78个,表示赞扬的376个,表示敬重的32个,表示贬责的227个,表示批评的126个,表示憎恶的175个,表示鄙夷的48个,共计1103条。还列出了近义和反义词语。目前,作者仅选取了每个条目中的两项信息,例如(诚挚)和(草率),生成了褒贬评价系统使用的褒贬义电子词典。2.3.2 典型网页文本搜集针对系统已注册实体,作者从天网知名度系统的75万实验用网页库中,搜集了一批褒贬评价语句,这是面向领域的褒贬补充词典和褒贬结构识别模板的来源。表 2网页褒贬评价例句季老先生一生勤勉,一生谦和,著作等身,桃李满门。她不像倪萍身材高挑、浓眉大眼,也不像周涛那样一副典型的中央台“国标”播音员的风韵。李保田修养全面,热爱艺术,在表演上精益求精,是影视界优秀的表演艺术家之一。李晓华把握商机和适当冒险的精神的确有其过人之处。因此,孙楠的反抗不仅是肤浅的,而且是狭隘的。孙楠以他深情独特的嗓音征服了众多歌迷 。曹颖从外表上看更显单薄、弱小。她不像倪萍身材高挑、浓眉大眼,也不像周涛那样一副典型的中央台“国标”播音员的风韵。周涛虽然很红,可她太四平八稳,真诚,质朴有余,而灵动,幽默严重不够我喜欢施翌,她清新自然,毫不做作,宛如一位邻家学姐在带着露珠的清晨为你讲述一切美好的东西,让你一整天都感受到温暖和喜悦。第二声感叹便是杨晨了,他带伤上场并奋勇顶进反超的关键一球,职业球员的风采夺目照人。米色的职业装,极富亲和力的熟悉的微笑,标志性的招手王小丫来了。而似乎侧重防守的马儿在防守时也未尽心。2.3.3 领域补充褒贬义词集天网知名度系统中名人实体注册信息库的注册信息共计8项,其中包括名人所在的领域类别和所有的名字等。天网知名度系统预先注册的第一批实体,总计近300个,分布在10类领域中。如下表所示。表 3注册实体信息表的信息项定义所在的领域分10类,政府,科教,文学,业界,媒体,歌星,音乐,影视,体育,艺术名字包括别名、笔名、艺名等潜在可能代表实体的名字所在工作单位例如,北京大学职业描述例如,主席、书记、教授、记者、演员兼职单位可以有多个社会形象例如,国学大师,环保大使特征词用户关心的特征描述代表作著作名、作品名、产品名等针对已注册的这10类实体,作者分类观察搜集了一批补充褒贬词语,其中歌星、音乐、影视、艺术类领域的名人的网页中出现的褒贬评价词语有很大的相近性,如关于外形和表演的评价词语,另外,这些领域的实体也常有多领域出现的特点,因此将它们的领域褒贬补充词典进行合并。表 4实体领域及对应的领域褒贬补充词典政府supplemental_gov.txt科教supplemental_edu.txt文学supplemental_literary.txt业界supplemental_it.txt媒体supplemental_media.txt歌星supplemental_player.txt音乐supplemental_player.txt影视supplemental_player.txt体育supplemental_sport.txt艺术supplemental_player.txt依据上文所说褒贬的一致性原则,根据语境判断,筛选出一批补充褒贬词语。表 5面向领域的褒贬补充词典候选样例词语褒贬含义出现领域修饰内容著作等身,桃李满门,创新科教科教专家悠远、磁性、高亢音乐歌唱演员嗓音尽心、团结运动足球运动员出口成章、机敏、灵媒体主持人风格四平八稳媒体主持人风格入木三分、活生生影视演员演技俊秀、俊逸、活力影视演员外形感染力、理智、沉稳媒体主持人风格最佳、绝佳、一流、不俗影视演员演技楚楚动人、温婉媒体主持人外形2.3.4 褒贬评价模板搜集收录模板是为褒贬自动评价系统而用的。有用的模板是那些能够修正单纯的褒贬词语统计打分的语言形式。另外,结构性的事物都是可以充当线索的,也就是说,模板可以帮助我们来构造我们的评价系统。一种典型的情况是,模板会对其中用到的术语及特征词(例如特征词的词性、褒贬)有所选择,然后整个模板才会在术语及特征词的基础上形成加强、减弱、联合、逆向等修正评价的作用。例如模板,(n的丧失)中,n通常是一个褒义词语,而不该是一个贬义词语。另一种情况是,模板生成的词语序列可以代替单纯特征词而起到评价的作用。例如,“活力大增”、“勇于创新”。在收集模板的时候,充分地到网上逆向查找验证,加强对模板约束的确定,也大大地丰富了模板。另外,搜集模板的时候,模板的组成元素比较灵活,可以是词性或确切触发词或字组成的词组模板。表 6褒贬评价候选模板样例a的entity楚楚动人的小丫Entityna这姑娘脑袋灵entity+n+v+adv她节目做得确实很好Entity的an她的活泼形象Nentity美女曹颖a而不a她的风格张扬而不夸张a而a,a且a清新而俊朗a的n非同凡响的天赋/完善的物业管理An感人事迹n的丧失诚信的丧失不a不心浮气燥不乏n不乏可圈可点之处毫不a毫不做作缺乏n缺乏诚信、活力未能v未能突破防线未a而似乎侧重防守的马儿在防守时也未尽心(马儿指马明宇)没有n没有热情少了n少了真诚n不够灵活性不够不乏a不乏机敏,热诚很有n很有绅士风度极富n极富亲和力的熟悉的微笑勇于v勇于开拓前进善于v善于突破富有n富有潜力有n有气魄Adv+a很漂亮2.4 系统基础 参考资源1,资料2,资料3网页褒贬态度的机器评价将以功能模块的形式被嵌入到原有的天网知名度系统中,下面介绍本模块的系统实现基础。2.4.1 天网知名度系统流程根据名人网页的特点,天网知名度系统要求用户将需要查询的名人实体信息分类予以注册,系统为每个用户登记专用的实体信息,形成用户信息库和实体信息库,以保证尽量满足每个用户的个性化检索需求。系统将每个名人实体的信息分为以下八类,分别是名人所在的领域、名人的名字、名人所在的工作单位、名人的职业描述、名人的兼职单位、名人的社会形象、用户关心的特征词以及名人的代表作等信息,基本涵盖了名人网页的相关特征信息。系统根据用户注册的实体属性信息分析过滤每个网页,计算网页与实体属性信息的相关度,并对网页内容的褒贬性取向进行简单的评价。图2是天网知名度系统的流程图。图2的上半部分除了网页信息提取外,基本上是天网搜索引擎系统的功能模块。其中,网页搜集利用了天网的网页抓取模块,为天网知名度系统搜集中文原始网页库Url.dat。原始网页库是符合一定结构的文本文件,其中网页顺序存放,每个网页有固定格式附加的头信息(网页的地址、时间、格式等信息)。原始网页经过净化预处理后输入中文分词和信息提取模块,该模块完成中文切词、词性标注、命名实体识别以及实体关系的提取功能,形成网页表示库WebPre.db。网页表示库以Berkeley DB数据库的形式存放,每个原始网页被表示成网址、网页长度(以词计)、网页文本词串、词串对应的词性标记串和HTML标记串、网页中提取的人名列表、单位机构名列表、人名与单位关系列表、人名与职务关系列表,从而为进一步的网页评价做好准备。目前网页的索引是依据词频和位置等权重信息而建立的,形成索引库。图2的下半部分,左边是用户注册信息的搜集模块,在此基础上,进行实体信息的概念扩展,提取用户实体信息补充词典,并形成实体信息库entity_info.db,为每个注册实体保存实体的属性信息。图2的中间是网页评价模块,该模块依据网页表示库、实体信息库和实体描述模板,过滤出包含注册实体的网页,根据网页信息和实体属性为每个实体的相关网页进行相关度评价,得到网页评分文件,进而再处理得到网页评分库。图 2天网知名度系统流程2.4.2 天网知名度系统结构及模块分布天网知名度系统是一个集网页收集、网页存储、网页索引、网页分析、网页评价、用户注册、查询扩展、用户检索、结果提交等多个模块为一体的实体网页个性化检索服务系统。按照功能划分,分为以下四组模块:(1) 用户界面模块用户界面是用户与系统的交互界面,是对用户进行管理和服务的主要途径。天网知名度系统的界面设计坚持以用户为中心的原则,提供简洁、方便、高效的使用方式,满足用户个性化信息服务的需求。(2) 用户注册用户注册部分包括新用户注册和用户实体注册两部分。新用户注册即用户向系统提交用户名、密码、邮件等信息,经系统确认后即可成为合法用户。用户名是区别不同用户的唯一标志,每个用户的资料将自动存入系统的用户信息库,成为系统服务的对象,其中用户的邮件地址是系统向用户提供主动信息服务的主要依据。注册后的系统用户可以进一步向系统提交所关注实体的有关资料。对于名人实体,可以提供名人所在的领域、名人的姓名、名人所在的工作单位、名人的主要职业、名人的社会兼职、名人的社会形象、用户关心的特征词以及名人的代表作等信息(其中名人的姓名不能为空),同时选择以上各类属性信息与所需要网页内容的相关程度,可以选择特别重要、重要、一般等三个级别(缺省为一般级别),作为网页相关度评价的依据。提交的方式可以通过网上提交、邮件提交或者填写纸质表格等形式。网上提交的界面如图3。图 3用户注册界面由于汉字总量的限制,特别是中文姓名用字的特征限制,网页中名人的重名现象时有发生,天网知名度系统针对实体的设计,可以有效的解决重名问题,使得同一姓名的不同名人可以根据其有关属性予以区别,并且对于同一名人对象,可以根据用户感兴趣的不同属性信息予以区别。(3) 用户检索用户检索是天网知名度系统提供用户服务的主要方式。已注册的用户可以通过登录系统,选择其所注册的实体进行相关网页的查询。用户首先进入登陆界面,输入正确的用户名和密码信息后,系统给出用户注册的实体列表,如图4所示,其中有关于每个注册实体的全部相关网页信息、已读相关网页信息、未读相关网页信息以及实体的属性信息等方面的链接。实体属性信息是注册用户对其目标实体的属性描述信息,显示实体的属性信息有利于用户对网页内容相关性的理解和判断。点击有关实体相应的网页信息链接,就可以得到与注册实体相关网页的列表。用户可以选择察看全部的相关网页列表、已读的相关网页列表或者未读的相关网页列表。未读的相关网页列表中列出用户目前还未阅读的网页列表,即对用户来说是新网页。用户一旦点击某个URL,该网页就转为已读的相关网页列表,并且已读网页和未读网页的数量标志也是动态修改的。这种界面设计便于用户直接快速地得到有关实体目前还未知的网页信息。图 4用户检索界面实体信息列表对于网页列表,用户可以选择以不同标准来排序网页列表,也可以改变每页显示网页列表的条数为10、20、30或40等,以满足各自特殊的需求,浏览界面如图5所示。目前天网知名度系统提供的网页排序功能有:l 按照基于信息提取的网页相关度评价模型,以每个网页相对其中实体的相关度分值进行排序。l 按照基于组合向量空间的网页相关度评价模型,以每个网页对于其中实体的相关度分值进行排序。l 以所选的相关度评价模型所得到的网页列表为基础,以每个网页更新时间的先后进行排序。图 5用户检索界面实体相关网页排序网页列表中的摘要是动态生成的,即每个网页对于不同实体来说是不同的,系统根据实体属性动态地从网页中找出与其相关的部分,生成摘要,同时对实体名称进行标亮处理。网页列表中的历史网页对应的是天网知名度系统的原始网页库,其中对实体名称做了标亮处理,方便了用户的快速查询。由于系统的目标是对网页中的文字内容进行评价,为简单起见,原始网页库中不保存图片,其中的图片和链接,仍采用相对路径表示。(4) 指定文本内容的评价系统对网页的搜集一般不能覆盖全部的中文网页,另外系统对网页的搜集、分析、处理有一定的延时性,因此为了保证系统的完整性和及时性,天网知名度系统允许用户提交新网页的URL地址,以完成指定网页的及时评价工作。系统根据用户提交的URL,调用网页抓取模块进行网页搜集,将搜集来的网页并入网页库,对网页进行分析处理、增量索引,然后调用网页相关度评价模块、网页褒贬性评价模块完成该网页针对其中有关注册实体的评价工作,更新相应的评分库,为用户提供指定网页的评价服务。这样,可以增强系统的完备性,另外,对于用户需求的网页评价检索,不必要等待系统的下一个工作周期,只要向系统提交网页的URL地址,如果该网页存在并且其中出现有用户已注册的实体名称,用户就可以及时地在用户搜索界面看到该网页的相关度评价结果和褒贬性评价结果。另外,天网知名度系统还可以接收普通纯文本文件,实现对文本文件内容的相关度评价和褒贬性评价。如果用户关注的实体描述内容没有以网页的形式出现,这时用户可以向系统提交有关的文本文件,系统则对该文件加上相应的网页头信息,把文本文件转化为固定格式的网页表示(其中文本的HTML标记均设定为BODY),然后对文本文件中的内容进行分析、索引以及相关度评价和褒贬性评价,将评价的结果并入网页评分库。这样,用户就可以在浏览界面的网页列表中看到对该文件中有关实体的评价信息,网页地址部分显示的是该文件的文件名。指定文本内容的评价接口为后续的褒贬评价实验提供了方便。(5) 主动推送服务用户信息推送技术(Push)是在网络信息资源急剧膨胀的情况下应运而生的,它不同于传统的信息浏览方式。浏览查询是用户向Web发出请求,Web检索后将满足用户需求的结果返回用户,用户需要拉取(Pull)信息;而推送技术只需要用户在初次使用时提供自己所需的信息,此后Web就定期或定量将定制的信息发送给用户,信息被主动推送到用户。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年中国坚果礼盒行业市场全景分析及前景机遇研判报告
- 2025-2030年中国PLUS模块行业深度研究分析报告
- 中国剪切板行业市场调查研究及投资潜力预测报告
- 家具工艺培训课件
- 2024年全球及中国食品和饮料软管行业头部企业市场占有率及排名调研报告
- 2025年 化工自动化控制仪表操作证考试练习题附答案
- 2025年 国科大附属学校招聘教师考试试题附答案
- 2024年中国功能性涂布胶膜行业调查报告
- 2025年中国塑合行业市场发展前景及发展趋势与投资战略研究报告
- 2020-2025年中国鼓风机行业发展趋势及投资前景预测报告
- 2024-2025学年初中英语七年级下册期末考试综合测试卷及参考答案
- 四川电网新建电源并网服务指南(2025年)
- 2024北森图表分析题库
- 事故隐患内部报告奖励制度
- 医院培训课件:《紧急情况下口头医嘱制度与执行流程》
- 北京市东城区名校2024年八年级物理第二学期期末质量检测试题及答案解析
- JBT 11699-2013 高处作业吊篮安装、拆卸、使用技术规程
- KTV工程预算表模板
- 园林绿化单位(子单位)工程质量竣工验收报告
- 人教版八年级美术下册纹样与生活第二课时设计纹样
- 杨式40式太极拳拳谱招式名称与动作详解
评论
0/150
提交评论