中文网页褒贬态度的机器评价_第1页
中文网页褒贬态度的机器评价_第2页
中文网页褒贬态度的机器评价_第3页
中文网页褒贬态度的机器评价_第4页
中文网页褒贬态度的机器评价_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文网页褒贬态度的机器评价天网知名度系统基础:天网搜索引擎,计算语言学技术

定位:用户定制查询,个性化网络检索服务

数据:75万中文网页,近300个名人实体注册实体信息库所在的领域政府,科教,文学,业界,媒体,歌星,音乐,影视,体育,艺术(共10类)名字包括别名、笔名、艺名等潜在可能代表实体的名字所在工作单位例如,北京大学职业描述例如,主席、书记、教授、记者、演员兼职单位可以有多个社会形象例如,国学大师,环保大使特征词用户关心的特征描述代表作著作名、作品名、产品名等引言天网知名度系统

网页观察-机器评价视角下看中文网页类型

项目延伸-网页褒贬态度的机器评价

本实验的研究内容及意义

网页观察-机器评价视角下

看中文网页类型强文字相关的信息类网页

例如:个人简历型网页

弱文字相关的事件或事物展开型网页

例如:事件报道,节目单引言天网知名度系统

网页观察-机器评价视角下看中文网页类型

项目延伸-网页褒贬态度的机器评价

本实验的研究内容及意义

项目延伸-网页褒贬态度的机器评价网页是传递信息的。

从效果上看,人们通过构建网页来传递信息,也可以进而表达态度和传递情感——即,网页所包涵的褒贬态度信息。网页褒贬评价关系分析图

网页机器读者语言实体语言实体语言实体构造认知评价解析评价认知认知评价解读网页内容作者引言天网知名度系统

网页观察-机器评价视角下看中文网页类型

项目延伸-网页褒贬态度的机器评价

本实验的研究内容及意义

本实验的研究内容及意义

——项目延续符合天网知名度系统个性化网络服务的立意

可以利用已有的数据基础和实验平台

此项实验具有研究和实验展开的可延续性本实验的研究内容及意义

——语言基础网络是重要的信息传播媒介。

现实网页中的褒贬态度表达往往含有明确的目标、动机和效果期望,因此构造者会很重视语言知识这个交流手段。

网页中的褒贬态度表达也就是一个典型的修辞行为,所以实验可以充分利用修辞学的理论成果,具有理论指导基础。本实验的研究内容及意义

——创新价值从语言学角度看,修辞涉及语言的附加意义,这区别于概念意义。因而此项实验具有丰富创新性研究价值。

中文网页褒贬态度的机器评价引言

相关工作与工作基础

网页褒贬态度评价模块

实验结果及展望相关工作与工作基础语言手段

评价规范及标准

资源准备

系统基础实验考察实验考察语言手段词语手段句式手段修辞手段评价规范及标准实验考察与实验资源的对应分布

实验考察实验相关词褒义词基础褒贬义词典贬义词短语固定短语不固定短语褒贬评价结构模板句式陈述句感叹句辞格比喻等意义辞格词典部分覆盖评价排比等形式辞格形式累计修辞标准和规范主观标准褒贬评价原则领域标准领域补充褒贬义词集相关工作与工作基础语言手段

评价规范及标准

资源准备

系统基础资源准备

基础褒贬义词典

典型网页文本搜集

领域补充褒贬义词集

褒贬评价模板搜集

基础褒贬义词典《常用褒贬义词语详解词典》静态褒义、贬义词语,包括双音词,成语,惯用语,以及少数谦辞、敬辞。每个词条包括三部分内容:褒贬色彩,词性,释义,例句等;提示,重叠形式,同义解析等;近义,反义等。仅选取了每个条目中的两项信息,例如(诚挚 +)和(草率 -),生成了褒贬评价系统使用的褒贬义电子词典。

典型网页文本搜集季老先生一生勤勉,一生谦和,著作等身,桃李满门。她不像倪萍身材高挑、浓眉大眼,也不像周涛那样一副典型的中央台“国标”播音员的风韵。李保田修养全面,热爱艺术,在表演上精益求精,是影视界优秀的表演艺术家之一。李晓华把握商机和适当冒险的精神的确有其过人之处。因此,孙楠的反抗不仅是肤浅的,而且是狭隘的。曹颖从外表上看更显单薄、弱小。她不像倪萍身材高挑、浓眉大眼,也不像周涛那样一副典型的中央台“国标”播音员的风韵。周涛虽然很红,可她太四平八稳,真诚,质朴有余,而灵动,幽默不够。我喜欢施翌,她清新自然,毫不做作,宛如一位邻家学姐在带着露珠的清晨为你讲述一切美好的东西,让你一整天都感受到温暖和喜悦。第二声感叹便是杨晨了,他带伤上场并奋勇顶进反超的关键一球,职业球员的风采夺目照人。米色职业装,极富亲和力的熟悉的微笑,标志性的招手——王小丫来了。而似乎侧重防守的马儿在防守时也未尽心。典型网页文本示例赵宝刚点评当红明星2001年05月10日09:48:15

北京晨报邱俪华王志文:《过把瘾》之后沉寂了一段时间。从他这两年出的两部戏可以看出,这段时间他没浪费,磨出了更深的功力。他是一定能成艺术家的那类人。

江珊:《过把瘾》之后有五年都没接到好角色,她是个很适合演普通百姓的演员,不能太“贵族”了,那样看着不像她,观众也接受不了。

陆毅:千万别“吃”形象,形象早晚会“吃完”,到时就得靠功力了。如果他能不断演些富有挑战性的角色而不是重复过去,将来走到哪里都不怕。

周迅:形象也好,气质也好,她是我非常欣赏的那类演员。她在《像雾像雨又像风》里演的杜心雨,这个人物在文学上很不成功,对演员来说简直没法演,可周迅就能让她“站”起来。

徐静蕾:她的文化修养在同龄的女演员里特别突出,这给她的表演打了很好的底子。可有文化的不一定成得了好演员,而好演员可以没文化。出于性格的原因,她表演起来很冷静,不会太投入。再磨一段时间,相信到了火候她就能提高。

陈宝国:他是“老来瘦”,虽说添了“褶子”,可身梁还在,他是能演一辈子戏的人,看看《大宅门》就知道。

葛优:在我的《编辑部的故事》之后也沉寂了一段时间,后来演了《活着》,又演了冯小刚的几部贺岁剧,又火了。他是个可塑性很强的演员,虽说外形让人觉得是“演配角的命”,可别让他逮着机会,逮着了就能火。领域补充褒贬义词集样例词语褒贬含义出现领域修饰内容著作等身,桃李满门,创新+科教科教专家悠远、磁性、高亢+音乐嗓音尽心、团结+运动足球运动员出口成章、机敏、灵+媒体主持人风格四平八稳-媒体主持人风格入木三分、活生生+影视演员演技俊秀、俊逸、活力+影视演员外形感染力、理智、沉稳+媒体主持人风格最佳、绝佳、一流、不俗+影视演员演技楚楚动人、温婉+媒体主持人外形褒贬评价模板搜集样例a+的+entity楚楚动人的小丫Entity+n+a这姑娘脑袋灵n+的丧失诚信的丧失不a不心浮气燥不乏n不乏可圈可点之处未a而似乎侧重防守的马儿在防守时也未尽心n不够灵活性不够极富n极富亲和力的熟悉的微笑勇于v勇于开拓前进N+entity美女曹颖相关工作与工作基础语言手段

评价规范及标准

资源准备

系统基础天网知名度系统天网知名度系统模块浏览用户界面模块

用户注册用户检索指定文本内容的评价主动推送服务网页分析与索引模块用户信息维护模块网页相关度评价模块中文网页褒贬态度的机器评价引言

相关工作与工作基础

网页褒贬态度评价模块

实验结果及展望网页褒贬态度评价模块数据需求

设计思想

模块设计

数据需求网页URL地址网页长度(按词计)网页词串词的词性标注串词的HTML标记串网页中人名列表网页中职务列表网页中企业或机构名列表网页中人名—单位关系列表网页中人名—职务关系列表网页表示库数据需求所在的领域共计10类,政府,科教,文学,业界,媒体,歌星,音乐,影视,体育,艺术名字包括别名、笔名、艺名等潜在可能代表实体的名字所在工作单位例如,北京大学职业描述例如,主席、书记、教授、记者、演员兼职单位可以有多个社会形象例如,国学大师,环保大使特征词用户关心的特征描述代表作著作名、作品名、产品名等实体信息库设计思想语言手段是基础

话题的实体有关性

针对领域标准的褒贬评价

获得当前网页的全部人名、词串、词性标注串取下一个人名成功取下一个候选实体跳至该实体出现的第一句的句首针对当前实体所属领域处理,扫描后面的褒贬评价,跳过任何其他实体的相关评价,得分输出至得分向量,各具体评价单位也加入到系统中该实体的评价记录中成功输出当前网页的全部实体的褒贬评价得分出现新实体名跳至该实体出现的下一个位置获得此人名相关的全部注册实体,加入该网页的实体向量,并生成对应实体的得分向量不成功成功是否注:网页褒贬评价流程图

褒贬结构要素模板褒+中0贬-指标*未登录A(不)(不是)(少了)(没了)(未能)(未)(没能)(没有)(决不)-100-10B(丧失)(缺乏)-10×-1-1C(富有)(善于)(富于)(富)(极富)+2+1―2+1+1D(不乏)(具备)(具有)(有)+10-1+10E(的缺失)(的丧失)(不够)-1-1×-1-1AA=F(不是不)(没有不)~00000AC=G(不善于)(不富于)~-1-1+1-10AD=H(不具备)(不具有)~-100-10褒贬结构识别模板表达式U=A+PU=B+PU=C+PU=D+PU=A+A+P=F+PU=A+C+P=G+PU=A+D+P=H+PU=PU=P+EC=“和”|“与”|“,”|“、”|“且”P=W{+C+W2}关键结构Pp结构是褒贬结构的基本组成部分

识别策略是:使得由链接词语链接在一起的词序列中不允许出现褒贬互逆,同时需要满足,仅当词语本身具有褒贬含义,或者W本身不在褒贬词典中但该序列中其他词语有褒贬含义,此时才形成合法的P,同时把未在褒贬词典中出现但出现在结构中的这个词语抽取出来,并依照此序列中的已有褒贬含义按照一致性原则猜测,把这个未登录词语纪录为未证褒贬词语。

注:考虑到褒贬评价的领域性,这里的未证褒贬词语也是根据领域来分别记录的。中文网页褒贬态度的机器评价引言

相关工作与工作基础

网页褒贬态度评价模块

实验结果及展望实验结果及展望成批网页褒贬评价结果浏览

7

指定内容褒贬评价浏览

7/test.htm结果浏览示例实体实体编号实体姓名实体领域所属用户21吴仪政府hi1072王玮业界hi3573俞士汶科教hi3685白春礼科教hi42117吴伯萧文学hi58

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论