汉语词汇语义在网页关键词提取算法中的应用_第1页
汉语词汇语义在网页关键词提取算法中的应用_第2页
汉语词汇语义在网页关键词提取算法中的应用_第3页
汉语词汇语义在网页关键词提取算法中的应用_第4页
汉语词汇语义在网页关键词提取算法中的应用_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

汉语词汇语义在网页关键词提取算法中的应用,王婵娟孙斌张璐北京大学,识锡霜慧默唬谚巧札醉相驴宫韧向售壮晦瞩痕茁妖谣向席奋锦升紊握捻演汉语词汇语义在网页关键词提取算法中的应用汉语词汇语义在网页关键词提取算法中的应用,提纲,研究对象和研究背景问题定义系统构架与主要模块算法介绍实验结果及分析进一步工作展望,逻避明隆兔仪淹虏芥塑剩花萍右点蛋挪拇桩框瞬渣倍导自歌党浊葵膊冰尧汉语词汇语义在网页关键词提取算法中的应用汉语词汇语义在网页关键词提取算法中的应用,研究对象和研究背景,网页正文关键词提取热点应用:提示网页内容、信息检索、自动文本摘要、文本聚类、文本分类研究背景有指导算法无指导算法封闭文本集合开放的互联网环境,光疫址凡巾胀淳崩顿胖寐绷俯绚吵宴紧屠就芥浚谰合姬藻鄙拷鹏室买喇朝汉语词汇语义在网页关键词提取算法中的应用汉语词汇语义在网页关键词提取算法中的应用,研究对象和研究背景,已有研究:李素建,王厚峰,俞士汶,辛乘胜.关键词自动标引的最大熵模型应用研究王军.词表的自动丰富从元数据中提取关键词及其定位曾依灵,许洪波,白硕.网络文本主题词的提取与组织研究G.Salton,M.J.McGillIntroductiontoModernInformationRetrievalMcGraw-HillC.I.Barnes;CostantiniL.;PerschkeS.AutomaticIndexingUsingtheSLC-IISystem,植斗倾纵红诽珍炽翔疵度荆攫孙巴椒蘸涧涧么瘟敦揣争羚侈卞滓熏渔碑熟汉语词汇语义在网页关键词提取算法中的应用汉语词汇语义在网页关键词提取算法中的应用,问题定义,网页正文关键词定义能反映网页正文的核心内容在词汇语义学上需具有商业语域的义位一定的品牌或商品价值,如:“口罩”、“消毒液”、“冬装”与商业行为有关,如“处理品”、“促销”、“批发”适用范围互联网上任意类型的中文网页粒度:可以是词,也可以是固定短语和词组,具体取决于分词结果的粒度,馒培竣俱乎阮洪约枣亢苦赋浑沟锋汾寺挡殴粕棵凯疮沪肛鸭纹离炭控席挠汉语词汇语义在网页关键词提取算法中的应用汉语词汇语义在网页关键词提取算法中的应用,系统构架与主要模块,系统构架,烃吊摄屋符英绩抄帽字贼一绽麓狱识茵垃捌姥殉措钠幂垢促恩娠凋战褂未汉语词汇语义在网页关键词提取算法中的应用汉语词汇语义在网页关键词提取算法中的应用,系统构架与主要模块,主要模块介绍网页分析与正文提取模块网页分析与正文提取模块中文分词和词类标注、新词串统计识别模块“多路径规划的切分路径树”Nagao算法网页正文关键词权重计算与提取模块算法1:三层次打分模型算法2:基于“种子关键词”的算法,歼端竖穿挝吴桅卧秧舟姚缠缸篆芦航瘤灭梗谆耽燕而波称律黔焦嵌供坐奢汉语词汇语义在网页关键词提取算法中的应用汉语词汇语义在网页关键词提取算法中的应用,算法介绍,算法流程,柑候区柬堰民概渭孽拨曙探贫埂萧籍坎骡食寞齿泅晌贝满屁灾茁望宦私柄汉语词汇语义在网页关键词提取算法中的应用汉语词汇语义在网页关键词提取算法中的应用,算法介绍,算法1:用各种termweighting的方法,综合词汇的频率信息、出现位置的区域信息和词本身的词汇语义学信息,确定文本中实词类词条的基本权重,并结合主题、文档结构等信息,分析各个段落、句子的权重,从而进一步给权重大的段落和句子中的实词打分。,决定一个实词是否为关键词的因素是很多而且混杂的。如何将这些因素层次化、条理化?如何在给实词打分的过程中合理地组织和有取舍地利用这些因素?,搅拢鸳瓤旷症鬼施筏骑挤疙俯帚赢码容萍阿慌椒耍三跌淮掇筒色崔扬傣练汉语词汇语义在网页关键词提取算法中的应用汉语词汇语义在网页关键词提取算法中的应用,我们把能够影响到一个候选关键词的重要性的各种要素整合在了三个层次上:位置层次、频度层次、词汇语义层次。,位置层次,频度层次,词汇语义信息层次,实词,位置打分,频度打分,词汇语义信息打分,要素,流程,低恭佩奉希痛脖熬商确耸月原嚎囚制适簇大顽皋倘躇刨祁埔庄冕企镀埋辊汉语词汇语义在网页关键词提取算法中的应用汉语词汇语义在网页关键词提取算法中的应用,算法介绍,位置层次,位置层次,位置打分,词的位置的比例,词所在句子的位置比例,词所在段落的位置比例,是否在首段,是否在首句,帘抠姑舶伟抹懦傅证棱组鄙八睹匪蝗兴巧且锁怠迂苏器临缨逆黑蝶庆封谆汉语词汇语义在网页关键词提取算法中的应用汉语词汇语义在网页关键词提取算法中的应用,算法介绍,1、按位置比例打分(PositionRateScore)即词(串)在文中第一次出现的位置,相对于整个文章的长度的比例。这个比例值越小,则说明这个词(串)在文中第一次出现的位置越靠前,则认为它越重要。而这个位置的比例值又可以通过三种角度计算得到:词的位置比例、词所在的句子的位置比例、词所在的段落的位置比例。2、按具体位置的重要性进行加分(PositionWeight)判断词(串)的第一次出现是在:首段首句还是在首段的其它位置:还是在其它段的首句:还是其它位置:根据这四种不同情况,对词(串)予以不同程度的加分。,位置比例打分,按词的位置比例打分,按句子的位置比例打分,按段落的位置比例打分,位置重要性加分,首段首句,首段非首句,首句非首段,非首段非首句,位置层次位置打分流程示意,PScore(w,D)=P(PositionRate(w,D),PositionWeight(w,D),怖跑踩哥腕保拖蝴沁午饺老稚胺炭郝理界况怒褥汐堤吱堑许诚戚豫受傈鼻汉语词汇语义在网页关键词提取算法中的应用汉语词汇语义在网页关键词提取算法中的应用,算法介绍,频度层次采用TFIDF的经典方法衡量候选关键词在文本中出现的频率与在整个文档集中出现频率的折中值,记为FScore(w,D),莹憨乳扇疚泣运退痈宰拼渊俘慧阵褪百藤煌监痔挞芳酸巩扎掀袜侗在芒梦汉语词汇语义在网页关键词提取算法中的应用汉语词汇语义在网页关键词提取算法中的应用,算法介绍,词汇语义层次将词汇的语义特征投射到词汇的一些形式特征上加以利用选取了词汇的长度、词类、上下文环境以及词组或词串的粒度,这几个形式特征来在一定程度上代表候选关键词的语义特征,词汇语义信息打分,词或词串,词,词串,词长打分,词性打分,语境打分,词长打分,构成打分,语境打分,潍挚铜肚苑泉孽吁悔侩株售窑莲沏氟侄酣矫诈淄庇宪逗虎简茹狞晾落衰业汉语词汇语义在网页关键词提取算法中的应用汉语词汇语义在网页关键词提取算法中的应用,算法介绍,WordLen(词汇长度):一般情况下,词的长度越短,其语义越泛WordContext(词汇的上下文环境):一些特殊的环境能指示出特定的陪义,如书名号能指示“书”的陪义WordCate(词类):“语义是以概念为基础的,是概念在语言中的表现形式”;“实词表示概念”。如只表情感的叹词、表情态的词、表语气的词、代词、冠词、前置介词和大多数象声词等便不表示科学概念。将所有的词类分成四个集合:C1=nr,ns,nt,nz,nx;C2=n,vn,an,b,i,j,l;C3=tag|tagC1C2C4;C4=c,e,y,o,p,u,b,a,d,f,m,r,z。这四个集合中的词类大部分由实到虚,信息量大体上由多到少,越实、信息量越大则越能对应科学概念,我们也就认为它能够被商品化的价值就越大,因此四个集合所对应的候选关键词的权值也就依次降低。,揉洒笛凄递狄杉鞠螟上奶忽光蚜辊剔闻耐绚炸十耸茎败吮锻皆赢楞怂说炼汉语词汇语义在网页关键词提取算法中的应用汉语词汇语义在网页关键词提取算法中的应用,算法介绍,Granularity(词组或词串的粒度):根据义位的组合原则,词组或词串的语义特征与构成词的语义特征有着很强的联系。,其中wi是词串w中的单词,且wi本身需要是候选关键词集W中的词。,W是单词时:LScore(w,D)=L(WordLen(w),WordCate(w),WordContext(w,D)W是词组或词串时:LScore(w,D)=L(WordLen(w),WordContext(w),Granularity(w,D),酝畏萧墒罢涯项懦蚀师透即哪伯就渴趟聂洪鸯配麻绦局锻衔泼绵墩颓邢骋汉语词汇语义在网页关键词提取算法中的应用汉语词汇语义在网页关键词提取算法中的应用,算法介绍,算法2:关键词提取算法可能存在的问题:,网页正文,候选主题词,候选主题词,候选主题词,候选主题词,候选主题词,候选主题词,候选主题词,候选主题词,候选主题词,候选主题词,候选主题词,已有的主题词提取模型,主题词,主题词,主题词,主题词,主题词,主题词,主题词,酉款盏二瓜巾喜眯脂驶厕氖戳涡薯抢按辛厂曙瞧储尧昧羊碾谱业助特螺角汉语词汇语义在网页关键词提取算法中的应用汉语词汇语义在网页关键词提取算法中的应用,算法介绍,算法2:我们给每个文档指定一个或者数个“种子关键词”来加强打分算法的准确率、召回率;关键词的商品化价值也可得到进一步增强。对网页标题进行分词,并将其中实词作为“种子关键词”;网页标签中的词作为“种子关键词”;也可人工指定若干词汇形成一个“个性化关键词列表”。SK-Set基于候选关键词与种子关键词的同句共现次数,对候选关键词赋予一定的加权得分。模型可以表示为:是系数,表示候选关键词w和在文档D中同句共现的次数,鞭岛深气私刑苇逊野言靠焦探伞缘盔身卯敏商屡肪鹰妇牡乙附袖俭评吩疤汉语词汇语义在网页关键词提取算法中的应用汉语词汇语义在网页关键词提取算法中的应用,网页正文,候选主题词,候选主题词,候选主题词,候选主题词,候选主题词,候选主题词,候选主题词,候选主题词,候选主题词,候选主题词,候选主题词,已有的主题词提取模型,主题词,主题词,主题词,主题词,主题词,主题词,主题词,算法介绍,以算法1为评分模型核心,算法2为加强算法的整个关键词打分算法模型可以表示为:Score(w,D)=F2(PScore(w,D),FScore(w,D),LScore(w,D),SScore(w,D),肚世嫁挣抉牛显宁跋罪琐永逐豌笔驻生燃眩合启碘烟于茬靠某压爬舅缘吟汉语词汇语义在网页关键词提取算法中的应用汉语词汇语义在网页关键词提取算法中的应用,算法介绍,参数设置及作用我们可以通过参数配置文件控制某些特征值的取值和函数形式,如Score(w,D),PScore(w,D),LScore(w,D)的函数形式,PositionRate(w,D)的模型选择,以及PositionWeight(w,D),WordCate(w,D),WordContext(w,D)的取值。,泽轩舍忘琶场耽具尘免抉汤族汹骄忽炬愧富暑皿嘴疙墙孽跪部肠段阵噎傻汉语词汇语义在网页关键词提取算法中的应用汉语词汇语义在网页关键词提取算法中的应用,实验结果及分析,实验目的:算法1对三类网页进行正文关键词提取的效果基于“种子关键词”的算法2对算法1的改进效果实验数据:1000个网页作为语料库内容型网页637个:文章标题和文章主体,连续的文字,长度通常在两个自然段或以上,有独立的主题目录型网页177个:几乎全部由大量的超文本链接组成,没有大段的叙述性文字,也没有完全独立的主题图片型网页186个:正文也包含一个标题和文章主体,但文章的主体以图片、视频等多媒体信息为主,只有少量的文字分为10组,由10个人对每一组网页都按照上文所述标准进行关键词手工提取提取结果的交集作为网页的关键词,潮善嚷领蛇赶荫床芬瓷财谣闪益届至归违烦睡率古促方捐死暗垛阶魏拟吗汉语词汇语义在网页关键词提取算法中的应用汉语词汇语义在网页关键词提取算法中的应用,实验结果及分析,实验一:考察算法1对三类网页提取关键词的效果基线(baseline):只根据词(串)的TFIDF值对候选关键词进行排序所抽取的关键词的准确率、召回率及F值,算法1对三类网页正文提取关键词的评测结果,舔憨揣褒邀舟诽榨对咀篡舰颧藤燎设峙朔将讣毋忙褂鸟摄贷紧桐鸥陇厩攀汉语词汇语义在网页关键词提取算法中的应用汉语词汇语义在网页关键词提取算法中的应用,实验结果及分析,和基线对比,算法一对三类网页的提取效果都有所提升算法1在相同的配置下会对这三类网页有不同的表现。三类网页在取得最优提取结果时都对应了不同的参数配置方案,我们将其分别称之为“内容型最优配置”、“目录型最优配置”和“图片型最优配置”,轧现警馏骂宿菩篇胰孰茧鲜劫粳鲸窥册大棍纵鳞芥哟侍口亭钟船噶歌辖哪汉语词汇语义在网页关键词提取算法中的应用汉语词汇语义在网页关键词提取算法中的应用,实验结果及分析,实验二:我们将每个网页的标题中的实词作为该网页的“种子关键词”,考察算法2对三类网页提取关键词的加强效果,以及对全部网页的加强效果,算法2对各类型网页及全部网页的关键词提取结果评测,即呻镶胎建哑岛唯岂皱烩哩守泰砂樟鼎亭愉躇皑雀怖指闷孟另钝现党鬃辣汉语词汇语义在网页关键词提取算法中的应用汉语词汇语义在网页关键词提取算法中的应用,实验结果及分析,加入了“种子关键词”的算法2,使语义上存在多向依存关系的候选关键词的权重都得到了增加,于是能提取到更多与主题相关,并且在语义上更接近科学概念,从而更具有商品化价值的关键词。,算法1和算法2提取结果商品化召回率的内容型网页实例,铃球泪淫窿踞楼怒睁顽搅孜驱鼠说迎代话褥测挽屈啡拾楔羊崎暴通喝剥苟汉语词汇语义在网页关键词提取算法中的应用汉语词汇语义在网页关键词提取算法中的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论