




已阅读5页,还剩26页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
学位论文使用授权书本学位论文作者完全了解东北师范大学有关保留、使用学位论文的规定,即:东北师范大学有权保留并向国家有关部门或机构送交学位论文的复印件和电子版,允许论文被查阅和借阅。本人授权东北师范大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或其它复制手段保存、汇编本学位论文。学位论文作者毕业后去向:工作单位:通讯地址:电话:邮编:摘要展和普及,“检索 已经成为人们生活中的一部分。互联网已一起,如何从浩瀚的信息海洋中找到自己想要的东西呢,答案统中,对于学术研究最有用的当属文献检索了,但是当前的文能进行关键字匹配的检索,抓不住用户的兴趣,如果检索系统趣,就可以使用户在一次又一次的检索中会发现自己想要的文序的最前面,肯定大大方便了用户,使其对所使用的检索系统大家赞赏并决定长期使用,这无论对用户还是检索平台都是大有益处的。本着以上的思想,本小组开始制作这样一个检索系统,它能通过用户的检索行为来获取用户的兴趣,并将兴趣相似的用户组成用户组,以方便用户的交流,共享资源。本文讨论的是我们小组所做的检索系统中的基础部分,包括文本预处理,对文本向量进行聚类构建系统底层部分。本人的工作具体是完成了文本处理程序可以对文献进行预处理,它可以将分词后的文本转化为向量;可以对题目,关键词,摘要加权,并调整其权重;可以按词性提取特征;完成对其停用词表的控制;程序可以生成文档频数,t f i d f 的特征向量,支持向量机的特征向量等多种特征向量。并且在随后聚类试验中,改进a p ( a f f i n i t yp r o p a g a t i o nc l u s t e r i n g ) 聚类,使其获得更好的聚类结果。a p 聚类有一个优点,就是如果使用者不知道数据的类数,不用指定类数也可以很好的进行分类,但是有时侯我们知道类数,那么我们怎么能提高分类的效果昵? 本篇论文提出了一种改进的a p 聚类算法来处理这种情况。当你知道数据类数的时候,可以指定a p 最终聚成的类数。实验也表明了,它不低于原a p 聚类算法的效果关键词:信息检索;特征提取;文本聚类;改进的a p 聚类算法a b s t r a c tw i t ht h ed e v e l o p i n ga n dd i s s e m i n a t i o no ft h ei n t e r n e t , r e t r i e v a l h a sb e c o m eap a r to fd a i l yl i v e i n t e r a c tj o i n sa l lo v e rt h ew o r l dt o g e t h e r , b u th o wc a i lw ef m dw h a tw en e e d ? 1 1 1 ea n s w e ri sr e t r i e v a l l i t e r a t u r er e t r i e v a li sm o s tu s e f u l n e s sf o rr e s e a r c h e r si nm a n yr e t r i e v a ls y s t e m s b u tn o wm o s tr e t r i e v a ls y s t e m sc a no n l yh a v er e t r i e v a lt e c h n i q u eo nm a t c h i n go fk e y w o r d s ,b u ti tc a n tg e tt h ei n t e r e s t so ft h eu s e r s i ft h es y s t e mc a ng e tt h e m ,i tw i l lb ec o n v e n i e n tf o rt h eu s e r s ,b e c a u s ei tc a l lp u tt h ei n t e r e s t e dl i t e r a t u r e si nt h eh c a d o u rt e a m sh a v es t a r t e dt od e s i g nas y s t e mw h i c hc a ng e tt h ei n t e r e s t sb yt h eb e h a v i o r so ft h eu s e r s ,a n dc o m p o s et h eu s e rw h o s ei n t e r e s t sa r es i m i l a rt oau s e rg r o u p s ot h e yc a ne x c h a n g ea n ds h a r i n gi fr e s o u r c e s t h ep a p e rd i s c u s s e st h eb a s i cp a r to ft h er e t r i e v a ls y s t e mw h i c ho u rt e a md e s i g n s ,m yw o r kc o n t a i n st e x tp r o c e s s i n g ,c l u s t e r i n g ic o m p l e t et h ep r o c e s sw h i c hc a nc o n v e r tt h ew o r d st ov e c t o r s i tc a l lc o n t r o lt h es t o pw o r dl i s t ,g e n e r a t ev e c t o r ia l s oi m p r o v et h ea pc l u s t e r a f f i n i t yp r o p a g a t i o n ( a p ) c l u s t e r i n gh a so n ea d v a n t a g e :i fy o ud o n tk n o wt h en u m b e ro fc l u s t e r s ,y o uh a v en ou s ef o rs p e c i f y i n gt h en u m b e ro fc l u s t e r s s o m e t i m e s ,w ek n o wt h en u m b e ro fc l u s t e r s ,h o wc a nw eu s et h i st oi m p r o v eq u a l i t yo fa pc l u s t e r i n gr e s u l t s t h i sp a p e rp r o p o s e sa l li m p r o v e da pm e t h o dt od e a lw i t h s u c hc i t e s i nc o m p a r i s o nt oa p , t h ei m p r o v e da ph a sb e t t e rp e r f o r m a n c eo nt h ed a t as e t sw h o s ec l u s t e r sn u m b e rw eh a v ek n o w n e x p e r i m e n t a lr e s u l t ss h o wt h a tt h ei m p r o v e da pi se f f e c t i v ea n di t sq u a l i t yo fr e s u l t si sb e t t e rt h a no re q u a lt ot h a to f a pc l u s t e r i n g k e y w o r d s :i n f o r m a t i o nr e t r i e v a l ;f e a t u r ee x t r a c t i o n ;t e x tc l u s t e r i n g ;i m p r o v e da pc l u s t e r i n gi i目录摘要ia b s t r a c t i i弓i言;1ii i川i 川川川川川川川川1第l 章绪论21 1选题背景21 2国内外发展趋势21 3聚类工作的意义4第2 章词性与位置权重结合的特征提取方法62 1中图分类号。62 2数据库。62 3分词。72 4停用词82 5文献处理词性与位置权重82 6t f - i d f 。1 02 7程序功能实现l o第3 章聚类实验o 1 53 1a p 聚类算法1 53 2改进的a p 聚类算法163 3实验1 7第4 章总结与展望。参考文献。在学期间公开发表论文及著作情况致谢2 02 1i i i2 32 4东北师范大学硕士学位论文引言随着互联网的快速普及和发展,网上的信息和资源如爆炸般向人们袭来,人们如何从中找到自己需要的信息呢? 在这种需求下,检索就应运而生了,伴随着网络资源越来越多,人们对检索的要求也越来越高。传统的检索已经不能满足人们的需要,这时个性化的检索就诞生了,它能根据用户不用的需求为用户提供自动的,主动的服务。个性化的检索平台是未来检索的发展趋势,百度推出了m y b a i d u ,g o o g l e 推出了个性化首页i g o o g l e ,y a h o o 推出了m y y a h o o 。由此可见,个性化引领了搜素引擎发展的方向。现在的科研工作者少不了对文献的阅读,所以科研人员都使用现有的一些系统来检索科技文献。而现在文献检索系统不能快速有效的为用户提供他感兴趣的信息。用户是经常使用检索系统的,他们每天都会进行检索,收藏,下载,而且会留下检索记录,和阅读文献的时间等信息。这些看起来并不是很起眼的行为会不会为我们抓住他的兴趣提供帮助呢? 答案是肯定的。这些都能反映用户的兴趣。个性化的检索系统是人们想要达到的目的。但是要达到这个目的就需要机器学习方法的支持。我们想为用户提供准确、他感兴趣的信息就一个需要有一个类别清晰的信息类别作为基础。为什么这么说呢,举一个例子来说。如果我们发现一个用户对一篇文章特别感兴趣,浏览时间长,而且收藏或下载了,那么证明他非常喜欢这篇文章,所以我们想把与之同类的文章推荐给他,但是与同类的文献千千万,到底推荐哪一篇文章好昵,所以我们要在已有的类别下对文献进行更细致的分类聚类,这样就是找到与之最新相似的几篇文献,并推荐给用户,用户一定会对所推荐的文献很满意,因为被推送过来的恰恰是一个正对他兴趣的文章,所以他会更加喜欢这个检索系统。为此我们需要对文献进行正确的分类聚类,而分类聚类之前都要对文献提取好特征。再提取特征之前呢,还要对文献进行预处理。本篇论文首先介绍对文本的预处理,预处理阶段包括分词,去停用词,然后对文本的特征提取,特征提取的好不好也决定了最终聚类结果的好坏,所以要获得好的聚类结果不光要有好的分类器,还要有好的特征,而且特征需要具体问题具体分析,这样才能达到事半功倍的效果。特征提取之后就是进行聚类了,我曾使用过a p 聚类算法,但是效果不算理想,所以我又对原算法进行了改进。接着就是实验部分,实验证明,用合适的特征提取办法并且使用改进的聚类算法会使最终的分类结果更佳。东北师范大学硕士学位论文1 1 选题背景第1 章绪论个性化信息服务理念的提出,是源自于网络信息资源的不断增长,其概念是以用户为中心的服务模式,即根据用户提出的明确要求,或通过对用户行为、习惯的分析而主动向用户提供可能需要的信息和服务乜1 。个性化信息服务是未来信息服务的发展方向,以个性化信息提供为目的,以个性化服务为宗旨的数字图书馆服务模式也正在成为主导信息服务的中心环节。所以我们信息检索小组决定设计一个文献检索平台,并在上面实现个性化服务,因为个性化服务的检索平台很少,但这又是当前的热点。它不但拥有重要的科研意义,而且如果能够推广的话,也会为国家掌握当前的科研热点有所帮助。1 2 国内外发展趋势在国外,个性化信息服务始于2 0 世纪9 0 年代,这时候出现了三个被公认为个性化服务发展初期最为经典的系统,1 9 9 5 年3 月,卡内基梅隆大学的r o b e r ta r m s t r o n g 等人在美国人工智能协会( a a a i ) 春季会议上提出了个性化导航系统w e bw a t c h e r 。斯坦福大学的m a r k ob a l a b a n o v i c 等人在同一次会议上推出了个性化推荐系统l i r a 。同年8 月,麻省理工学院的h e n r yl i e b e r m a n 在国际人工智能联合大会( i j c a i ) 上提出了个性化导航智能体l e t i z i a 。它们的出现,标志着个性化服务的开始瞄3 。此后,个性化服务系统层出不穷。1 9 9 6 年,加州大学i r v i n e 分校的b r i a ns t a r r 等人提出了个性化服务智能体d o - i - c a r e ,它能发现用户感兴趣页面有价值变化、进而通知用户访问;也是在1 9 9 6 年,个性化服务的巨大优势和潜在商机被著名的网络公司y a h o o 注意到了,它顺应潮流推出个性化入口m y y a h o o ;1 9 9 9年,麻省理工学院的h e n r yl i e b e r m a n 提出了基于合作方式的个性化导航系统l e t b r o w s e 。个性化服务开始向全球发展口3 。2 0 0 0 年,n e c 研究院的k u r td b o l l a c k e r 等人为搜索引擎c i t es e e r 增加了个性化推荐功能,让c i t es e e r 实现了个性化服务装裁文献。c i t e s e e r 使用w e b 搜索引擎( 如a l t a v i s t a 、h o t b o t 和e x c i t e ) 及启发式方法爬行网络,搜索信2东北师范大学硕士学位论文息,下载p o s t s c r i p t 或p d f 格式文档,运用“新西兰数字图书馆工程( t h en e wz e a l a n dd i g i t a ll i b r a r yp r o j e c t ) 中的p r e s c r i p t ,进行文本转换。转换后,检查文档的引文状况,如引文的形式、出现的位置。最后按印刷页逆序排列文档。一旦c i t e s e e r 发现有可用形式的文档,它定会定位到参考文献,或通过识别头部来定位引文。引文位置及形式确定之后,c i t e s e e r 开始抽取引文,并通过引文识别符、向量空间或缩进来描述引文。c i t e s e e r 分析每一篇引文,使用“h e u r i s t i c s 模块抽取字段,如题名、作者、出版年、页码或引文识别符。c i t e s e e r 使用4 种方法来识别和组织论文中的引文:( 1 ) 串位距或编辑位距测量;( 2 ) 词频或词出现测量;( 3 ) 使用子字段或数据结构知识;( 4 ) 概率方法。c i t e s e e r 使用关键词方式供用户进行提问,搜索文献,搜索后返回一个与提问相匹配的引文列表( 被索引文献的列表) 。列表中,引证文献和被引文献之间建立了关联链接,而且索引了引证文献和被引证文献的全文。检索式是布尔检索。用户搜索到文献后,可使用引文链接进行浏览;同年4 月,以美国为主的多国个性化研究机构和网络公司成立了个性化协会,旨在推动个性化服务的发展,同时保护个性化服务中涉及的用户隐私。就在这一年,我国也注意到个性化服务的潜力,了开始了个性化服务的研究,清华大学的路海明等提出基于多a g e n t 混合智能实现个性化推荐。在2 0 0 1 年,纽约大学的g e d i m i n a sa d o m a v i c i u s 和a l e x a n d e rt u z h i l i n 实现了个性化电子商务网站的用户建模系统1 :i p r o :i b m 公司在其电子商务平台w e bs p h e r e 中增加了个性化功能,以利于商家开发个性化电子商务网站3 1 。近几年,个性化服务逐渐从学术研究走向实际应用当中,成为业界的热点概念。很多公司纷纷推出个性化系统来提供个性化服务。很多网站,如m i c r o s o f t 、a o l 、c n n 、l y c o s 、i b m 等,均推出了个性化功能服务,很多电子商务网站也注意到了个性化服务的巨大商机,开始提供个性化服务,如a m a z o n 、e b a y 、b e s tb u y 、e x p e d i a 等口1 :我国的一部分网站( 如新浪网) 也推出了个性化服务。在个性化服务理念深入人心、商业网站纷纷推出个性化服务的同时,图书馆界也在探讨运用网络个性化服务技术,寻找一种解决信息过量和管理负担过重问题的方法。目前个性化数字图书馆在国外已经有了初步成果,进入实际应用阶段。1 9 9 8 年美国康奈尔大学图书馆就开发了网络个性化服务平台系统,并于1 9 9 9 年投入正式使用,该系统每周都向用户提供符合其个人需要的新书、期刊和其它加入到图书馆目录中的媒介通告,用户无需耗费精力亲自去查找资料,相关资料会主动持续地找到相关用户h 1 。除了较早的康奈尔大学图书馆以外,北卡罗莱纳州立大学,加州数字图书馆、加拿大的多伦多大学图书馆、新加坡国立图书馆等等都相继开发了自己的网络个性化服务系统,并收到了良好的应用效果。东北师范大学硕士学位论文国内目前只有少数数字图书馆提供这方面的服务。如清华同方推出的t p i ( t r u ep e r f o r m a n c ei n i t i a t i v e ) 系统,它可以提供主动推送服务,定时将最新信息主动发送到用户指定的邮箱,同时还提供群发的功能,把t p i 系统管理员指定信息推送到用户的邮箱中去;中国科学院国家科学数字图书馆建立的“我的数字图书馆基于个性化集成定制的门户网站系统是基于m yl i b r a r y 系统开发,它向用户提供对虚拟资源集合的个性化定制功能,通过用户定制、系统推荐和推送功能,为用户提供个性化的信息服务,减少用户在信息使用过程中信息过载的困扰畸3 。显而易见,随着我国网络基础设施及社会环境的改善,用户的个性化信息需求日益强烈,个性化服务在我国也会逐渐得到普及。1 3 聚类工作的意义聚类算法是当前机器学习领域的一个热点,它根据数据之间的相似性将整个数据集划分为几个类,每个类中数据点都彼此相似,而与其它类中的数据点相异,由于同一类别中的数据是相似的,在实际应用过程中可以从中选出一个代表来代表整个类,或者取所有数据点的平均来作为整个类的代表。这就意味着,这些数据点可以被当做一个整体来对待。聚类有着坚实的理论基础和实践应用中成功的应用案例,它是数据挖掘技术中的重要组成部分,它与分类技术有着本质的不同,聚类技术不需要监督,不需要训练,对于给定的数据集,如果特征选择的比较好,聚类程序会给出很好的结果,最终结果的准确与否,取决于特征提取的好坏的聚类程序的性能。当然我们还可以对结果进行分析,这对研究数据中的规律有着很好启示。目前聚类技术的应用范围很广,在商务,生物信息学,图像检索还有文本检索中都有着广泛的应用。在商务中,非常有助于经商者研究市场需求,消费者感兴趣的商品,为其确定进货种类,制定营销策略提供了方便。在生物信息学中应用更加的广泛,对了解基因和蛋白质的功能,找到相似功能的基因等方面都有很大的帮助。在图像检索中如果能对图像进行预先的聚类,会大大提高检索速度。而在文本检索中,聚类可以提高检索的速度,还有提高检索的查全率。作为统计学的一个分支,聚类分析已经被广泛地研究若干年,主要集中在基于距离的聚类分析。基于k - m e a n s 7 m 1 9 3n 0 1 ( k - 平均值) 、k - m e d o i d s 州1 3 1n 4 3n 町( k 一中心点) 和其他一些的聚类分析工具已经被加入到许多统计分析的软件中,例如s - p l u s 、s p s s 和s a s 。而最近几年新兴的a p 聚类也有着很好的速度和准确率。我主要的工作是实现特征提取的程序并进行聚类以提高检索的效率。对于传4东北师范大学硕士学位论文统的文献检索系统来说,用户输入查询后,返回的查询结果按照相似度从小到大排列,但这样做并不总能返回用户所需的结果,可是用户如果浏览一篇文献的话就表明用户在所有结果中对这篇是最感兴趣的,系统会记录这篇文献。用户再次输入类似的查询时,系统会将与之同类并且相似度高的文献推荐给用户,而让用户获得更为理想的检索结果。对于同类的文献我们知道每篇文献都有中图分类号表示自己的类别,而且同一中图分类号下的文献非常多,内容也不尽相同。所以聚类工作的意义就是对同一类别的文献进行更加细致的聚类,使推荐的结果更为准确。聚类结果的好坏直接影响到最终检索结果的优劣。5东北师范大学硕士学位论文第2 章词性与位置权重结合的特征提取方法2 1 中图分类号厂本文的工作是我们共同研发一个文献检索平台的一部分。我们小组主要想实现一个个性化的文献检索平台,为用户提高更优质,高质量的服务,通过捕捉用户的各种操作来为用户建立个性化模型,用户在使用本平台时会不知不觉地参与到个性化模型的建立,训练。整个过程都是隐式的。不会采用问答式那种可能会令用户感觉到厌烦的方式。在掌握用户的兴趣之后,还会建立用户组,使具有相同兴趣的用户能更方便的交流,联系,组内还会有共享机制来想大家推送其感兴趣的文献,整个平台强大功能的基础就是文献准确的分类。只有这样,才能让用户找到自己感兴趣的文献,才能正确的推送给用户他感兴趣的文献。要将文献详细的分类就不得不提到中图法中图法是中国图书馆图书分类法的简称,是我国目前通用的类分图书的工具,读者掌握了这部分类法的有关知识,便能迅速、有效地查寻全国各图书馆的馆藏n 6 1 。分类法基本结构( 1 ) 基本部类:如中图法分五大类部:马列毛邓;哲学;社会科学;自然科学;综合性图书。( 2 ) 基本大类:构成分类表的第一级类目。中图法为2 2 个基本大类。( 3 ) 简表:由基本大类与由其直接展开的一、二类目所形成的类目表。( 4 ) 详表:由简表展开的各种不同登记的类目所组成的类目表,是文献分类的真正依据。按照中图分类号固然可以,它的树形结构是非常可取的,但是同一中图号下仍然有成千上万的文献。它们都是对这类感兴趣的用户想要的吗? 我们发现不一定是这样的。往往用户需要的文献并不多,所以我们需要更细致的分类。这样才能使用户更快找到自己的感兴趣的东西。2 2 数据库数据库采用的是科技部给与的文献4 4 3 篇( 图1 科技部数据库) ,其中包含6东北师范大学硕士学位论文多个杂志的多篇文章,种类繁多,结构复杂,为了方便研究,我自组织1 0 0 文献其中包括生物认证,法律,生物信息学,艺术,经济学等5 类,每个类2 0 篇,作为研究的基础。功lf 邛诧趸标题q kl l - eir 旺c 黼口lfk d ”o r d一9 帅3 b i 驰+ 一,- 罗毫,q 拿鳢t 生b 伪,噱摊,t 计簋数学一j 0 2 一协,qn v 物m 竹对臼二瓤;i 7 1 1 鸹i g 吐d l t i “堪i 篾,n 蔓索,n 下,:计簋数学:咚一无v 蠛,札最,d 本文,r 一箍印。一9 7 3 0 3 9 1 踟- 曲,q 墨,k 鼢,n 分带计篁数学一! 嘲一。潮队估计,舶_ ( 蒯嘶库蚰嗍,氍,n 分襄,v ,例,nj 薹,c 鳇t 计算数学t o “缝性,n 方程蛆nl ,l 本文,f 讨毂:。4 样丑囊,q 函数n 精度,的厶计茸数学! 啊一样a z 条,q 精度,n样n 惫f曼! 一1 1 5 2 嘞关于组- - 娄b 。造借,姐冀法,n 汁簟数学j 卿渣传,n 苴法,ny - 遣倍札j一舅;1 1 7 1 1 2 1 玎。帮育加多瑗式,靠线性咖硬,n 计篡数掌:o 烈一整体,n 暖,v 弓i 子,n 本:茸,零j p 1 1 5 2 啪4 麓vb 口p r s ,m 方程,n 的凡i 计尊数掌i o 飘一搦,n 积分加拼南拟 娩垮一熟二一j s 3 t 2 9 车鲤性邝一中立,幔越,k 廷迟一计簋数等j 蟹t 中,f 立,v 塑肚蔫t i 本文,f 多熙町蹦t 4 小,- 支h 象,v 徉,嗨i 计茸敦掌;o 列量,d 小,| 支,q 蹇,本文。型,甄l 4 g t f 夥成,n 的两,- 龆 ,qi 计苴机学报饿一。可v 奢盼,v 睫,k 提出 ,了耵!l o 町t 1 伯- - i , 稗,q d e o e m 同瞎j 计簋机学擐t j 9 1 帕c ,b 网络,n ,- 在向大,j艘l 一。j 丫t l 安全,柚协议,n 目钐n 扩展,礼l 计篡机学报。二t 和! 安全n 协议a 誓,- 分折,z艘! 1 0 9 t 7 i 两瞎,n 环甥e ,n 下,f 数字,n 甑计篡机学报+ :瑚l 一版权,n 僳护,v 髯名e ,p 分辆如i l o g t t l “基于,p 身份,n 曲 可v 验狂,计葺机学报:珊l。基于自身份,丑的h 利用 抱1 l o 哪l 惦一,- 种“撕,t 的h 篝于坤:计篁机掌报。俑1 :广v a 限,vi l 密v ,设,t 爻舱 l 0 9 7 7 1 q 7 g 吲,n 化空闫n :,皿一,- 计簋机掌报h 毗;咿| n 化,v 塑问,n 锆,p8 1 。1 0 9 t t l 4 3 基于ph t 妯t i c “l o “搿t , s t ,计茸机掌报t 1 1 日1 协波n 设计加虮基于一如“i 5 舡一钉c 皿,系统a l 豢簪蝤;i 嗍乳9 基于一目,r 造j 匾v v 砖泼,v 的,1 0 1 4 5 9 6 2 互,d 为加撒l b t ,m 变换v :8 7 ii i j 8 1 5 1 ,0 v 夺,l 环,n 的h 锫铒h 一。一。5 辱:翦研4 ;稻哺| l ,v 参数如下,f 刍 d 薹,t:1 0 t o 7 0 f 4 广义n 互,d 麓,生成矗a1 0 ,9 9 3 7 8 7 6 基于ph2 8 4 a l c i z , z 的 槐期,。f 1 0 1 2 0 7 l t 基于庙髋n 黝田,v 片,q蛆j蟹l l 暇铝5 1 一,1 种,q 薹于,i 时m 自i c ,螺t 3 1 0 1 4 5 9 7 1 卫量,n 时,吣变一拓扑n 同醛t 4 jl 0 7 l s - a s m :,一“种,q 用于加2 3 分词计茸帆学报t i 悖1 1汁苴机学报瑚1 1计茸机学报m l l计葺机学报i 1 1 9 1l计篡税学报t 1 1 9 1 5计算机学报们j 9 1 8计苴机学报t 1 9 1 9计簋轨学报t i 悖1 9计苴机学报撇计苴机学报臼叼计篁轨学报口l:r t t;图1 科技部数据库。:比,p 特q 变织 重点“蟹,+ ,超h 分弊率ni 睫,针对白摹碡捩薯,n 蛆n6 证明y 了一一绒f 生n 分组,订再 提出 了榔龇v 数 mj 文童,nl。自t ,密码n _ 广设计一了k 2 8 4 竹蜉n d o ,城码, 托拍一一:扎2 6 4 s h 片q 组i 针对,p 墨f 匠,孰唧,牛提出 了,卫星丑通信,n 同罐在,撮世。媚n 学习 虮。借鉴 ,lh “,蹿_ i - ,m :k :识,涮文献首先要进行一些预处理,分词是很重要的一步,我研究的是中文文献,中文和英文文献有一个很大的不用就是英文的每个词都有空格隔开,而中文文献都是长的句子。我们要从中提取最小的单位一词,就首先要对文献进行分词。分词的时候使用的是中科院的分词系统i c t c l a s ( i n s t i t u t eo fc o m p u t i n gt e c h n o l o g y ,c h i n e s el e x i c a la n a l y s i ss y s t e m ) ,它的主要功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典:支持繁体中文;支持g b k 、u t f 一8 、u t f 一7 、u n i c o d e 等多种编码格式。目前的3 0 版本分词速度单机9 9 6 k b s ,分词精度9 8 4 5 ,a p i 不超过2 0 0 k b ,各种词典数据压缩后不到3 m ,是当前绝大部分研究所应用的分词系统。文献大都是以文本形式的来表现,为了做进一步的处理,我们首先要将它转化其它的形式,这个过程也就是特征提取。提取文本的特征有很多种方法,例如布尔模型,向量模型,概率模型等。布尔模型使用的是集合理论和布尔代数。它简单并且容易掌握,布尔模型的缺点也在于它太简单了,二值缺乏更多的级别变7东北师范大学硕士学位论文化,使检索结果只能粗略地标记为相关和不相关,它满足不了用户的需求。概率模型又过于复杂,所以我们采用向量空间模型来做为特征特征提取的方法,向量空间模型,它通过给与每个特征词以权值使一段文字转化为一个向量来完成对文本的特征提取的。而计算检索的相关度也就随之转化为检索向量之间的相似度,它相比于布尔模型来说有两个优点,一个是检索结果不再只是简单地确定为相关和不相关,而是拥有了更细致的量的标示;另一个是可以用相似度来对检索结果进行排序,让用户可以方便从相似度高的向相似度低的查找,从而使用户获得满意的结果。但它还是有缺点的,那就是特征词之间肯定是有相关性的,这就影响了检索的结果,但它的简单易用性还是使它成为了目前主流的特征提取方法之一n 8 】2 4 停用词按照向量空间模型的理论,我们需要对文献来提取特征词,每个特征诃都需要有一个权值来反映它对这篇文献的重要程度。这个权值怎么取呢,首先大家肯定想到的是词频,但是一个词出现的越多它对文献就越重要吗,答案是不一定,不可否认,文献的中心词汇作者当然会多次提到,其表现就是它出现的次数很多,但是对于常用的代词,虚词来说,它们出现的频率也是相当的高,如“我 ,“的等词,所以我们构建向量的时候要去掉这些词,这个步骤叫做“去停用词,我是构建模型的时候,建立了一个停用词表,只要是停用词表里出现的词汇,在构建模型的时候都会被去掉,以便得到更优的聚类和检索结果。:i2 5 文献处理词性与位置权重文献是一种特殊的题材,文献都很长,但它们都有的一个共同特点:作者会把文献的主要内容和思想都在题目,关键词和摘要部分写明。让读者在深入文献主体之前就对文献有个大概的了解,以方便读者有选择的阅读。如果我们对整个文章都进行构建模型,这无疑是不合适的,因为文章很长,导致向量很长,难于计算。故我们只对题目,关键词,摘要这三个重要部分构建模型,这样减少了计算量,加快了速度。而对于题目,关键词,摘要,它们包含的词汇的重要程度也是不一样的,所以我以它们的重要程度对其中的词再分别赋以一个权值。而词的最终权值是重要性权值和所在位置权值之积。这样做兼顾了位置信息和频率信息。为了更好地提取特征,词性也是需要我们考虑的因素。对于提取好特征的文献来说,名词总是最多的,动词其次,形容词再次,其他词性的词就比较少了,8东北师范大学硕士学位论文如果我们只考虑名词作为特征的话,会大大减少向量的长度,但是肯定会对最终的聚类结果有影响。动词,形容词亦是如此,为此,本文将研究使用不用词性组合来作为特征对聚类结果的影响,从中选出最优的来作为系统最终使用的特征选择方法。最终形成的特征向量如下y = w ,x 。( 1 )f r s i 一( 一1 ) 】b = i形b - - _ r s 妒b = 2 ( 2 )【矿艿一其中矿。( o ,虿1 ) ,尸【。,专+ 1 ),n j ,1【0s = sd 砌p ,( 3 )对于权重w 有两个影响因素r 和w ,r 表示对这个特征词的词性的筛选结果,用来判定这个词依据其词性是否被作为特征,即r = 1 时,表明特征提取时依据其词性会被提取为特征,r = 0 时表明特征提取时依据其词性不会被提取为特征,r 是对所有的特征词进行筛选。而w 是当篇文献的特征词依照其所在位置被赋以不同的权值,依据人们的写作习惯,对于重要的的东西,都要首先说出来,所以题目和关键词就显得尤其重要,那么就给其赋以更高的权值。i 是表示第i 个特征词,w ;1 8 表示题目的权重,w i 2 s 表示关键词的权重,w i s s 表示摘要的权重。它们之和为1 ,所以得到了以下公式,而假设题目的权重高于0 5 ,所以就可以得出两个参数的范围。在最后实验中,我将通过调整权重的大小和选取适当的词性来进行特征提取,通过准确率来选取最合适的特征。9东北师范大学硕士学位论文2 6t f - i d f对于一个词来说,通常人们认为它出现的频率越多越重要,但实际并不是这样的,如果一篇文献要区别于其他的文献,只按照词频理论考虑,当两篇文档中出现次数多的词都很相似时,会判断这两篇文档的相似度高,但有可能两篇文档想说的主要内容并不一样。这就是说明不能只考虑词频大小来作为特征对文献的贡献。我们发现,当特征词在当前文档中出现的次数多,但在其它文档出现的次数时少,也就是前者比后者的比值越大的时候,它越能代表这篇文档。这种特征提取的办法叫做伍d f ,f f ( t e r mf r e q u e n c y ) 指的是词频,i d f ( i n v e r s ed o c u m e n tf r e q u e n c y ) 指的是反文档频率所- - t ,l cl o g ,m n,一l -( 4 )t 为词e 在当篇文档中的词频,m 为文档总数,n 为包含词e 的文档数。这样,t 越大,代表词t 在当前文档中的频率很高,表明词t 对于当前文档很重要。但是对于所有文档来说,如果大部分文档都包含词t ,那么i d f 的值会很小,这就削弱了词e 在当前文档中的权重,如果词e 的i d f 比较大,就说明大部分文档不包含词e ,但是在当前文档中出现的频率很大,由此可见,词e 在当前文档中的特征权值应该比较大。这种特征提取方法在目前应用中还是比较广泛的。2 7 程序功能实现对于以上本人想要完成的功能,我独自编写的程序如图( 图2 程序功能)所示,用c # 语言编写。它可以对存储在a c c e s s 数据库的文献进行特征提取并最终生成向量。并且还能在细致分类中找到每个类别的父节点,以便形成树结构。在特征提取时,本程序首先寻找一个基准特征,就是从所有的文档中提取有意义的词,然后所有文章都根据这些词在其中的重要程度形成向量。它而且还可以统计每个类别中特征词出现的频率,类别特征词可以作为这个类别的特征,当在树结构上一级检索的时候它们可以用于区分于其他的类别,当在本类继续向下分类的时候,可以在特征向量中去掉这些词,因为它们是类别特征词,几乎本类别大多数文献都包含有这个词,如果不去掉这些词,在聚类的时候由于它们会占主要的权重,则会出现聚类效果很差的现象,所以这些类别特征词是非常重要的i1 0东北师范大学硕士学位论文所有文档提取词汇去重复去停用词t上= ? 0 。_ | | 。j 一i 。,。;,| 。全体特征词萎位置加权j ,囊词性控制上锡h :瓴,、,7 臻?镶,j 万,一,o 孽却j文档特征向量单个文档提取词汇去停用词文档特征词图2 程序功能下面对程序功能进行简单的说明,举个简单的例子( 表格1 两篇文献)表格1 两篇文献2标题关键词刑事和解刑事和解和谐恢复性司法相,初探对罪刑法定和罪刑相当原则德国刑事德国刑事法律体系刑事执行执行法律概览提取的方法分别是( 1 ) 词频特征( 2 ) t f i d f 特征输出的形式分别有( 1 ) 向量格式( 表格2 向量格式)( 2 ) t f i d f 格式( 表格3t f i d f 格式)东北师范大学硕士学位论文表格2 向量格式i dv eo 0 ,l l ,0 ,0 ,0 ,l l ,4 ,4 ,4 ,4 ,7 1 1 1 ,1 5 ,1 1 ,4 ,7 ,0 ,0 ,0 ,0 ,0 ,0 表格3t f i d f 格式i dv eo 0 ,0 0 1 0 4 7 8 2 4 5 6 6 0 7 6 7 1 ,0 ,0 ,0 ,0 7 3 5 1 7 4 2 6 0 0 4 4 0 2 7 ,0 2 2 0 5 5 2 2 7 8 0 1 3 2 0 8 ,0 2 2 0 5 5 2 2 7 8 0 1 3 2 0 8 ,0 2 2 0 5 5 2 2 7 8 0 1 3 2 0 8 ,0 2 2 0 5 5 2 2 7 8 0 1 3 2 0 8 ,0 5 1 4 6 2 1 9 8 2 0 3 0 8 1 9 1 0 6 2 2 5 3 1 3 8 9 1 9 8 8 6 7 ,0 o l1 5 3 4 6 0 9 3 2 5 5 8 4 6 ,0 6 2 2 5 3 1 3 8 9 1 9 8 8 6 7 ,0 1 8 6 7 5 9 4 1 6 7 5 9 6 6 ,0 4 3 5 7 7 1 9 7 2 4 3 9 2 0 7 ,0 ,0 ,0 ,0 ,0 ,0 输出的格式分别有( 1 ) 文本形式( 图3 文本形式输出)( 2 ) a c c e s s 形式( 图4a c c e s s 表形式)文件钽) 编辑僵) 捂式查看帮助噬) h0 7 3 9 6 8 7 2 2 1 i s 0 2 8 9 - 8 5 7 6 1 2 i s 0 7 8 6 9 1 9 口1 8 9 2 2 2 6 s 口s 1 4 5 5 7 矗3 卑1 7 8 2 7 1 8 3 6 3 3h i 1f 8 3 6 2 6 8 7 6 8 7 2 7 9 l 6 90 7 8 1 1 9 4 1 9 5 0 2 8 4 7 9 0 6 6 5 2 7 3 7 3 8 0 2 5 9 8 58 1 7 8 | 1 7 肿7 1 0 8 2 8 6 i s 鼻1 0 日s 5 7 1 6 0 2 9 8 1 9 q 2 3 38 2 4 b i s 3 0 8 1 7 1 7 9 9 60 1 3 7 9 3 1 2 5 6 2 3 6 衄sa 4 7 5 2 2 3 | l _ 1 2 7 8 6 8 2 5 日;日8 4 7 3 2 1 n 9 6 1 1 5 6 9 9 矗0 口8 1 3 2 2 1 1 8 1 7 7 9 9 2 6 2 1 日b 0 0 1 7 8 7 9 | 上9 0 6 9 j 1 2 8 日日1 2 7 州上1 3 卑2 6;a 们5 2 7 | 5 5 7 5 5 2 0 9 8 2 8 0 0 6 2 5 1 2 1 2 5 1 0 9 5 5 7 580 0 8 1 1 9 2 7 8 8 4 4 | 9 9 8 2 50 0 叭2 8 口3 日5 0 1 s j 3 5 3 | 1 2 b 耳5 0 0 5 98 s 1 2 6 2 6 3 1 9 1 峤9 | 0 0 2 3 i l , i s 2 8 上| 9 9 9 3 | 9 5 88 陀7 5 1 6 6 1 1 2 7 1 3 0 0 盯 0 们2 5 6 1 2 2 2 8 1 3 7 3 4 3 口口蛇4 9 7 4 6 2 5 7 0 2 3 7 5 3n 0 3 4 9 1 4 3 6 2 3 3 i s 6 6 4 78 0 4 8 0 9 5 0 7 6 1 3 6 l口日晒9 2 1 耳s 7 9 5 1 1 3 口5 1 2 口7 上l s 8 8 5 7 3 5 5 1 4 50 口1 i s 9 8 5 8 6 5 1 1 0 8 6 1 0 0 1 0 1 吣2 7 3 | 1 2 3 2 2 口38 w i 9 1 5 3 0 7 3 6 9 1 1 嘶00 日1 2 1 6 0 2 8 6 0 7 8 6 6 7 - l000 a 2 1 1 5 8 8 8 3 上1 3 3 8 0 1 j 1 1 日0 0 8 口8 王1 3 4 2 丑口n n l 9 8 0 7 8 3 8 9 1 0 s 1 6 3 口n 陆6 6 6 8 6 4 2 n 6 3 1 0 却s 矗日0 0 1 i s 2 1 8 6 9 7 1 0 1 n s 2 2 日0 3 0 9 7 n - 1 8 2 70 0 2 3 1 1 1 6 6 3 5 2 7 j 5 7 i s l00 日1 5 6 2 6 5 4 5 1 8 1 5 7 8 60 口0 7 6 8 9 1 8 3 8 1 2 5 日2 2 78 日1 3 6 1 1 9 7 5 6 2 7 lb b 舫5 8 2 3 5 8 1 6 3 7 8 2 9 卑口d 3 9 呻8 口1 8 8 1 7 9 1 3000 b 1 3 6 卫1 9 7 5 6 2 7 4 3 0 0 0 1 惦7 8 3 s 9日a 1 5 5 8 9 5 3 0 0 2 盱8 9 9 矗0 0 0 1 2 日0 们2 惦0 1 9 4 6 9 日a 9 3 d 1 2 呐9 2 3 8 7 2 28 0 a 1 2 9 8 6 8 6 k8 7 3 9 6 0 7 2 2 1 l i 口2 8 91 s 4 7 8 7 上5 8 5 8 2 2 6 1 8 日i s 9 | 1 5 8 0 9 6 5 5 0 7 3 8 90 2 5 1 6 3 2 2 7 6 1 1 2 5 7 9 j 10 3 1 1 1 1 3 j i b 5 2 6 6 8 10 10 b s 2 5 9 5 9 2 2 j 1 3 7 2 1 5 0 6 7 5 3 0 6 8 9 6 2 | 1 6 5 5 20 2 i s l 7 8 1 i s l 7 8 5 2 1 8 i s 口b 口口9 2 2 6 8 3 3 6 s 1 7 2 2 3 90 1 5 8 7 1 1 9 2 1 6 8 6 9 j 90 1 2 3 5 8 6 j 1 7 s 4 5 1 3 1 1 20 5 1 “2 9 6 0 2 i s 4 3 3 - 1 6 1日日1 b 姻上1 3 9 j 9 1 1 8 盯矗日8 盯5 5 2 5 2 1 7 8 7 嘶9 5 j 口们5 1 ”b 1 9 9 8 2 2 5 b 日盯6 3 30 1 1 j 6 5 8 5 7 8 6 2 2 7 曩b9b 口2 2 j 9 1 3 6 5 5 j 1 9 0 8 8 0 7 3 1 3 7 2 2 j 1 1 5 6 3 68 盯2 3 舳i1 2东北师范大学硕士学位论文1 _ 【一一一n m eol1i23l4i5一也口:0 0 9 9 0 0 0 5 4 4 5 4 。一o 9 h o o管理谚! ;! ! :ooo a数据,钾瓤l 乾蝴o啪锈嘲1 0 6 q 4 6 j , 4 1 2 40 1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 自考专业(工商企业管理)检测卷带答案详解AB卷
- 2025年注册会计师考试《会计》金融工具会计处理案例分析试题及答案
- 家具厂家具喷漆工艺制度
- 2025江苏宿城区高层次紧缺急需专业人才招聘12人备考试题及答案解析
- 2025广西玉林市博白县公开竞聘教师80人考试备考试题及答案解析
- 小学美术线描技巧期末复习计划
- 劳务公司培训合同(标准版)
- 小学英语教师教研活动推动计划
- 部编版三年级语文课文教学计划
- 2025年肝胆外科手术操作技能考核模拟试卷答案及解析
- 2025年吉林省中考语文真题(含答案)
- 2025高级会计师考试试题及答案
- 工地建筑钢板租赁合同范本
- GB/T 38537-2020纤维增强树脂基复合材料超声检测方法C扫描法
- GB/T 11446.10-1997电子级水中细菌总数的滤膜培养测试方法
- 儿童生长发育监测课件
- 混凝土结构跳仓施工方案
- 页岩气开发地震监测技术要求DB50-T 1234-2022
- 实验室病原微生物危害 评估报告
- 科技项目申报专员系列培训(技术攻关项目)
- 品质异常处罚细则及奖罚制度
评论
0/150
提交评论