(计算机科学与技术专业论文)基于语义的网上股评信息的提取研究.pdf_第1页
(计算机科学与技术专业论文)基于语义的网上股评信息的提取研究.pdf_第2页
(计算机科学与技术专业论文)基于语义的网上股评信息的提取研究.pdf_第3页
(计算机科学与技术专业论文)基于语义的网上股评信息的提取研究.pdf_第4页
(计算机科学与技术专业论文)基于语义的网上股评信息的提取研究.pdf_第5页
已阅读5页,还剩53页未读 继续免费阅读

(计算机科学与技术专业论文)基于语义的网上股评信息的提取研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

独创性声明 1 1 1 | 1 y 1 8 8 j c :j i 芍芝岑 摘要 每天众多的财经网站会发布股票信息,这些信息数据量巨大、存在大量冗 余和容易混淆的数据,一般的用户需要花费很多时间才能获得自己想要的股评 信息。本文从国内互联网股评及网上信息抽取技术的分析入手,对网上股评信 息的提取进行研究,具体工作如下: ( 1 ) 采用网络蜘蛛的信息抽取技术实现了对网页上的信息提取。在网页中先 定位到用户所需信息的链接的u r l ,并把这些u r l 放入等待抓取的队列中;然 后依次下载每个u r l 对应的网页,对其h t m l 文档进行结构化分析,从中查找 股票信息。 ( 2 ) 建立股评特征信息的词库。首先,根据对财经网站上的大量股评信息进 行特征分析,找出既频繁出现、又能表示股票趋势的特征词汇。其次,由于所 研究的股评信息具有前半旬常为描述股票特征、后半句给出操作建议的结构, 所以,对股评信息的前半句的分析得到描述股评的多特征词汇,有时表示为一 个特征,有时需要用结合两个特征词描述,综合分析后可将这些特征词汇后建 立特征词库、结合词库;对股评信息的后半句分析得到的建议词汇可组成建议 词库。最后,对特征词库、结合词库、建议词库三个词库中的特征词汇进行总 结。 ( 3 ) 利用所建立的特征词库对股评信息进行解析。首先从特征词库中依次取 出特征词,与股评信息进行匹配,解析出第一特征词和第二特征词;如果特征 词库中没有可以匹配的词汇,则从结合词库中依次取词匹配,根据解析出的第 一特征词,然后匹配出第二特征词。在解析股评信息的前半句后继续解析后半 句中的建议词,过程同特征词库匹配类似。解析得到特征信息后就通过己定义 好的数据库接口将股票代码、名称、特征信息、原始股评等信息存储到相应的 数据库表中。 ( 4 ) 设计与实现网上股评信息提取模块。首先介绍了模块的总体设计,给出 了系统的层次结构图;其次结合网络抓取模块结构图和流程图介绍了网络蜘蛛 的信息提取的过程,以及网络蜘蛛主控模块对抓取进程的控制;最后对股评特 征信息库的结构进行了设计,并且给出了从股评信息中解析特征词汇的主要伪 代码描述。 关键字:网上股评,语义,网络蜘蛛,信息提取,股评特征 a b s t r a c t m a n yf i n a n c i a lw e bs i t e si s s u es t o c ki n f o r m a t i o ne v e r yd a y t h e r ea r eah l l g e a m o t m to fd a t aa n dal a r g en u m b e ro fr e d u n d a n ta n dc o n f u s e dd a t a0 1 1t h ew e bs i t e s t h ea v e r a g ei i s e l sn e e dt os p e n dm u c ht i m et og e te x p e c t e di n f o r m a t i o na b o u t s t o c k c o m m e n t t l l i sp a p e ra n a l y s e dd o m e s t i cs t o c k e o m m e n to nt h ei n t e r n e ta n dt h e t h et e c h n o l o g yo fi n f o r m a t i o ne x t r a c t i o n , a n dm a k et h e s t u d yo fe x t r a c t i n g s t o c k c o m m e n tf r o mi n t e r n e t t h es t u d i e dw o r kw a sa sf o l l o w s : ( 1 ) a c h i e v ee x t r a c t i n gi n f o r m a t i o nf r o mt h ew e bp a g eb a s e do i lw e bs p i d e r f i r s t l yi tf i n d st h eu r l w h i c hc o n t a i n se x p e c t e di n f o r m a t i o no nt h ew e bp a g e s ,a n d p u t st h eu r l i n t oaq u e u ew a i t i n gt oe x t r a c ti n f o r m a t i o n t h e ni td o w n l o a d st h ew e b p a g ew h i c hc o r r e s p o n d st ou r li nt u r n , a n da n a l y s e st h es t r u c t u r eo ft h eh t m l d o c u m e n t , f i n d i n gt h es t o c ki n f o r m a t i o n ( 2 ) e s t a b l i s ht h el i b r a r yo ft h es t o c kf e a t u r e f i r s t l y , b a s e do i lt h ea n a l y s i so fa l a r g en u m b e ro fs t o e k c o m m c n t s ,t h ef e a t u r ew o r d so f t e ne m e r g ef r e q u e n t l ya n dc a n e x p r e s st h ec h a r a c t e r i s t i co ft h es t o c kt r e n d s e c o n d l y , b e c a u s et h ef i r s tp h r a s eo f s t o c k c o m m e n td e s c r i b e st h es t o c kf e a t u r ea n dt h el a s tp h r a s eo ft h es t o c k e o m m e n t g i v e st h ep r o p o s a lo ft h eo p e r a t i o no fs t o c k t h r o u g ht h ea n a l y s i so ft h ef i r s tp h r a s e , s e v e r a lf e a t u r ew o r d sa r cg o t t h es t o c kf e a t u r ec a nb ed e s c r i b e db yo n ef e a t u r ew o r d o rc o m b i n e dt w of e a t u r ew o r d s ,s ot w ol i b r a r i e sn e e dt ob ee s t a b l i s h e d - t h ef e a t u r e l i b r a r ya n dt h ec o m b i n e dl i b r a r y b ya n a l y z i n gt h el a s tp h r a s e ,t h ep r o p o s e dw o r d s c o u l db ee x t r a c t e dw h i c hw e r eu s e dt oe s t a b l i s ht h ep r o p o s e dl i b r a r y f i n a l l y , t h e t h r e el i b r a r i e sw e l ed i s c u s s e d ( 3 ) p a r s i n gt h es t o e k c o m m e n ti n f o r m a t i o nb a s e do nt h ef e a t u r el i b r a r yw h i c hh a s b e e na l r e a d ye s t a b l i s h e d f i r s t l yt h ee x t r a c t i o nm o d u l ef e t e h saf e a t u r ew o r df r o mt h e f e a t u r el i b r a r ya te v e r yt u r na n dm a t c hi t 谢n lt h es t o e k e o m m e n t , t h e ni tg e t st h ef i r s t f e a t u r ew o r da n dt h es e c o n do n e i fi t n tm a t c hi t 嘶t l lt h ef e a t u r el i b r a r y , i ts h o u l d 做c hw o r df r o mt h ec o m b i n e dl i b r a r ya n dp a r s et h ep h r a s e ,t h e ni tw i l lg e tt h ef e a t u r e w o r d a f t e rp a r s i n gt h ef i r s tp h r a s e , i tp a r s e st h el a s tp h r a s ea n dg e t st h ep r o p o s e d w o r d t h ep r o c e s si ss i m i l a rw i n lt h ep r o c e s so ft h ep a r s i n go ft h ef i r s tp h r a s e w h e n p a r s i n gt h ew h o l ep h r a s e , i tc a l lu t h ed a t a b a s ei n t e r f a c et os t o r et h es t o c k i d ,t h e s t o c k n a m e ,t h ef e a t u r ew o r do fs t o c k , t h es t o c k c o m m e n ti nt h et a b l ei nt h ed a t a b a s e ( 4 ) t h ed e s i g n m e n t a n d i m p l e m e n t a t i o n o ft h em o d u l eo f e x t r a c t i n g s t o c k c o m m e n ti n f o r m a t i o nf r o mi n t e r n e t f i r s t l y , t h i s p a p e rd e s c r i b e st h eo v e r a l l d e s i g no ft h em o d u l e ,g i v e nt h ec h a r to ft h el e v e lo ft h es y s t e ms t r u c t u r e ;i nt h e f o l l o w i n g , w i t ht h ec h a r to ft h ec r a w l i n gp r o c e s so ft h ew e bs p i d e r ,i ti n t r o d u c e st h e p r o c e s so fi n f o r m a t i o ne x t r a c t i o na n dh o wt h ec o n t r o l l i n gm o d u l em a s t e r st h e c r a w l i n gp r o c e s s e s f i n a l l y , i td e s c r i b e st h ed e s i g n m e n to ft h es t o c k c o m m e n tf e a t u r e l i b r a r ya n dt h et h em a i np s e u d o - c o d ew h i c hd e s c r i b e s t h ep r o c e s so fe x t r a c t i n g f e a t u r ew o r d s f r o ms t o c k c o m m e n l k e yw o r d s :s t o c k c o m m e u ti n t h ei n t e r n e t , s e m a n t i c ,w e bs p i d e r , e x t r a c t i o no f i n f o r m a t i o n , f e a t u r eo fs t o c k c o m m e n t i i ! 目录 摘要i a b s t r a c t i i 第l 章绪论。l 1 1 课题研究的目的和意义1 1 2 国内外研究现状2 1 。2 1 国内互联网股评现状2 1 2 2 网上信息抽取技术现状2 1 2 3 语义的研究现状。7 1 3 本文研究内容与结构8 第2 章网上股评信息的提取1 0 2 1网上股评信息的定义及内容1 0 2 2 网上股评信息的存储格式1 2 2 3 网上股评信息的提取原则1 5 2 4 信息抽取结果的衡量指标1 7 2 5 基于d o m 的网上股评信息提取1 7 2 5 1 动态h t m l 文档对象模型:1 8 2 5 2 信息提取过程19 2 5 3 提取模式2 0 第3 章股评特征信息提取2 4 3 1 网上股评特征信息分析2 4 3 1 1 从股评信息中提取特征词2 4 3 1 2 从股评信息中提取出建议词3l 3 2 网上股评特征信息的归类3 2 3 3 股评特征信息提取3 3 第4 章股评信息提取模块的设计与实现3 6 4 1 模块的开发平台3 6 4 2 模块设计和系统界面。3 6 4 2 1 模块总体设计3 6 4 2 2 网络蜘蛛的设计与实现3 7 4 2 3 股评特征词库的设计躬 4 2 4 股评特征信息提取和存储设计4 4 第5 章总结与展望4 6 5 1 研究工作总结4 6 5 2 研究工作展望。4 7 参考文献4 9 致谢5l 攻读学位期间的主要研究成果5 2 武汉理工大学硕士论文 第1 章绪论 1 1 课题研究的目的和意义 炒股是目前国民比较热衷的投资方式,为了更好的投资,投资者必然会关 注各种财经信息,因此财经信息自然成为金融市场的必需品,它能影响国民投 资的决定。对于股票投资者来说,像企业重组、相关行业最近发生的大事件、 高层领导换人以及发布新的产品这些财经信息非常重要【i 】。由于互联网的快速发 展,作为一个庞大的信息存储空间,它为使用者提供了非常有价值的信息。而 互联网上众多的信息资源,使用浏览器按部就班的查看网页非常不方便,所以 迅速定位所需要的信息成为亟待解决的问题【2 1 。随着搜索引擎的产生,人们检索 信息的能力得到了提高。但投资者们使用传统的搜索引擎会得到很多无用的信 息,无法有效显示用户所关心的财经信息。 现今国内已经涌现了新浪财经、和讯股票、全景网等几个较大的股票网站, 这些网站集中了大量的财经信息,但是通过分析,我们发现这些网站的信息非 常繁杂,为了找到所需信息,不得不多次点击网页,在大量的信息中筛选出有 价值的信息。而对于一个股票投资者来说,他所持有的股票以及想要购买的股 票的涨跌走势,以及股票的其他相关的基本信息,是他最为关心的。而在股票 的基本信息中,投资者们都会对股评信息很关心。股评是股评人运用股票证券 相关专业技术,分析股票的走势,给出对股票走势的论述,为投资者们提供投 资咨询管理服务和投资信息。现今股民数量日益剧增,股市的变化也关系众多 股民及其家庭的切身利益,股评也自然受到大家的关注,可见股评在投资者心 中的重要地位。 因此我们对基于语义的网上股评信息提取与整合的研究,将主要讨论怎样 从财经网站中提取出大量投资者们最关心的股评信息,以及一些其他股票基本 信息,对冗余信息进行过滤,并把所有的股评信息整合成统一格式,提取出股 评中的涨跌关键信息,把这些收集和整理好的信息提供给投资者参考,方便投 资者浏览和查询,预测股票的走势。 武汉理工大学硕士论文 1 2 国内外研究现状 1 2 1 国内互联网股评现状 随着股票行业日益发展强大,网上也出现了很多关于股票证券的财经网站, 如新浪财经、金融界、证券之星、和讯股票、全景网、胜龙网等等,这些网站 上分别都有专门的版块介绍每只股票的详细信息。有的网站是静态网页,有的 则是动态网页。静态网页无法实时的显示股票的当前价格、涨跌额、成交量等 数据,而动态网页则可以动态的显示股票的当前状态信息。 新浪财经网站下的“千股千评版块以表格的形式动态的显示了每个股票 的详细信息,如代码、名称、股评、最新价、涨跌额、涨跌幅、买入卖出、昨 日收盘价、今日开盘价、最高价、最低价、成交量、成交额等信息,其中股评 信息由两个短旬组成,前半句描述股票的走势,后半句则给出该只股票是买还 是卖的建议。金融界的“股票 版块也是动态网页,能实时显示股票信息,这 些信息和新浪财经的内容大同小异,只是每种信息的取名不一样,如开盘价、 最高价、市盈率、换手、市净率、前收价、主卖( 成交量) 等等。而且金融界 每个网页只显示一只股票的信息,不是以列表的形式显示出所有的股票信息, 主要以数据和图表描述股票的走势,没有可参考的股评。证券之星的“千股千 评一版块显示的信息跟新浪财经类似,内容没有新浪财经丰富,只有股票代码、 股票简称、最新价、涨跌幅、股评,而且证券之星是静态网页,无法动态显示 数据。和讯股票网站是动态的网页,其显示的股票信息和金融界相似,但没有 金融界信息齐全,也没有股评信息。胜龙网是以图表的形式显示股票的走势, 没有相应的股票的评论。全景网和新浪财经内容相似,而且在搜狐和新浪网站 上已声明,它们网上的股评均取自全景网。通过对这几大财经网站观察发现, 它们的股评都来自同一个网站全景网,有的网站上甚至没有股票的相关评 论,因此我们只需从一个网站上提取股评信息即可。 1 2 2 网上信息抽取技术现状 由于互联网日益普及,我们已经进入一个信息爆炸的时代,大量信息均以 网页的形式呈现。目前网页上的数据信息都是以h t m l 形式存储的,可以用浏 览器来查看,但是不能描述数据本身,既没有明确的语义信息,也没有明确的 模式。这样就造成应用程序没有办法直接解析和利用网上的信息,也浪费了资 2 武汉理工大学硕士论文 源。为了应对信息爆炸带来的严重挑战,帮助人们从网上海量信息源中迅速找 到真正需要的信息,增强w e b 上的数据可用性,出现了信息抽取技术【3 捌。可以 通过对h t m l 信息源的包装,以更结构化、语义更清晰地形式展现出来,这样 应用程序就可以利用w e b 中的数据。 网上信息抽取技术的关键是能从半结构化或无结构的网页中提取出用户所 需要的数据,然后将其转化为结构化、语义更清晰地格式。一般被抽取出来的 信息是结构化的,可以直接存放到数据库中,便于用户查询和进一步的分析。 网上信息抽取是从大量的文档集合中直接获取用户感兴趣的信息,借助于自然 语言处理技术,通过对文本中的句子以及篇章进行分析处理后才能完成。 网上信息抽取只能以字符形式对文本匹配识别,与真正意义上的文本理解是 不同的。在信息抽取过程中,用户关心的只是事实信息,而不会去关心文本意 义及深层次的含义或者作者的意图,所以信息抽取只是一种表面上的简化文本 理解技术。 ( 1 ) 网上信息抽取技术的发展和现状 从2 0 世纪6 0 年代中期开始,便有人研究从自然语言文本中获得结构化的信 息,这被公认为信息抽取技术的初始阶段。它的代表是以下两个长期性的自然 语言处理研究项目。 l i n g u i s t i cs t r i n g 项目是纽约大学从2 0 世纪6 0 年代开始并一直延续到8 0 年 代的研究项目。这个项目研究的主要内容是建立一个大规模地英文计算语法, 它的主要应用是从医院出院记录及x 光报告等文件中获取信息格式,这些信息 格式相当于现在所说的模板。 另外一个项目是2 0 世纪7 0 年代耶鲁大学的r o g e rs c h a n k 和他的同事进行的 关于故事理解地研究。他们基于故事脚本理念建立了f r u m p 系统,这个信息抽 取系统可以从各类新闻报道中获取信息,抽取的内容包括政治事变、工人罢工、 地震火山等很多领域的场景。这个系统运用了期望驱动( 自上而下) 结合数据 驱动( 自下而上) 的处理方法,该方法被广泛应用于后续的信息抽取系统。 网上信息抽取技术蓬勃发展的阶段是2 0 世纪8 0 年代末,主要原因是召开了 消息理解系列会议。m u c 系列会议的召开促使信息抽取技术成为自然语言的重 要组成部分,并促进对这个领域研究的发展。 近年来,对网上信息抽取技术地研究更为深入,应用也更为广泛。其主要 偏向于以下这些方面的研究:利用机器学习技术来增强系统地可移植性、研究 篇章分析技术、深层理解技术、多语言文本的处理能力、时间信息处理和网页 3 武汉理工大学硕士论文 信息的抽取等。随着应用领域有所扩展,系统抽取不仅有独立的系统,它还可 以结合其它文档处理技术来建立功能更为强大的信息服务系统。目前,有很多 公司人事信息抽取方面的业务,其中比较出名的公司有:r e x , s o l u t i o n 公司、b h a s h a 公司、c y m f o n y 公司、l i n g u a m a t i e s 公司等。 对中文信息抽取技术方面地研究比较滞后,研究的方向主要集中在对中文命 名实体地识别,目前还在探索关于完整地中文信息抽取系统的设计。比较出名 的成果有,新加坡的肯特岗数字实验室和国立台湾大学参与的m u c 7 中文命名 实体任务地评测工作。i n t e l 中国研究中心的z h o uj o ef 、z h a n gy i m i i l 等人 在a c l 2 0 0 0 上展示了一个抽取中文命名实体及它们之间相互关系地信息抽取 系统,这个系统运用了基于记忆的学习算法来获取规则,并利用这些规则抽取 命名实体以及这些实体间的关系。 总之网上信息抽取技术经历了几个阶段的发展,发展的速度很快,目前 它在自然语言研究方面已经是一个研究较多的方向。 ( 2 ) n 页抽取工具 要从网上抽取所需信息,我们必须要找到相关的网页并抓取下来,现在网 络上盛行很多网页抓取工具,网络蜘蛛即w c b s p i d e r 就是其中一种 4 1 。网络蜘蛛 是一个能够自动提取网页内容的程序,如果把互联网看成是一个蜘蛛网,蜘蛛 程序就像是网上爬行搜索信息的蜘蛛一样,它是搜索引擎的重要组成部分,能 够从互联网下载所需的网页内容。 1 ) 搜索引擎概述 搜索引擎由搜索器、检索器、索引器、用户接口几个部分组成。搜索器就 是一个日夜不停的运行的计算机程序,它的功能是在i m e m e t 上发现和搜索信息, 尽可能多和快的搜索出相关的信息f 7 1 。同时由于网络上的信息更新很快,因此要 定期的更新已经搜集下来的过时信息,避免造成无效的连接。索引器则是先抽 取出表示文档信息的索引项,然后生成文档库的索引表。检索器会根据已生成 的索引表快速检索出用户查询的文档,并进行文档与查询的相关程度评价,将 结果按照相关度排序输出。用户接口就是用来接收用户的查询,显示结果的相 关性程度,目的是使用户更方便的操作搜索引擎,及时地获得信息。 搜索引擎通过一个网络蜘蛛【s 。1 0 】的程序自动的访问网络站点,并识别出网页 上的其他链接,进一步提取出链接所对应的其他页面,然后将搜索到的结果按 照索引建库,当用户输入查询后,检索器会将检索到的结果返回给用户。这样 的搜索引擎搜索信息量大,并且可以及时地更新,无需人工干预,但是返回的 4 武汉理工大学硕士论文 结果信息过多,含有大量不相关的信息,用户需要再对这些信息进行筛选。 索 用 引 户 接 器 口 图1 1 搜索引擎结构图 2 ) 网络蜘蛛基本原理 网络蜘蛛根据某种网页分析算法,过滤掉与查询无关的网站链接,将有用 的链接存储下来放到待抓取的u r l 队列中。接着它会按照一定的搜索策略从等 待队列中选择下一个待抓取的u r l ,并一直重复上述过程,直到达到某种条件, 程序终止抓取过程。被网络蜘蛛抓取下来的所有网页都会被系统所存储,通过 分析和过滤,对它们进行索引,便于之后进行查询和检索。根据这个原理,网 络蜘蛛可以把互联网上所有的与用户查询相关的网页全部抓取下来,其实现如 图1 2 所示。 对于搜索引擎而言,要把互联网上的所有网页抓取下来几乎不大可能。根 据研究数据发现,最大的搜索引擎也只能抓取出大概整个网页数量的4 0 。这 是因为两个方面的原因所造成的,即抓取技术不够完善和存储处理技术有限。 抓取技术的瓶颈会造成无法遍历所有网页,有的网页无法从其他网页上找到链 接。存储处理技术有限即是存储容量不够,或者即使存储容量可以达到要求, 但是下载速度过慢也会限制网页的提取,这样势必会造成搜索效率低下。假如 一个网页平均大小是1 0 k ,那么2 0 0 亿的网页容量就是2 0 0 x1 0 0 0 g 字节,即使 可以存储下来,按照一台机器下载速度为1 0 i g s ,也需要3 3 9 台机器一年多的时 间里不分昼夜的下载,才能将所有的网页下载完。所以很多搜索引擎只下载那 些比较重要的、权威的、知名度高的网页。 网络蜘蛛通过访问站点上的h t m l 文档来找到另一个相关站点,遍历w e b 空 间,不停的从一个网站移动到另一个网站,并且自动建立索引,加入到存储网 页的数据库中。当网络蜘蛛访问到超级文本时它会根据h t m l 文本结构来获取指 向其他超级文本的u r l ,无需用户的干预就能实现在网络上的自动爬行和搜索 信息。 5 武汉理工大学硕士论文 个 可 就 只 页 武汉理工大学硕士论文 量按指数的增长,并也还有动态的变化,其局限性显得越来越突出,定向抓取 网页的垂直搜索就此产生了。 相对于通用搜索引擎的信息量大、查询不准确、深度不够等特点,人们提 出了垂直搜索这种新的搜索引擎服务模式,它针对某一特定领域、某一特定人 群或某一特定需求提供有一定价值的信息和相关服务。垂直搜索引擎为用户提 供的并不是上百甚至上千万相关网页,而是范围极为缩小、极具针对性的具体 信息。如在工作时间,用户要采购一批办公用“笔记本一,需要找相应的供应商 或服务商,就可以到百企搜“产品搜索来搜索:结果只会显示供应“笔记本一 的企业信息,没有其他杂乱的信息,更方便用户找到相应的产品供应商;如对 某个企业感兴趣,可以直接点击查看,供应企业信息会覆盖包括企业独立网站、 b 2 b 平台商铺及行业门户商铺在内的数据源,保证了供应商信息数量的最大化。 垂直搜索引擎与普通的网页搜索引擎的最主要的区别在于它对网页中的信息进 行结构化的信息抽取,即是从网页中的非结构化数据中提取出特定的结构化数 据。垂直搜索策略是把结构化数据作为最小单位,而普通网页搜索引擎则是以 网页或者网页块为最小单位。所以可以看出,网上结构化信息数据抽取的技术 水平是决定垂直搜索质量的重要因素。 1 2 3 语义的研究现状 在w 3 c 网站上,t i mb e r n e r s l e e 等人对语义w e b 的定义是“它是当前w e b 地扩展,它的信息被赋予了定义良好地含义,使得计算机跟人能更好地协作 。 从这个定义看来,语义w e b 并没有取代现有w e b ,而是在现有基础上进行扩展。 它的扩展方式是对信息进行形式化描述,目的是使得机器可以理解现有信息, 以便计算机可以更好地为我们提供信息服务。简单来说,语义w e b 就是对现有 w e b 加注释,这种注释需要采用形式化的语言以便计算机能够理解,并且要能 支持推理。这种注释还必须要遵守统一而且明确地词汇表,以便于多个系统间 进行交互。第一层,对资源统一标识及文档中字符地编码方式进行了规定。第 二层,为了便于计算机处理文档,通过x m l 及x m ls c h e m a ,用自定义标签来 标注文档结构,使文档的语法格式规范化。第三层,资源描述层r d f 和r d f s c h e m a ,它用来明确特定对象间的关系。r d f 对元素间地关系进行定义,它表 现为一个三元组的集合( 相当于自然语句中的主、谓、宾) 。x m l + r d f ( s ) 等于构 建了一个人工智能的语义网络( s e m e n t i cn e t w o r k ) ,用它能进行一定地推 7 武汉理工大学硕士论文 理。人们如果有一套自成体系地完整的术语,可以用x m l 加上r d f ( s ) 建立自 己的语义网。第四层是o n t o l o g y i l l 1 2 1 ,它是一套公用的标准概念体系,明确标 引项的精确含义,使各系统之间能够相互理解。 x m l + r d f ( s ) + o n t o l o g y 为计算机的相互理解建立了基础。第五层是逻辑推 理层,用来进一步做逻辑推理工作。第六层,用来保证信息的可信赖性。增加 的这两个层次增强了计算机对知识的处理能力。综上所述的各个层次,构成了 一个语义网。 语义,在计算机领域的含义通常是指用户对描述自然界所用的计算机知识 表示的解释,简单来说它是用户用来联系自然界和计算机表示的途径。语义w 曲, “将使计算机能像人一样能够理解信息的含义,而不再仅仅是显示数据,它所 提供的语义自动化服务可以使更多的机器能够处理,有助于智能检索和信息共 享,它使得网络可以提供主动的、动态的服务。显然,语义w e b 将是下一代互 联网应用中的神经系统,它将是对互联网根本性地变革。 为了使语义w e b 正常工作,必须有一套完整的信息集合供计算机访问,并 且需要一套让计算机自动推理的规则。此外,语义w 曲的另一个任务是增加w 曲 的逻辑性,运用规则进行推理和选择行为地步骤及回答问题的方法。使得语义 w e b 得以实现的两项关键技术x m l 和r d f 已经成熟,x m l 技术可以让每个用 户定义自己的标签,可以在文档中添加任意结构并且不需要对结构含义进行说 明,但是,这种扩展的自由性所造成的歧义性阻碍了语义w e b 的发展。比如, 在一个文档中用来表示居住地邮箱号的标签 ,在另一个文档中可 能定义为 。o n t o l o g y ,即信息集合,是解决这类问题的一个方法。对 于w e b 上的o n t o l o g y 通常包含一套规则以及分类。分类用来定义对象类型和它 们之间的关系。比如,可以把地址定义为一种属于位置地类别。类、子类以及 实体之间的关系在应用中是十分强大的工具。一般给类定义属性,让子类对父 类的属性进行继承,我们可以表示出实体间的各种关系。另外,o n t o l o g y 中提 供的规则可以实现进一步地推理功能。 1 3 本文研究内容与结构 在对国内互联网股评现状以及网上信息抽取技术现状的分析后,提出了对 基于语义的网上股评信息提取的设计与研究,本文从以下几个部分进行介绍: ( 1 ) 基于网络蜘蛛的信息抽取技术,将新浪财经等网站上的有关于股评信 8 武汉理工大学硕士论文 息的网页提取下来,并对其进行结构化分析,将从网上提取股票信息转化为从 d o m 树上查找相应节点信息。 ( 2 ) 对网上大量股评信息进行分析,总结并归纳出频繁出现,又能表示股 票走势的词汇,建立特征信息库:特征词库、结合词库、建议词库。 ( 3 ) 在建立词库的基础上,依次从特征词库或结合词库中取出词语与股评 信息的前半句进行比较匹配,将匹配成功的词存储到数据库表中作为特征词l 和特征词2 ;接着从建议词库中取词,依次与股评信息的后半句匹配,将匹配出 来的词语作为建议词存放到数据库表中。 9 武汉理工大学硕士论文 第2 章网上股评信息的提取 现今的大量财经网站上包含众多的股票信息,如股票代码、名称、股评、 最新价、涨跌额、涨跌幅、买入卖出价格、昨天收盘价等等,还包含大量无关 的“噪音 信息,如图片、导航栏、不相关的文本信息、广告之类等。要提取 出股评信息,就得对网页进行过滤,去掉导航、广告等不相关信息,还要去掉 h t m l 标签,只提取出网页正文表中的信息,使得待处理信息更加精简,这样 我们就可以定位到网上股评信息。 2 1网上股评信息的定义及内容 随着经济的飞速发展,股票交易渐渐成为一种流行的投资方式,与之同时 产生的股评也愈发显得重要起来,它能对投资者们理财提供了一定的帮助。股 评就是对股票市场的行情的评论和分析,包括专业性和非专业性的术语,是股 票交易活动中应用的专门性的语言。它通常存在于电视、网站、博客、报纸、 证券机构通告。现在互联网上出现了大量关于股票的财经网站,比较权威的有 新浪财经、证券之星、和讯股票等,这些网站及时地将股票证券的相关信息和 数据动态的显示在网页上,并对股市行情进行分析和评论。如新浪财经的千股 千评版块就是对沪市a 股、沪市b 股、深市a 股、深市b 股等进行评论和分析, 将每只股票的详细信息列出,包括股票代码、名称、股评、最新价、涨跌额、 涨跌幅、买入卖出价格、昨天收盘价、今天开盘价、今天最高价、今天最低价、 成交量、成交额等。 本文研究的内容主要是股评这一部分。通过对大量的权威财经网站进行分 析研究后发现,这些财经网站上的股票评论信息均取自全景网,因此本文对大 家都熟悉的新浪财经的“千股千评一版块中的股评信息进行提取。经过对所有 的沪市a 股,沪市b 股的股评研究发现,股评具有统一的格式,由两个短句组 成,前半句是对股评的走势进行评论,后半句则是给出买入卖出或观望的建议。 对于股票的走势,大概可以将其分为三类:涨、跌、平仓。股评的前半句描述 股票走势多种多样,表达形式不一,例如股评语句含有类似“回调迹象、步入 弱势、光脚阴线、连续上攻、向下突破、下调、下跌、下挫、下穿、出局、斩 i o 武汉理工大学硕士论文 仓、跳空、回落 这样的词语,都可以表示股票下跌的趋势的含义。同样后半 句对于股票的买入卖出或是观望也表达形式众多,如“减磅、高抛、卖出、离 场、撤退、出局、斩出、出货都可以表示建议卖出股票的意思。 考虑到股评信息间的分层及约束较为简单,因此在设计股评信息本体时, 采取了o w ll i t e 来实现【1 3 】。p r o t e g e 3 2 1 是本文中用于构建本体的工具。 图2 1 所示的即为股评信息本体框架。图中数据本体是由用户数据本体 ( u s e r d a t a ) 及股评信息本体( s t o c l d n f o ) 构成的。用户数据本体用于表示系统当前用 户的信息,而股评信息本体则表示的是网络蜘蛛信息抽取出来的数据。为了高 效的用本体来描述用户获取数据的过程,将股评信息本体分为两部分:静态数 据本体( s t a t i c i n f o ) 和动态数据本体( d y n a m i c i n f o ) 。其中股评信息本体( s t o c k i n f o ) 中的动态信息包括股评、最新价、涨跌额、涨跌幅、买入卖出价格、昨天收盘 价、今天开盘价、今天最高价、今天最低价、成交量、成交额等等,静态信息 则包括股票代码、名称、法人代表、邮政编码、联系电话、公司网址、工商登 记号、所属板块、发行价格格等等。 图2 1 股评信息本体框架 以下所示的则是基于o w l 语言描述的本体。考虑到篇幅的限制,这里仅截 取顶层用户本体的部分o w l 描述,具体如下: r d f r d f x m l n s = m t t p :w w w s e m a n t i c w e b o r g o n t o l o g i e s 2 0 11 2 o n t o l o g y l2 9 9 4 7 3 6 3 5 1 5 6 o w l # ” x m l :b a s e = h t t p :w w w s e m a n t i c w e b o r g o n t o l o g i e s 2 011 2 o n t o l o g y l2 9 9 4 7 3 6 3 5 15 6 o w l ” ! 一 h t t p :w w w s e m a n t i c w e b o r g o n t o l o g i e s 2 0 1 1 2 o n t o l o g y l 2 9 9 4 7 3 6 3 5 1 5 6 o w l # d y n a m i c l n f o 武汉理工大学硕士论文 r d f s :s u b c l a s s o f r d f i r e s o u r c e = ”& o n t o l o g y l 2 9 9 4 7 3 6 3 5 1 5 6 ;s t o c k i n f o ”房 ! 一h t t p :w w w s c m a n t i c w e b o r g o n t o l o g i e s 2 011 2 o n t o l o g y l2 9 9 4 7 3 6 3 5 15 6 o w l # u s e r d a t a 2 2 网上股评信息的存储格式 截止目前为止,中国股市有上万家公司上市,大量财经网站需要对每个上 市公司的股票信息进行记录和分析,数据如此之多,这些数据就需要分布在若 干个网页上。网页通常是h t m l 格式,要使用网页浏览器来阅读。h t m l 是一 种目前网络上使用得很广泛的简单通用的全置标记语言,可以通过这种语言制 1 2 武汉理工大学硕士论文 作出文本与图片相结合的复杂网页,这些页面可以通过任何类型的电脑或者浏 览器被人们浏览到。 h t m l 标签通常是英文词汇的全称或缩略语( 如“p 一代表p a r a g r a g h ) ,但 它们与一般文本有区别,因为它们放在单书名号里,书写格式如标签p a r a g r a g h 是 ,块引用标签是 有些标签说明页面如何被格式化,如 表示从这里开始一个新段落。还有一些说明这些词如何显示,如 是使文字变 粗。还有一些标签用来表示不显示在页面上的信息,比如标题。标签都是以一 对的形式出现的。例如使用标签 ,则必须以另一个标签 将它关闭。基本h t m l 页面以 标签开始,以 结束,其他的标签的 使用方法和含义如表2 1 所示。h t m l 的结构包括头部( h e a d ) 、主体( b o d y ) 两大部分,其中头部描述浏览器所需的信息,而主体则包含所要说明的具体内 容。标题是位于 和 标签之洲1 4 1 ,它在打开页面时出现在屏幕底部 最小化的窗口。正文则位于 和 之间,即所有页面的内容所在,页 面上显示的任何东西都包含在这两个标签之中。 表2 1 标签的使用方法和含义 指定哪些行作为表头 指定表格中的一行 指定标题列。标题列将在单元格中居中并以粗体显示 指定表格中的单元格 指明哪此行作为表格的主体 表示超链接的起始或目的位置 在文档中嵌入图像或视频片段 表2 2h t m l 属性的使用方法和含义 s t y l es t y l e _ d e f i n i t i o n 规定元素的行内样式( i n l i n es t y l e ) c l a s sc l a s s n a m e规定元素的类名( c l a s s n a m e ) h r e fu r l 定义链接的位置( u r i )

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论