范本:舆情监控-国家自然科学基金申请书5_第1页
范本:舆情监控-国家自然科学基金申请书5_第2页
范本:舆情监控-国家自然科学基金申请书5_第3页
范本:舆情监控-国家自然科学基金申请书5_第4页
范本:舆情监控-国家自然科学基金申请书5_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

国家自然科学基金申请书正文(一)立项依据与研究内容1.立项依据1.1项目的研究意义互联网传播是信息技术迅速发展而形成的新型传播方式,它使信息的广泛传播不再单纯依赖于传统的传播媒介。金融市场是一个信息传播快、市场化程度高的市场,金融市场上虚假消息、舆论操控、证券黑嘴等违法现象层出不穷却又稍纵即逝,金融舆情安全问题越来越突出。利用申请者自行研制的“证券网络舆情监控系统”,分别监控“黑马”、“内幕”消息,如图1,图2所示。根据我们长期针对大规模海量消息的跟踪发现:金融非法信息几乎覆盖了全网,在整个金融消息中所占据的比重不低于30%,其来源庞杂,内容千奇百怪,混杂在正常消息中间真假难辨,具有较强的欺骗性,是我们国家金融市场发展的“毒瘤”!图1:金融舆情中的“黑马”消息图2:金融舆情中的“内幕”消息不法分子对网络金融舆情的操控过程主要包括:通过各种媒介渠道(新闻、BBS、博客、微博客等),大量发布不同形式的消息,来表达其对特定金融实体(某只股票、某家上市公司、某个行业甚至是整个金融大盘)正负面的舆论导向,直接或者间接地左右受众对该金融实体未来走势的看多或者看空倾向性,最终实际影响到该金融实体交易价格或者指数的涨跌,甚至引起整个股市的波动,造成个人财产损失、金融动荡,进而影响国家的经济秩序,最终达到其经济或者政治目的。面对日渐泛滥、不断误导投资者的各类网络财经消息,无论是证券市场管理机构、财经媒体、上市公司还是股民,都需要及时了解和严密监控互联网上有关金融市场的舆情,包括新闻、公告、股评、股民评论等,以期适时化解因信息误传而带来的投资风险。从本质上来看,网络金融舆情监控的关键在于:综合海量的网络消息,剔除各类干扰因素,准确地判别出网络舆情对特定金融对象的看空或者看多的走势,这直接关系到证券价值评估和股价的涨跌。目前金融舆情监控分析大多数还是采用人工盯防的战术进行。由于需要实时跟踪监控的网站数量多、形式复杂、内容广,目前人工方法已难以应对。我们也注意到:近年来,中国证监会等部分金融机构已经逐步建立了相关的网络舆情监控系统,主要解决的还是网络信息自动获取的问题,有部分的舆情热点自动推荐与敏感信息追踪功能。但是,金融舆情监控中还没有真正解决最直接、最关键的问题,即如何判别具体金融对象的舆情看多或者看空走势。如何从互联网海量的金融消息中挖掘并分析出社会民众群体对特定金融对象的观点、态度、意见和看法,如何防止舆情干扰,如何依据微观的倾向性数据综合计算出舆情看空看多的走势,并如何与实际交易价格或者指数的涨跌进行验证,这已成为当前金融领域与计算机领域需要共同面对的一个挑战性研究问题。本课题所研究的金融舆情多空判别和传统意义上的涨跌预测存在着本质的差别:涨跌预测研究的目标是分析金融涨跌的客观规律,其数据来源包括公司业绩、行业分析、来自传统媒体以及网络媒体的各类信息,以客观数据为主;而本课题研究的数据来源全部是互联网上发表的各类消息,以主观的评论为主,研究的目标是从主观数据中计算出舆情对金融对象看多与看空的态度。行为金融学的理论认为[27][29][30][31]:长期来看,金融市场的涨跌由客观的价值规律决定,而在一定的时期内,从众心理导致多数人的看多看空直接决定短期的市场涨跌。值得注意的是:多数人的多空态度不一定与客观的价值规律一致,背后往往存在有意甚至是恶意的题材炒作,例如:奥运题材使得全聚德股票接连多个涨停,偏离了实际价值。而更为严重的是银广夏事件、蓝田事件、亿安科技案在真相曝光之前,舆论长期看多,股票一直升值。金融是国家经济、政治、军事、外交、民生的重要命脉,网络舆情是和谐社会的晴雨表,金融舆情多空判别关键技术的研究意义在于:帮助投资者了解金融市场多空的走势,并获取全面信息,得到科学的数据支撑,避免受到虚假信息的误导,从而化解投资与市场风险;帮助金融监管机构及时掌握发布虚假消息、刻意炒作、颠倒金融舆情走势等不法金融活动,确保金融市场的健康发展;辅助政府机构把握网络大众对金融市场多空走向的综合态度,进行科学的决策,保持金融市场的稳定与繁荣,确保国家经济与政治安全;本项目还开创了计算语言学与行为金融学交叉研究的先河,金融舆情数据为行为金融学研究提供了海量的人类行为取样数据,而之前,行为金融学往往要采用社会调查等手段获取主管数据,耗费巨大,而且还存在样本覆盖不全,在行为金融学的研究领域开创了一个新的研究思路;而行为金融学模型在计算语言学上的应用,实现了从信息表层处理到语义内容解读的飞跃,这对计算语言学与应用模型的交叉融合提供了范例。1.2国内外研究现状及发展动态分析在金融领域上,涨跌预测相关的多空判别是股票投资、证券咨询与金融资讯最基本的研究问题,也是众多金融研究方向的应用目标。多空判别往往采用各种方法,如价值分析、历史数据模拟与挖掘、消息关联挖掘等手段。上文已经讨论过,本项目与传统的涨跌预测存在本质的不同,因此,我们对金融学概念上的多空判断技术不展开调研。本项目涉及到了自然语言处理[1]、信息检索[2]、Web挖掘与行为金融学[27][29](BehavioralFinance,简称BF)等多个学科方向,直接相关的研究点包括网络舆情监测技术(WebPublicOpinionMining)、观点倾向性分析(OpinionPolarityAnalysis)技术[23]和行为金融学。下面分别从这三个方面给出国内外的研究现状及发展动态。1.2.1网络舆情监测技术(WebPublicOpinionMining)舆情是指在一定的社会空间内,围绕中介性社会事件的发生、发展和变化,民众产生和持有的社会政治态度。舆情是群体对于社会中各种现象、问题所表达的信念、态度、意见和情绪等表现的总和。相应地,网络舆情是指社会民众通过网络这一新信息媒介所表达的政治态度、思想意识和行为方式等方面的综合表现,是对现代社会物质、政治、精神和社会四个文明建设活动的各种反映。利用计算机技术来分析和处理社会舆情,最著名的当属美国国防高级研究计划局DARPA(2002)提出的TIA(Total/TerrorismInformationAwareness)计划旨在利用计算机技术分析和处理网络海量数据的社会舆情。借助于新颖的人工智能算法和复杂系统、社会网络等理论,收集尽可能多的网络信息,建立一个庞大的数据库,然后对其进行数据挖掘,从链接关系和网络结构中发现可疑的恐怖活动情报线索[5]。除此之外,麻省理工学院的桑迪·潘特兰德(2006)开展的RealityMiningProject致力于利用现实挖掘技术从社会复杂系统中推导出人的倾向性行为,从而实现对舆情的挖掘[15]。美国亚利桑那大学EdnaReid、MarcSageman等人(2005)开展的DarkWebPortalProject通过提取恐怖主义网站的900,000个WEB页面,采用内容处理等技术手段,分析并预测潜在的恐怖主义袭击危险[8]。最近几年来,我国的一些政府管理部门联合了部分国立科研机构和公司,开展了针对网络舆论、社会犯罪信息、特定网络信息内容、网络军事情报等相关信息进行监测管理相关的一系列系统与关键技术研发和应用系统部署工作。包括国务院新闻办、工业与信息产业部、广电总局、总参三部、公安部、安全部等部门分别已经或者即将研制部署实用系统,目标是对相关的互联网信息进行有效地搜集、整理、分析、控制。其中,工信部等部分部委已经形成了较好的网络特定信息获取基础业务平台。国家863计划以探索导向的形式资助了与舆情分析预警相关的部分技术研究,如:面向舆情的话题发现[3][4][13]、文本倾向性分析等。国家973计划支持了有监督的网络信息内容分析计算的基础理论方面研究。在舆情监测系统的开发和应用方面比较有影响的单位包括英国Autonomy公司、北大方正、托尔思公司(TRS)[11]等。这些单位能够通过提供通用性的产品,对从网络中收集过来的信息进行聚合分析、全文检索,从而从一定程度上满足网络信息情报的分析与挖掘应用。然而,网络情报分析挖掘是一个比较复杂的任务,需要与实际需求紧密结合,通过一两类所谓成熟的算法来达到情报监测的深度分析实际上是不现实的。以中科院计算所[3][13]、北京大学[12]、复旦大学、北京理工大学[10]为代表的一些国内科研机构在网络舆情分析、监测与预警方面进行了大量的研发工作,他们的部分成果已经形成了应用系统并在需求单位进行了试用。此类研究工作融合了搜索引擎、文本挖掘和舆情计算的相关技术成果,从技术创新性上来看优于前述两类公司。但是,目前的不足是这些科研机构各自为战,在舆情监测与情报挖掘的一些棘手问题上没有形成合力,从而在舆情观点分析、舆情态势分析、话题发现与趋势预测等相关问题上还没有实际可用的成果。从国内外总体现状来看,舆情监测的需求非常旺盛、舆情监测的技术研发非常活跃、舆情监测的应用与产业化越发成为业界的热点。从市场需求和监管的需要来看,舆情监测未来的趋势是应用领域越来越广泛,包括政府、行业、企业、安全保障、军事对抗等多领域对舆情和情报监测的需求非常巨大。同时,对舆情与情报监测的技术要求越来越具体深入,包括更广范围的信息收集、更快速的分析响应、更直接的深入追踪、更明确的取证汇总等等。从管理的监督来看,舆情监测未来应该走入规范、有序、合理、持续化发展阶段。需求、研究、应用应该相互配合。相应地,舆情与情报监测的技术发展趋势包括四个方面:构建整体有序、前后联动的舆情监测管理体系与标准;采用更高效的多通道网络信息获取技术;更加准确的宏观舆情态势分析与研判;针对特定舆情事件的跨媒体、跨通道综合信息集成。1.2.2观点倾向性分析(OpinionPolarityAnalysis)观点倾向性分析就是试图用计算机实现根据文本的内容提炼出文本作者的情感方向的目标,通过倾向性分析可以明确网络传播者所蕴涵的感情、态度、观点、立场、意图等主观反映。有些文献也称其为情感分类(SentimentClassfication)。在国外,观点倾向性技术主要应用于电影评价[14]、产品点评[15]等,国内的网络舆情监测中大量引入观点倾向性分析技术。观点倾向性分析最早可以追溯到上世纪九十年代,本世纪初才逐渐成为信息抽取与挖掘的研究热点。在实际应用中,主要采用三类方法:第一类是机器学习方法,常用的机器学习方法有Rocchio方法、kNN方法、决策树方法(decisiontree)、神经网络方法(NeuralNetworks)、支持向量机(SVM)、基于投票的方法(votingmethod)等,还有一些提出了递归调用的策略[22];第二类是语义分析方法,Wiebe,Wilson和Bell识别观点型文章;Pang,Lee和Vaithyanathan根据文章整体的感情色彩而不是主题来区分文章;Dave和Hu的研究都专注于检索评论的观点;Riloff和Wiebe则区分了主动句和被动句。最后一类是广泛使用的浅层自然语言处理方法[17],如信息抽取的方法[16],或者使用情感词典提取数据集中与情感相关的元素作为情感分类的依据。倾向性分析已经取得了长足的进展,自然语言的多样性与复杂性导致了该技术离实际应用还有差距,在金融舆情中还没有实际的深入研究。证券市场舆情信息中存在正反态度并存现象以及对比描述手法,例如一篇股评首先描述了熊市的市场现状,但在结论句中却坚决看涨后市为牛市。这对网络舆情观点倾向性分析技术研究提出了崭新的挑战。1.2.3行为金融学(BehavioralFinance)20世纪80年代对金融市场的大量实证研究发现了许多现代金融学无法解释的异象(anomalies),为了解释这些异象,一些金融学家将认知心理学的研究成果应用于对投资者的行为分析,至90年代这个领域涌现了大量高质量的理论和实证文献,形成最具活力的行为金融学派。1999年克拉克奖得主马修(Matthew·Rabin)和2002年诺贝尔奖得主丹尼尔·卡尼曼(Daniel·Kahne2man)和弗农·史密斯(Vernon·Smith),都是这个领域的代表人物,为这个领域的基础理论做出了重要贡献。将这些奖项授予这个领域的专家也说明了主流经济学对这个蓬勃发展的领域的肯定,更促进了这个学科的进一步发展。国外将这一领域称之为behavioralfinance,国内大多数的文献和专著将其称为“行为金融学”。行为金融学是金融学、心理学、行为学、社会学等学科相交叉的边缘学科,力图揭示金融市场的非理性行为和决策规律。行为金融理论认为,证券的市场价格并不只由证券内在价值所决定,还在很大程度上受到投资者主体行为的影响,即投资者心理与行为对证券市场的价格决定及其变动具有重大影响。它是和有效市场假说(efficientmarkethypothesis,EMH)相对应的一种学说,主要内容可分为套利限制(limitsofarbitrage)和心理学两部分。作为蓬勃发展的新兴领域,行为金融学依然存在很多缺陷;行为金融学是以认知心理学对不确定条件下行为人的决策的研究成果为基础的,行为金融学的很多研究方法是采用实验经济学中的实验方法,研究人的心理对资产组合和定价的影响。但是行为人的心理是什么,以及如何影响资产组合和定价、影响到什么程度等,这些问题都很复杂。在这个新兴的领域里,没有成熟的成果可以利用,这就给学科的发展和确定明确的研究对象带来了困难。本课题所研究的金融舆情恰恰直接映射了信息发布者的心理状况,通过多空判别计算出的多空的走向以及量化的数据,恰恰为行为金融学提供了大量的心理数据。1.3主要参考文献目录张华平,信息检索算法与探索法(译著),人民邮电出版社,2010年5月出版刘群,张华平,骆卫华,孙健,自然语言理解(译著),电子工业出版社,2005年1月(ISBN:7-121-00755-X)张华平,秦鹏,基于关键词提取的检索结果聚类研究,第五届全国信息检索学术会议(CCIR2009),上海,2009-11JamesAllan,RahulGupta,VikasKhandelwal.TemporalSummariesofNewsTopics[C].InProceedingsofSIGIR,pp.10-18,2001DavidJenson,MatthewRattigan,HannanBlau.Informationawareness:

aprospectivetechnicalassessment[C].ProceedingsoftheninthACMSIGKDDinternationalconferenceonKnowledgediscoveryanddatamining,2003NathanEagle,Alex(Sandy)Pentland.Realitymining:sensingcomplexsocialsystems[J].PersonalandUbiquitousComputing,2006,10:255-268Informationprocessingexpertsystemfortextanalysisandpredictingpublicopinionbasedinformationavailabletothepublic[EB/OL]./4930077.htmlJialunQin,YiluZhou,GuanpiLai,EdnaReid,MarcSageman,HsinchunChen.TheDarkWebPortalProject:CollectingandAnalyzingthePresenceofTerroristGroupsontheWeb[J].LectureNotesinComputerScience,2005,3495:623-624张瑾,许洪波,程学旗.面向网络演化信息的动态文摘方法研究[J].计算机学报,2008,4:696-701仇晶,廖乐健.网络舆情与网络文化安全预警技术研究[J].信息网络安全,2008,6:59-61都云程,王海洋,王洪俊.TRS网络舆情监控解决方案[J].信息网络安全,2008,6:69-70李晓明,朱家稷,阎宏飞.互联网上主题信息的一种收集与处理模型及其应用[J].计算机研究与发展,2003,40(12):1667-1671L.-W.Ku,L.-Y.Li,T.-H.WuandH.-H.Chen.Majortopicdetectionanditsapplicationtoopinionsummarization.SIGIR2005:627-628;QYe,WShi,YLi.SentimentClassificationforMovieReviewsinChinesebyImprovedSemanticOrientedApproach.Proceedingsofthe39thHawaiiInternationalConferenceonSystemSciences,2006:120-128;K.Dave,S.LawrenceandD.M.Pennock.Miningthepeanutgallery:opinionextractionandsemanticclassificationofproductreviews.Proceedingsof12thInternationalConferenceonWorldWideWeb,2006:519-528;LDini,GMazzini,Opinionclassificationthroughinformationextraction,Intl.Conf.onDataMiningMethodsandDatabases,2002:232-239;张华平.语言浅层分析与句子级新信息检测研究.中国科学院计算技术研究所博士论文.2005;Hua-PingZHANG,JianSun,BinWANG,ShuoBAI.ComputationonSentenceSemanticDistanceforNoveltyDetection;ChineseJournalofComputerScienceandTech.vol.3,2005WeifuDu,SongboTan:Buildingdomain-orientedsentimentlexiconbyimprovedinformationbottleneck.CIKM2009:1749-1752QiongWu,SongboTan,HaijunZhai,GangZhang,MiyiDuan,XueqiCheng:SentiRank:Cross-DomainGraphRankingforSentimentClassification.WebIntelligence2009:309-314SongboTan,GuoweiWu,XueqiCheng.EnhancingthePerformanceofCentroidClassifierbyECOCandModelRefinement.ECML-PKDD2009WeifuDu,SongboTan.AnIterativeReinforcementApproachforFine-GrainedOpinionMining.NAACL-HLT2009HuifengTang,SongboTanandXueqiCheng.ASurveyonSentimentDetectionofReviews.ExpertSystemsWithApplications.Elsevier.2009SongboTan,XueqiCheng,YuefenWang,HongboXu:AdaptingNaiveBayestoDomainAdaptationforSentimentAnalysis.ECIR2009:337-349刘晓,莫倩.网络评论观点分类研究.北京工商大学学报,2008.26(3):75-79;唐慧丰,谭松波,程学旗.基于监督学习的中文情感分类技术比较研究.中文信息学报,2007.11:88-92; Hu,Jie(1993)"TheImpactofInformationAmbiguityandInformationAsymmetryonFinancialMarkets."Ph.D.Thesis,NorthwesternUniversity.Fama,EugeneF.,1998,“MarketEfficiency,Long2TermReturns,andBehavioralFinance,”JournalofFinancialEconomics.49,pp.283—306.饶育蕾张轮.行为金融学(第二版).复旦大学出版社.ISBN7-309-04547-5/F.999.2005.Barberis,N.,Shleifer,A.,Vishny,R.,1998,“Amodelofinvestorsentiment”JournalofFinancialEconomics49,307—343.Bernard,V.,Thomas,J.,1990,“Evidencethatstockpricesdonotfullyreflecttheimplicationsofcurrentearningsforfutureearnings”,JournalofAccountingandEconomics13,305.2.研究内容、研究目标,以及拟解决的关键科学问题2.1研究内容本课题研究的是金融舆情安全监测中基础的多空判别问题,即从海量网络消息中判别出金融实体(某个上市公司、某个行业或者整体经济)看空或者看多的舆情倾向性。金融舆情的多空判别关键技术研究主要包括四方面的研究内容,即:金融舆情领域本体建模;单篇文章多空倾向性判别;金融舆情噪音的识别与去除;特定对象多空综合研判。研究内容结构图如下所示:图3课题主要研究内容的结构图其中,消息层为金融舆情的信息来源,直接从申请者已研制的舆情监控系统中导入,在这里,不作为本课题的研究点;技术层为单点的技术;而综合层则需要结合行为金融学以及单点技术的处理结果,综合计算,最终实现本课题的研究目的。研究内容依次介绍如下:(1)金融舆情领域本体建模金融舆情领域本体建模主要针对多空判别的需求,对金融舆情消息中常见的概念进行分类,并建立不同类别直接的关联关系。多空判别不同于传统基于主题的分析,简单的通过分类聚类的技术,或者是采用倾向性判别技术往往很难达到理想效果。综合研判多空的时候,往往难以加权融合。因此,面向多空判别的金融领域本体建设极为必要。如:构建上市公司、证券公司、基金、债券、监管机构、行业等多种金融实体对象知识库;另外,对上市公司,我们一般要从高管、财务状况、股权结构、经营管理、突发事件、股价异动等角度对其舆情消息分类,但就财务状况而言,同样还需要考虑的层次有多种情况,见下表:财务状况业绩问题巨亏巨盈、业绩造假、坏账计提、粉饰报表、隐瞒利润、财报造假资金链问题资金链”断裂资金链恶化资金链出现问题负债挪用掏空资金挪用掏空上市公司资产转移资产转移热钱IPO金融危机金融海啸债权债务债权债务转让收购认购债务沉重资产抵押资产抵押资不抵债表1:财务状况本体构建范例(2)单篇文章多空倾向性判别单篇文章多空倾向性判别主要研究的是如何依靠单篇文章的文本内容,扫描识别出文本内容中的金融本体,关联判别出文章作者的多空态度。与传统倾向性分析不同的是,本课题不仅需要判别出其多空倾向性,还需要给出量化的多空概率,同时判别出多空关联的金融对象,以及其描述的具体信息点。距离来说,一篇包含万科的消息,我们不仅仅要判别其对万科的看多看空态度,还有量化计算其多空对比概率,并给出其关联的是万科,具体给出多空数据的信息点:究竟是财务方面还是业绩方面,或者是描述高管问题的。如果文章牵涉到别的金融实体,还需要递归计算出其他结果。(3)金融舆情噪音识别与去除金融舆情噪音识别与去除研究的是如何识别题材炒作、虚假消息、有意误导等金融舆情噪音,这些噪音数据并不能反映人们的实际愿望,将严重干扰最终的多空综合判断,本课题主要研究噪音数据的分类及其不同维度的特征,并针对性地提出有效的去噪算法。例如,金融新闻中有一类消息往往是金融实体投放的公关性质的软文,主要是对其最近金融活动的赞誉,类似于广告;还有一类消息是不法机构传播的虚假黑马消息。在具体判别的时候,我们需要综合消息作者、主要的媒介形式、最初发表消息的机构、重复转载等特征,具体计算的时候,主要在论坛、博客等非正式媒体上,同时内容不断重复,自己转载传播的消息,往往是非法的虚假内幕推广。而发布在新闻媒体上、非权威媒体(权威媒体的有中国证券报、监管机构、交易所等)上发布,新闻媒体自动转载数量较少,且没有注明转载的情况往往属于公关软文。(4)多空综合研判研究多空综合研判研究的是如何综合海量的微观消息多空判别结果,引入影响度与可信度模型,依据行为金融学的理论,从当前消息的宏观统计以及历史对比两个角度来判别最终的多空结果,并给出科学的宏观数据支撑与微观内容描述。影响度与可信度模型依据作者、媒介形式、具体媒体以及转载情况综合得到,如新闻媒体的影响度与可信度往往大于博客,而博客大于论坛;同种媒体形式,有影响力的权威媒体往往优于非权威媒体;工作时间长、影响力大的作者优于刚出道的作者,而转载数点击数多,或者被权威媒体转载的消息往往优于一般消息。具体的权重计算公式需要综合启发式经验规则与历史数据的机器学习。2.2研究目标研究目标本项目的研究目标是:综合行为金融学模型与观点倾向性分析技术,从海量网络消息中判别出金融对象(某个上市公司、某个行业或者整体经济)看空或者看多的舆情倾向性;完成证券舆情多空判别原型系统,与实际金融市场的涨跌进行验证,争取达到国际领先水平,为科学的金融决策打下基础,确保国家经济安全、社会和谐稳定以及公民财产性收益。预期的具体目标包括:1.构建面向金融舆情多空判别的本体知识库;2.基于金融实体概念与多空属性概念,提出金融舆情单篇文本的多空判别算法;3.基于金融舆情海量消息,提出题材炒作、软文宣传、观点诈骗等金融舆情操纵行为的监测算法;4.结合行为金融学理论,针对特定金融监控对象,从多空静态对比以及历史走势等角度,提出金融舆情多空综合研判模型;5.设计并实现金融舆情多空判别原型系统。6.在国内外刊物和国际会议上发表高质量论文9篇,其中EI/SCI/ISTP收录5篇;7.申请软件著作权1项,申请专利1项。8.培养中青年学术骨干1名,博士研究生1名,硕士研究生3名;9.项目成果将召开鉴定会,申报北京市科技成果奖,并尝试提供公众服务,希望对首都社会与经济的发展做出实质的贡献。考核的技术指标1.金融舆情单篇文本的多空判别算法准确率达到85%以上;2.金融舆情操纵行为的监测算法准确率和召回率达到75%以上;3.金融舆情多空综合研判算法的准确率达到85%以上;2.3拟解决的关键科学问题本课题研究的是金融舆情安全监测中基础的多空判别问题,从本质上来看,其科学问题是:自然语言表达的观点倾向性综合判定问题。与单篇内容的倾向性分析不同,综合研判面对的不是单一的消息,需要针对海量消息,不同微观消息的态度千差万别,可信度与影响度也各有千秋;我们需要综合当前状态与历史消息,构建复杂的综合模型。金融舆情多空判别拟解决的关键问题包括:(1)单篇文章褒贬倾向性分析问题单篇文章的褒贬倾向性分析技术是金融舆情多空判别的基础,而在褒贬倾向性分析技术本身还有诸多有待探索的问题,比如反讽语气与领域性适应问题,离实际应用还有差距,而且在特定的金融舆情领域中,倾向性研究尤为复杂;例如一篇股评首先描述了熊市的市场现状,但在结论句中却坚决看涨后市为牛市。另外,单篇金融领域的文章往往会力捧某几只股票,而对其他股票提出批评或者质疑,如何将单篇文章的褒贬倾向性关联到不同的金融对象,也是一个亟待解决的问题。针对金融舆情应用的特点,本课题建立金融实体概念、多空判别概念、金融对象概念等不同的本体概念,解决了倾向性分析的语义计算问题;并将多空判别从文档级别细化到句子级别,解决了倾向性分析的实体关联问题;有针对性地改进单篇文章倾向性分析的精度。(2)解决金融舆情的去噪问题;在金融舆情中,存在大量人为的题材炒作,黑白颠倒与混淆是非的噪音消息比比皆是,这些噪音数据并不能反映人们的实际愿望,将严重干扰最终的多空综合判断,本课题拟建立金融舆情噪音语料库,采用启发式与机器学习结合的手段,抽取噪音消息的内容特征与行为特征,为金融舆情的去噪提供知识库支持,并提供实验测试床;(3)多空综合研判的融合性问题;金融多空综合研判作为一个二值判定问题,非空即多,极容易出错。而金融市场的多空走势不完全取决于舆情消息,往往和上市公司的实际业绩、国际与国内的经济大环境、产业政策与景气指数、甚至还有许多不可预测的突发性事件有着千丝万缕的联系。本课题拟应用行为金融学的已有研究成果,除充分计算内容特征外,还将引入消息源的可信度模型,全面考虑消息的发布时间、发布媒体以及作者等多维度信息,构建金融舆情多空综合研判的理论模型。并采用大量的历史数据进行训练,通过机器学习的方式,尽可能地降低综合研判的不确定性,提高多空判别的针对性与准确性。3.拟采取的研究方案及可行性分析拟采取的研究方案 总体研究方案架构图如图4所示:图4:研究方案架构图其中,金融舆情数据库是整个算法的数据输入,而金融舆情本体库是整个研究方案的知识支撑;金融舆情去噪处理为综合多空研判排除干扰因素,而单篇消息多空判别主要依据单篇内容的扫描、计算与关联分析,实现微观消息的准确分析;多空综合研判,综合当前微观的多空判别结果,与历史多空走势进行对比,最终研判出总体的多空态度。按照研究内容,技术路线介绍如下:(1)金融舆情领域本体建模金融舆情领域本体库主要包含金融实体对象库、金融信息点库、金融多空属性库,金融媒体可信度与影响度、多空判别权重规则库、金融噪音特征库。金融实体对象库主要包括在上交所、深交所、港交所、纳斯达克、纽约股市等上市的中国公司、股票代码、高管、行业等数据,以及行业、大盘乃至交易所与各监管机构的基本属性信息。这是多空判别的研究对象。金融信息点库主要包括金融市场多空的评价角度,根据金融专业的分类规则,初步的描述角度,如下表所示:金融对象类别类别信息点上市公司高管人事变更违规违法薪酬问题股权激励股权套现伤亡履历问题财务状况业绩问题(巨亏巨盈、造假、坏账计提、粉饰报表、隐瞒利润)资金链问题挪用掏空资产转移债权债务资产抵押股权结构股东变更资产注入股权收购、出售兼并重组首发增发整体上市、分拆上市股份冻结股东纠纷行权、限售解禁退市破产经营管理产品价格调整提供担保生产问题(停产、转产、扩产)套期保值信息披露问题关联交易经营违规(合同诈骗、伪造公文、虚开发票等)重大合同政策影响突发事件安全事故(爆炸、中毒、火灾等)涉讼、遭调查天灾(地震、水灾、台风等)产品事故(质量问题)股价异动连续涨停跌停股价遭操纵遭基金机构重仓或抛售内幕交易券商高管人事变更违规违法薪酬问题伤亡履历问题财务状况经纪、自营业务状况资金链问题资产转移债权债务资产抵押股权结构股东变更资产注入股权收购、出售兼并重组上市退市股份冻结股东纠纷清盘破产经营管理提供担保规模变化关联交易违规违法经营(合同诈骗、挪用、内幕交易等)新业务政策影响突发事件安全事故(爆炸、中毒、火灾、破坏等)涉讼、遭调查天灾(地震、水灾、台风等)基金高管人事变更违规违法薪酬问题伤亡履历问题内部管理业绩问题(巨亏巨盈、造假、坏账计提、隐瞒利润)管理费老鼠仓内幕交易涉讼、遭调查政策规范新品种推出经营情况发行募资情况赎回、增资分红派息拆分、合并投资配置业绩表现持仓变化净值变化开户情况基指情况期货期货品种情况政策规范新品种推出品种表现(价格、成交量、增减仓)品种遭操纵内幕交易表2:金融描述信息点库金融多空属性库:包含表示多空属性的词语,多空极性及表示程度的权重;金融媒体可信度与影响度:包括媒体的类型(新闻、论坛、博客、微博客)、信息源(发布信息的媒体名称)、可信度指标、影响度指标;多空判别权重规则库:主要包括推理计算的规则、权重计算参数;金融噪音特征库:主要用于噪音监测,包括的要素有消息的信息源、作者、内容特征、时效性特征等;金融舆情本体建模的主要技术手段有:引入金融现有的成熟知识库或者启发式知识;从海量的历史信息库中,进行语言分析,抽取出相关的候选知识。舆情本体的自动提取是基于局部性原理的有意义串提取方法的基础上进行。首先使用张华平研制的ICTCLAS系统对语料C进行分词,从分词结果中选出频率大于一定阈值的字符串作为频繁模式集合FP(C)。FP(C)被称为重复串;上下文分析阶段,计算重复串S的AV值,滤掉AV值过低的字符串;局部性分析阶段,计算重复串S的LE值;最后,根据AV值和LE值给S打分,衡量它能成为有意义串的可能性,如果该值大于一定阈值,则认为该字符串是有意义串。有意义串对于新词识别有着非常好的效果,可以通过有意义串识别获取像“创业板”,“低碳经济”等新词汇,可以作为本体库中的候选。(2)金融舆情去噪金融舆情去噪包括三个关键的处理过程:转载识别、传遍路径跟踪、高速特征匹配。转载识别对不同来源的同质信息进行过滤集中处理,去除重复的信息,包括:URL的重复信息和内容的重复两个方面。图5转载识别中的自动排重处理在信息采集的过程中,对数据进行排重,数据的排重包括:URL的排重和内容的排重,将排重结果返回给金融舆情去噪系统。转载识别结果如下图所示:图6转载识别结果展示传遍路径追踪主要是针对特定的消息内容,依据其发表时间,建立传遍路径图,消息内容我们一般采用关键词提取技术,提取3-5个关键词,然后对关键词计算签名,以保证消息内容语义上接近同时又具备一定的兼容性。传遍路径结果如下所示:图7消息传遍路径展示高速特征匹配采用基于优化的双数组TRIE树算法,双数组Trie(Double-ArrayTrie)的数据结构是两个整数数组,一个是,一个是。这个算法的本质就是将Trie树结构简化为两个线性数组,如图8所示: 图8.双数组Trie树结构图数组和数组中的元素是一一对应的,数组中的每一个元素相当于Trie树的一个节点,其值做状态转移的基值,值相当于校验值,用于检查该状态是否存在。对于从状态s到状态t的一个转移,必须满足如下两个条件:其中c是输入变量。令为数组下标,和均为0时表示该位置为空,为负值时表示该状态为一个可结束状态。两个数组的构造方法如下:对于状态、、…,状态A在数组中下标为i,,令A的值,满足条件:…,也就是说,的值只要能使的直接子结点都能放入数组即可。的值确定以后,状态、、…在数组中的下标随即确定,分别为,,同时。数组构造完成之后,要查找一个关键码,只需判断是否等于,如果是,则表示在Trie树中搜索到,否则,搜索返回失败。双数组Trie树(Double-ArrayTrie)算法有效的降低了Trie树结构的空间浪费,但是利用该算法生成的数组中仍然还会存在较大的数据稀疏。为了进一步减少数组空间浪费,我们对构造数组的算法进行优化,在构造数组的时候加入一种排序策略,即每一次都先处理当前分支结点最多的结点。我们考虑到在双数组Trie树算法中,每一个结点在数组中的位置,都是由其父亲结点也就是上一状态的值决定。而一个结点其值的确定取决于数组的当前空闲位置以及该结点的直接子结点。一个结点的直接子结点越多,该结点在找值时所遇到的冲突也就越多。因此优先处理分支较多的结点,有利于减少冲突,避免数组增长过大,减少数据稀疏。构造完成后,在消息内容中,特征快速查询算法如下:1.读入输入变量。2.Ifthennextstate:=elsefailendif 3.若不为负,重复步骤1。否则,为一个可结束状态。本课题拟建立金融舆情噪音语料库,采用上述双数组TRIE树方法,进行快速模型匹配,最终识别出金融噪音数据。针对内容特征不明显的,则采用重复模式识别技术,可以有效地排除噪音,提高最终的综合性能。(3)单篇文章多空判别技术单篇文章多空判别的流程分为以下几步:采用上述的双数组TRIE树算法,采用金融舆情本体库,快速扫描文章的内容信息;将金融多空属性词与具体的金融信息点关联,并映射到具体的金融对象。综合统计多空数据结果,依据权重进行加权计算,最终得到该篇文章的多空倾向性;以《万科的千亿修炼》为例,本体扫描后,按照句子顺序,结果如图9所示,其中忽略了与多空判别无关的句子,红色的字为看多本体,绿色的词为看空本体,而蓝色的字为金融信息点。/s/blog_5f580a520100gb5a.html"万科的千亿修炼

多:0.875000

我们设计了“企业增长驱动力模型”。

万科的企业治理结构即便不算中国最好的。

至少也是最好的企业之一。

万科建立了比较健全的领导力发展体系。

万科企业文化的基础十分牢靠。

万科的一位高管曾说。

大批量定制的产业化模式需要万科将客户导向提升到一个新的层面。

商业模式创新是万科引领下一个十年的机遇所在。图9.单篇消息本体扫描结果示例扫描完成后,关联的词对如下所示:<企业,增长>

<企业,好,不>

<企业,好>

<万科,健全>

<企业,牢靠>

<万科,高>

<万科,提升>

<万科,创新><企业,增长>

<企业,好,不>

<企业,好>

<万科,健全>

<企业,牢靠>

<万科,高>

<万科,提升>

<万科,创新>图10.单篇消息多空词对结果示例 综合计算,最终得到该文章为看多,概率为0.875。以“跌停榜第110期:管窥海王生物——年报为何藏谜”为例,看空判别过程类似,见图11:观点:观点:

文章:跌停榜第110期:管窥海王生物——年报为何藏谜

空:0.200000

2007年度业绩预告修正为同比有所下降。

2007年度业绩预告修正为同比有所下降。

这不禁让许多投资者纳闷……[详细]最差老板“花落”海王生物。

《福布斯》中文版第三次发布了中国上市公司最佳老板、最差老板榜单??

名列“中国上市公司最佳老板”排行榜榜首。

而海王生物工程(000078)总经理刘占军则登上“中国上市公司最差老板”榜并从上届“最差老板”第六名升为第一。

这是海王生物上市以来首次出现亏损。

这笔债务极有可能又落到海王生物的头上。

海王生物(000078.SZ)在资本市场的名声一向不佳。

海王生物面临着极大的债务困境。

海王生物的负债总额27.55亿元。

海王生物(000078.SZ)在资本市场的名声一向不佳。

海王生物面临着极大的债务困境。

海王生物的负债总额27.55亿元。

词对:

<业绩,下降>

<业绩,下降>

<生物,差>

<公司,最佳>

<公司,最佳>

<公司,差>

<生物,差>

<生物,亏损>

<生物,债务>

<市场,佳,不>

<生物,债务>

<生物,负债>

<市场,佳,不>

<生物,债务>

<生物,负债>图11.“海王生物”的看空判别示例(4)多空综合研判技术;多空综合研判主要应用行为金融学的模型框架,形式化表述如下:主要判别过程如下:统计每条微观消息的多空态度与权重;消息的可信度计算:主要依据消息的媒介形式、发表的媒体、作者、转载情况综合计算;消息的影响度计算,主要依据消息的点击数以及转载数,同时考虑消息的媒介形式、发表的媒体、消息作者。按照每天微观消息的信息点进行分类整理;综合计算每个信息点的多空对比数据;根据金融学的启发式知识,综合补贴信息点的多空数据,计算出最终的多空比例。另外,多空综合判别还需要考虑两个关键问题:(1)金融舆情看多看空不对称问题:金融舆情存在“报喜不报忧”的传统,看多消息的发布往往会得到金融对象的大力配合,甚至有些消息本身就是金融对象发出的广告性质的通稿,而看空信息在没有确凿证据支撑前,往往话语空间有限。因此,除非有特别糟糕的情况出现,比如老鼠仓或者是有重大失误外,特定金融舆情对象往往都是看多信息为主。为此,我们还要进一步对综合研判模型进行修正,具体思路为:引进历史多空数据维度,即相比过去一段时间来看,看多消息总数量或者比例的下调,均可以视为看空的特征。也就是说,对于某只股票来说,尽管所有的消息面上,其多空比例中多占优,但是,相比最近一段时间来说,看多的实际数量或者多空对比都在减少,那么,很可能是公众看空的一个例证。没有更多利好消息支持,就是外消息。因此,判别模型需要修正如下:(2)金融舆情多空归一化问题:采用上述公式计算出来的多空结果,如1.0并不一定就意味着100%看多,该数据更大程度上是一种比较意义。我们需要基于历史数据,进行机器学习,引入相对完善的调节因子,进行归一化,并定位出多空分界线。以联想集团(00992.hk)2009-8-11~18的消息为例,综合研判的结果示意如下:联想联想集团,股票代码(00992.hk)分析结果(时间跨度:2009-8-11~2009-8-18)看多:

1025篇看空:

304篇看中:

2986篇多空指数(无加权融合计算)为:0.77多空指数(排除金融舆情噪音后)为:0.57多空指数(考虑消息的可信度与影响度,加权融合计算)为:0.87关键的支持消息包括:美林重申联想hk)跑输大市评级-证券频道联想集团(00992.hk)-毛利率趋升联想集团涨5%大和对前景持乐观看法

【大行言论】联想集团(00992-hk)涨2%,大福建议趁低吸纳前一阶段多空指数平均值:0.48综合计算结果:0.89多空结论:金融舆情综合看多,看多结论为A+级图12.联想集团(00992.hk)综合研判结果示例(原型)可行性分析(1)课题组融合了计算语言学、行为金融学、经济管理的老中青三代学者,为本课题的顺利开展奠定了智力基础。(2)相关的底层支撑技术已经相对成熟本课题所需要的底层支撑技术包括:基于双数组Trie的特征快速匹配,基于AV值的有意义特征识别、汉语分词等自然语言处理技术、本体库构建以及内容排查方面,课题组成员已经研究多年,已经相对成熟,不存在技术风险;在行为金融学方面,已经有明确的定论,羊群效应会使得金融舆情最终左右短期的金融市场波动,与理性的价值分析并不完全一致。这也确保了本课题大方向上的正确性。(3)技术研究准备充分4.本项目的特色与创新之处4.1本项目的特色(1).基于已有通用技术,充分考虑金

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论