基于对象计算实现网络科技信息的监测_第1页
基于对象计算实现网络科技信息的监测_第2页
基于对象计算实现网络科技信息的监测_第3页
基于对象计算实现网络科技信息的监测_第4页
基于对象计算实现网络科技信息的监测_第5页
已阅读5页,还剩72页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基于对象计算实现网络科技信息的监测基于对象计算实现网络科技信息的监测张智雄、刘建华、谢靖、邹益民、钱力张智雄、刘建华、谢靖、邹益民、钱力国家科学图书馆国家科学图书馆提纲提纲n基本情况介绍基本情况介绍n建设成果展示建设成果展示n系统的关键技术系统的关键技术n重中之重:对象计算的思路和方法重中之重:对象计算的思路和方法提纲提纲n基本情况介绍基本情况介绍n建设成果展示建设成果展示n系统的关键技术系统的关键技术n重中之重:对象计算的思路和方法重中之重:对象计算的思路和方法1.基本情况介绍基本情况介绍战略情报的很多战略情报的很多资源都由特定机资源都由特定机构通过网络发布构通过网络发布1.1.基本情况介绍

2、基本情况介绍nScience Monitor and Detection based on Science Monitor and Detection based on Scientific Web Resources is one of the Scientific Web Resources is one of the important research issues in National important research issues in National Science LibraryScience Library:n“十一五十一五”国家科技支撑计划子课题国家科技支撑计划子课

3、题“网络科技信息监测与评价网络科技信息监测与评价”(2006BAH03B052006BAH03B05)2007-20102007-2010n国家社会科学基金国家社会科学基金“网络科技信息中爆发主题的监测与分析方法网络科技信息中爆发主题的监测与分析方法研究研究(09BTQ035)”2009-2011(09BTQ035)”2009-2011n中国科学院知识创新工程重要方向项目中国科学院知识创新工程重要方向项目“重要科研机构发展态势重要科研机构发展态势自动监测的关键技术研究与突破自动监测的关键技术研究与突破” ” 2009-20102009-2010n中国科学院知识创新工程重要方向项目中国科学院知识

4、创新工程重要方向项目, ,科技发展态势自动监测科技发展态势自动监测体系体系(2009-2011)(2009-2011)n“科技机构自动监测服务系统科技机构自动监测服务系统”子项目子项目n“专门领域自动监测服务系统专门领域自动监测服务系统”子项目子项目n“科技情报监测与分析知识本体系统科技情报监测与分析知识本体系统”子项目子项目1.基本情况介绍n开发和建设了网络科技信息监测系统,可以为相开发和建设了网络科技信息监测系统,可以为相关科技战略情报研究提供监测服务关科技战略情报研究提供监测服务n能够帮助战略情报研究团队全面及时地跟踪监测能够帮助战略情报研究团队全面及时地跟踪监测n多个目标机构和目标领域

5、的动态信息多个目标机构和目标领域的动态信息n有效辅助战略情报研究团队识别有重要情报价值的信有效辅助战略情报研究团队识别有重要情报价值的信息息n解析解析PDF、WORD等格式的重要报告内容以识别情报等格式的重要报告内容以识别情报类型类型n实现监测资源的主题聚类导航实现监测资源的主题聚类导航n自动揭示重要主题和重要对象自动揭示重要主题和重要对象n推荐一定时间窗口内的热点对象与热点主题;推荐一定时间窗口内的热点对象与热点主题;n为战略情报研究人员提供了一个在线计算机情报工作为战略情报研究人员提供了一个在线计算机情报工作平台,实现了动态监测快报类情报产品的高效率加工平台,实现了动态监测快报类情报产品的

6、高效率加工生产报道生产报道1.基本情况介绍n形成了形成了“能源能源”等等5个重点领域的网络科技个重点领域的网络科技信息监测,形成了一定的面向实际应用的信息监测,形成了一定的面向实际应用的科技信息监测与服务能力科技信息监测与服务能力n战略情报研究团队合作战略情报研究团队合作n“科技政策与战略科技政策与战略”n“空间光电科技空间光电科技”n“先进能源科技先进能源科技”n“资源与环境资源与环境”n“信息科技信息科技” n构建了构建了“科技政策与战略科技政策与战略”、“空天科技空天科技”、“能源能源科技科技”、“资源与环境资源与环境”、“信息科技信息科技”等等5个领域的个领域的网络科技信息监测系统网络

7、科技信息监测系统1.基本情况介绍n监测的重点内容监测的重点内容n重要战略声明重要战略声明nformal statement & declaration on some key sciences issuesn重大战略规划重大战略规划nstrategy (strategic plan) for science, technology and innovationn重要项目与计划重要项目与计划nkey initiative & research programn预算预算nscience budget, science funding, R&D budgetn统计评价统计评价nScience, Te

8、chnology and R&D statistics, GDE on R&D, S&T Indicators 国际竞争力指标国际竞争力指标、OECD创新记分牌创新记分牌1.基本情况介绍n监测的重点内容监测的重点内容n政策措施政策措施nscience and technology policy, innovation management, decision making, policy-makingn机构调整机构调整norganizational adjustment, change, expansion, organizational restructuringn应对第二次应对第二次Spu

9、tnik危机,美国科技创新战略调整的思路、危机,美国科技创新战略调整的思路、方向和布局方向和布局n重大成果重大成果nBreakthrough, scientific achievement, research achievements, outstanding research accomplishmentsn研究报告研究报告nPeriodic Report, Annual Report, Technical Report1.基本情况介绍n监测的对象选择监测的对象选择n国家选择:国家选择:n科技大国、金砖科技大国、金砖5国、发达国家、新兴国、发达国家、新兴国家国家.n机构选择机构选择n科技管理

10、机构、科技资助机构、具体研科技管理机构、科技资助机构、具体研究机构究机构.n重点人物选择重点人物选择n国家领导人、科技管理机构负责人、科国家领导人、科技管理机构负责人、科研执行机构负责人、科学家研执行机构负责人、科学家n.1.基本情况介绍n“科技政策与战略科技政策与战略”监测选择了监测选择了85个机构个机构nOSTP (Office of Science and Technology Policy)nResearch Councils UK (RCUK)nThe National Science Foundation (NSF)nThe International Energy Agency

11、(IEA) nSciDev.Net nOECDnWorldwatch Institute nRAND nScience BusinessnHudson Institute nThe Brookings Institution提纲提纲n基本情况介绍基本情况介绍n建设成果展示建设成果展示n系统的关键技术系统的关键技术n重中之重:对象计算的思路和方法重中之重:对象计算的思路和方法2.建设成果展示建设成果展示n(1)通过敏感对象实现情报价值判断)通过敏感对象实现情报价值判断nIdentify valuable information from crawled webpages by sensitive

12、 vocabulary nsensitive word such as:nStrategic plan, vision & strategy, policies, guidelines, annual Report, organization Chart ncalculate the importance of the web page, mark the importance of web pages by the number of stars给出每天监测到的给出每天监测到的信息数量信息数量, 按按星级星级来标识监测到信息的重要度来标识监测到信息的重要度ProfilingProfiling

13、能源领域一个月来的主要主题和重要科研对象能源领域一个月来的主要主题和重要科研对象2.建设成果展示建设成果展示n(2)实现情报类型的分类)实现情报类型的分类nIdentify the category which the intelligence belong ton9 intelligence category nDeclaration, Strategy, Project, Budget, Statistics, Policy, Adjustments, Achievement, ReportnUsing automatic classification tools对监测到的信息资源按情报性

14、质进行自动分类和导航对监测到的信息资源按情报性质进行自动分类和导航2.建设成果展示建设成果展示n(3)对富文档内容进行监测)对富文档内容进行监测nRich Text: PDF files, WORD files, PPT filesnReport, Statistics, Declaration, SummariesnHigh value of informationnIdentify Rich Text files after each crawlnCache the Rich Text files for future using富文档内容进行监测富文档内容进行监测富文档内容进行监测富文档

15、内容进行监测2.建设成果展示建设成果展示n(4)实现文本内重要对象的抽取和揭示)实现文本内重要对象的抽取和揭示nExtract key terms and objects from the Web pagesnInformation ExtractionnTerm extraction原文原文Terms and Objects ExtractonKey TermsKey Objects2.建设成果展示建设成果展示n(5)实现监测内容归类导航)实现监测内容归类导航nClustering the web pages in a web site for easy browsing and explo

16、ringnTopic clustering based on extracted terms可以按可以按时间段时间段( (今天、十天、本月)和今天、十天、本月)和地理分布地理分布等来展示监测到的信息资源等来展示监测到的信息资源按照按照地理分布地理分布来展示十天内监测到信息资源来展示十天内监测到信息资源按照可视化方式导航特定主题的监测信息按照可视化方式导航特定主题的监测信息可以深入对特定机构的重要信息进行深入分析,如选择可以深入对特定机构的重要信息进行深入分析,如选择“美国能源部美国能源部”对对“美国能源部美国能源部”的信息进行主题导航的信息进行主题导航2.建设成果展示建设成果展示n(6)识别出

17、选定机构的重要对象)识别出选定机构的重要对象nKey projectnKey personnKey institutionnKey conferencenIdentify key objects: SciDev.NetIdentify key objects: SciDev.Net对美国能源部的关注的重要对象进行揭示,能源部相关重要人物对美国能源部的关注的重要对象进行揭示,能源部相关重要人物Identify key objects: Department of Energy2.建设成果展示建设成果展示n(7)实现不同机构)实现不同机构重要主题重要主题的揭示的揭示nIdentify import

18、ant topics in a web sitentopic based on terms frequencyIdentify key topics: SciDev.NetIdentify key topics: Science Business2.建设成果展示建设成果展示n(8)实现不同机构的)实现不同机构的热点热点的揭示的揭示nIdentify the hot topics in a periods对美国能源部的对美国能源部的“Steven Chu”“Steven Chu”各个时间段的信息进行揭示各个时间段的信息进行揭示对美国能源部的各个时间段的对美国能源部的各个时间段的“热点主题热点主题

19、”进行揭示进行揭示对美国能源部的对美国能源部的20102010年年1212月的几个热点主题在不同时间的主题趋势进行揭示月的几个热点主题在不同时间的主题趋势进行揭示对美国能源部的各个时间段的对美国能源部的各个时间段的“热点对象热点对象”进行揭示进行揭示后台管理系统后台管理系统, ,可以实现对专报、快报资源的选择和编辑可以实现对专报、快报资源的选择和编辑提纲提纲n基本情况介绍基本情况介绍n建设成果展示建设成果展示n系统的关键技术系统的关键技术n重中之重:对象计算的思路和方法重中之重:对象计算的思路和方法3.系统的关键技术Automatic ExtractionData MiningAnd In-d

20、epth AnalysisResearch ProfilingResearch objects3.系统的关键技术研究描绘(研究描绘(Research Profiling)结构化的语义数据结构化的语义数据结构化的科研对象结构化的科研对象及其关系及其关系结构化科研术语结构化科研术语重要科研机构的发展态势监测重要科研机构的发展态势监测网络科技信息资源网络科技信息资源数据来源数据来源 基础数据基础数据 分析及可视化分析及可视化应用应用3.系统的关键技术n新资源的识别与判断新资源的识别与判断n对于采集到的网络信息资源,识别和判断哪些资对于采集到的网络信息资源,识别和判断哪些资源是新资源,并确定其出现的时

21、间段。源是新资源,并确定其出现的时间段。n网页类型的分析与识别网页类型的分析与识别n对采集到的网络信息资源(主要是网页)进行类对采集到的网络信息资源(主要是网页)进行类型识别,区分哪些是有特定主题内容的主题网页,型识别,区分哪些是有特定主题内容的主题网页,哪些是密集链接、不包含或包含极少叙述文字的哪些是密集链接、不包含或包含极少叙述文字的噪音网页(如索引页、列表页、表单页、图片页、噪音网页(如索引页、列表页、表单页、图片页、视频页、正文文字极少的网页)。有特定主题内视频页、正文文字极少的网页)。有特定主题内容的主题网页是下一阶段监测分析的基础。容的主题网页是下一阶段监测分析的基础。3.系统的关

22、键技术n网页资源的主体内容识别与判断网页资源的主体内容识别与判断n网页资源主体内容的识别与判断技术的目标网页资源主体内容的识别与判断技术的目标是从网页中的半结构化信息中抽取出网页的是从网页中的半结构化信息中抽取出网页的主体内容,而过滤掉网页中经常包含的广告主体内容,而过滤掉网页中经常包含的广告链接、导航条、版权等非网页资源主体内容链接、导航条、版权等非网页资源主体内容的噪音数据。的噪音数据。3.系统的关键技术n资源信息价值的识别与判断资源信息价值的识别与判断n对于采集到的网络信息资源,需要识别出哪对于采集到的网络信息资源,需要识别出哪些是有重要情报价值的信息,而哪些是无用些是有重要情报价值的信

23、息,而哪些是无用或情报价值小的信息,以让情报人员关注有或情报价值小的信息,以让情报人员关注有价值的信息。价值的信息。n富文档监测识别与富文档元数据提取富文档监测识别与富文档元数据提取n识别采集到的网络信息资源中以识别采集到的网络信息资源中以PDF、DOC、PPT等富文档文件发布的重要信息。等富文档文件发布的重要信息。3.系统的关键技术n重要科研对象及对象关系的识别与抽取重要科研对象及对象关系的识别与抽取n对采集到的网络科技信息进行语义标注,从对采集到的网络科技信息进行语义标注,从这些科技信息中识别和抽取出网页文本中包这些科技信息中识别和抽取出网页文本中包括的研究人员、科研机构、科研项目、科研括

24、的研究人员、科研机构、科研项目、科研基金、科研会议等科研对象,以及这些对象基金、科研会议等科研对象,以及这些对象之间的相关关系。之间的相关关系。3.系统的关键技术n科研术语的识别与抽取科研术语的识别与抽取n科研术语的识别与抽取目标在于从网页资源科研术语的识别与抽取目标在于从网页资源中识别和抽取出相关的科研术语,以实现对中识别和抽取出相关的科研术语,以实现对网页主题内容的表示。网页主题内容的表示。n监测主题的自动聚类监测主题的自动聚类n通过主题的自动聚类,可以发现监测信息资通过主题的自动聚类,可以发现监测信息资源的全局分布模式以及监测资源之间的相互源的全局分布模式以及监测资源之间的相互关系。关系

25、。3.系统的关键技术n热点词、新词的自动识别技术热点词、新词的自动识别技术n热点词、新词的识别,可以实现对监测资源热点词、新词的识别,可以实现对监测资源的热点内容和新内容的监测的基础,帮助情的热点内容和新内容的监测的基础,帮助情报人员快速把握热点和新动向报人员快速把握热点和新动向n监测主题和对象的可视化技术监测主题和对象的可视化技术n基于基于Research ProfilingResearch Profiling的思想,通过可视的思想,通过可视化技术,从主题聚类、重要对象、热点主题、化技术,从主题聚类、重要对象、热点主题、热点对象等不同的方面,可视化地描述监测热点对象等不同的方面,可视化地描述

26、监测主题和对象的状态与变化情况主题和对象的状态与变化情况提纲提纲n基本情况介绍基本情况介绍n建设成果展示建设成果展示n系统的关键技术系统的关键技术n重中之重:对象计算的思路和方法重中之重:对象计算的思路和方法4.对象计算的监测对象计算的监测n主要目标:主要目标:n借助于信息抽取、数据挖掘等信息处理方法,综借助于信息抽取、数据挖掘等信息处理方法,综合传统的情报人员人工分析的经验,自动判断情合传统的情报人员人工分析的经验,自动判断情报价值,并对有价值情报进行深入挖掘处理。通报价值,并对有价值情报进行深入挖掘处理。通过这一探索实践,将情报分析与信息技术紧密结过这一探索实践,将情报分析与信息技术紧密结

27、合,形成合,形成科学化、可计算化、研究化科学化、可计算化、研究化的情报研究的情报研究过程。过程。4.对象计算的监测对象计算的监测n主要思路:主要思路:n持续不断地获取科研机构的相关新信息,监测科持续不断地获取科研机构的相关新信息,监测科研机构的变化发展情况研机构的变化发展情况n将所有文本信息转化为带时间戳的对象,形成可将所有文本信息转化为带时间戳的对象,形成可供计算的数据,支持各类指标供计算的数据,支持各类指标n在构建大规模知识库的基础之上,实现各种相关在构建大规模知识库的基础之上,实现各种相关对象及领域主题的语义挖掘对象及领域主题的语义挖掘n进而通过可视化分析技术进行态势的分析和展示进而通过

28、可视化分析技术进行态势的分析和展示20102010年数据年数据n通过机构相关新信息变化通过机构相关新信息变化,监测机构活动监测机构活动20092009年数据年数据网站网站, , 新闻新闻, RSS, , RSS, 文献数据文献数据新项目新项目新成果新成果新计划新计划新人员新人员新事件新事件新术语新术语新领域新领域新新4.对象计算对象计算4.对象计算对象计算n将所有文本信息转化为带时间戳的对象将所有文本信息转化为带时间戳的对象n通过信息抽取,将所有文本内容转化为两种通过信息抽取,将所有文本内容转化为两种简单结构,并建立起这些对象的关系简单结构,并建立起这些对象的关系n类型类型,对象对象,时间时间

29、n例例:计划计划,国家人权行动计划国家人权行动计划,2009-04-14n对象对象,对象对象,关系关系n例例:国务院国务院,国家人权行动计划国家人权行动计划,发布发布4.对象计算对象计算nFor example:nJuly 13, 2010, White House Announces National HIV/AIDS StrategynWe turn it into following time-stamped objectsnObject type, Object, Time stampnStrategy, National HIV/AIDS Strategy, July 13, 201

30、0nObject A, Object B, Relationship, Time StampnWhite House, National HIV/AIDS Strategy, Announces, July 13, 2010LarKC: The Large Knowledge ColliderThe aim of the EU FP 7 Large-Scale Integrating Project LarKC is to develop the Large Knowledge Collider (LarKC, for short, pronounced “lark”), a platform

31、 for massive distributed incomplete reasoning that will remove the scalability barriers of currently existing reasoning systems for the Semantic Web.LarKC is sponsoring the following international scientific events:11th International Conference on Principles of Knowledge Representation and Reasoning

32、 (KR 2008) 关系标识关系标识术语术语系统平台系统平台项目项目学术会议学术会议知识对象的抽取知识对象的抽取知识对象间关系的抽取知识对象间关系的抽取4.对象计算对象计算n指标和带时间戳的对象的关系指标和带时间戳的对象的关系监测模型监测模型A监测模型监测模型B指标体系指标体系A指标指标1指标指标2指标指标3指标指标4指标指标指标体系指标体系B指标指标1指标指标2指标指标3指标指标4指标指标AAA监测监测BBB监测监测4.对象计算对象计算对象对象1对象对象2对象对象3对象对象4对象对象5对象对象6对象对象7对象对象对象对象某个机构某个机构时间时间1时间时间2时间时间3时间时间4时间时间5时间

33、时间6时间时间7时间时间时间时间4.对象计算对象计算情报重要度的计算实例情报重要度的计算实例n情报重要度的计算方法情报重要度的计算方法4.对象计算对象计算情报重要度的计算实例情报重要度的计算实例n判断某个页面的判断某个页面的情报重要度情报重要度,我们重点,我们重点从从5个指标体系和组织规则进行计算个指标体系和组织规则进行计算:n5类指标体系类指标体系n情报来源指标情报来源指标n情报类型指标情报类型指标n情报主体对象指标情报主体对象指标n情报科技相关度指标情报科技相关度指标n情报主题相关度指标情报主题相关度指标n组合规则组合规则4.对象计算对象计算情报重要度的计算实例情报重要度的计算实例n1.情

34、报来源指标(即资源来源的权威度)情报来源指标(即资源来源的权威度)n来源机构的国家类型来源机构的国家类型n科技大国家,金砖科技大国家,金砖5国、发达国家、新兴市场国、发达国家、新兴市场n来源机构的类型来源机构的类型n科技管理机构、重要国际组织、科技资助机构、具科技管理机构、重要国际组织、科技资助机构、具体研究机构、新闻网站、综合性网站体研究机构、新闻网站、综合性网站n来源目录类型来源目录类型n战略(战略(Strategy);研究报告(研究报告(Research report, Publication); 重要新闻(重要新闻(highlight); 新闻(新闻(news, press relea

35、se); 事件(事件(events)n.4.对象计算对象计算情报重要度的计算实例情报重要度的计算实例n2.情报类型指标情报类型指标n情报的类型情报的类型n官方重要信息发布官方重要信息发布n深度分析报告深度分析报告n专家观点专家观点n新闻报道性信息新闻报道性信息n计算依据计算依据n资源载体类型:资源载体类型:pdf、doc、ppt、html等。等。n资源关敏感指示词:资源关敏感指示词:annual report、budget、research reportn资源来源目录名:资源来源目录名:news、publication、research article、annual report4.对象计算对象计算情报重要度的计算实例情报重要度的计算实例n情报主体对象指标情报主体对象指标n主要是考虑某条资源中谈论的主体对象是否主要是考虑某条资源中谈论的主体对象是否是值得关注是值得关注n主体对象主体对象n重要国度:是否讨论主要发达国家、金砖重要国度:是否讨论主要发达国家、金砖5国等国等的内容。的内容

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论