中国电信号百分析系统建设方案_第1页
中国电信号百分析系统建设方案_第2页
中国电信号百分析系统建设方案_第3页
中国电信号百分析系统建设方案_第4页
中国电信号百分析系统建设方案_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、中国电信号百分析系统建设方案简介中国电信号百分析系统(以下简称分析系统)建立在“上海埃帕信息科技有限公司(以下简称ape)”自主研发并拥有自主知识产权的“埃帕cooling搜索引擎软件(以下简称cooling搜索)”之上。cooling搜索是“上海埃帕信息科技有限公司”在自然语言处理、数据挖掘、人工智能以及搜索等行业多年研究与积累的成果。cooling搜索是一个具备语义分析以及数据挖掘能力的互联网搜索引擎。从传统的搜索引擎的角度来看,它能够提供:l 快速高效的非结构化数据分析与抓取,保证了向整个互联网探索的能力。l 支持多种语言,以及各种文本格式。l 高效的索引机制,保证对海量数据的快速检索能

2、力。l 高性能,高可用以及可扩展的分布式运行与存贮技术,保证了互联网级的海量信息的存贮能力。在传统的搜索引擎之的功能之上,它还能够提供:l 自然语义理解能力,能够区分出自然语言的真实含义,更精准地定位搜索结果。l 数据挖掘能力,能够对互联网的数据进行进一步的分析,建立出更具备商业价值的数据模型。分析系统借助于cooling搜索,从互联网抓取细分的行业信息、并进行语义分析、最后建立并存贮原始数据模型。分析系统通过行业专家,对该原始数据模型进行分析,得出更有价值的数据模型,并以多种方式进行展示。企业需求针对人群中小型企业用户需求内容 根据企业定制产业类型(如:汽车类信息、工业类信息等)利用现有的信

3、息源,通过某个系统,帮助分析某类信息的深层含义,包括发展趋势,民生态度,关注热点等等,最终以图表、报表等各类企业需要的呈现形式展示给用户。需求分析现状l 人群特征中国人口密度高,国内聚集了一批经常使用网络的人群。截至09年底,我国网民总数已达4.04亿,社交网站用户群达1.91亿。而且有越来越多的人开始接触网络。l 网站建设截至2009年底,国内网站数量达到323万个,年增长率12.3%。互联网成为人们社会生活的重要工具。目前,互联网已成为人们生活、工作、学习不可或缺的工具,正对社会生活的方方面面产生深刻影响。l 论坛建设全国网络舆情发展迅速,各地均有人气较为聚集的论坛,如天涯论坛、新浪论坛等

4、,地方性论坛和交流性论坛深受广大市民喜爱。用户需求 一般企业需要得到信息分析报告的目的:企业信息管理优势要求信息分析1.信息覆盖范围广、容量大2.与广大用户的实际情况息息相关3.信息按重要性评级处理4.能为企业的利益提供数据支持传播特点1.及时报告突发状况2.及时发现重点、热点处理决策帮助企业准确快速做出企业决策一般企业所需管理功能如下:企业管理功能描述热点信息简报掌握网络中企业所关心的信息热点动向网情报告了解企业关心的网民评论突发信息快报企业定制的相关信息的突发事件的极速报告(建议短信方式提供)重点信息跟踪报告按需定制特定主题网情跟踪最终目标cooling search通过对企业关心的网上民

5、众的评论,最终提供给企业所需要的趋势统计分析报告,能够帮助企业做出企业决策,增加企业收益。群体对比为了更好的分析需要信息分析的企业类型,用房产类企业用户和消费类企业用户对比,结果如下:用户群体分析消费者角度由于现在网络的信息以及十分全面,而信息分析是建立在这些信息源之上的更深层次的一个倾向性趋势的分析,对于消费者而言,真正感受到这一系统的乐趣的产业建议满足以下几个条件:l 消费品的价格价格必须略高,只有价格高消费者在消费时才有仔细选择的意义,如果价格偏低消费者无须查看这么多趋势分析资料,趋势分析也就无意义。l 消费品的意义对于消费者来说此类物品必须是有着重要的意义或者影响力。l 消费品的竞争力

6、此消费品必须是有着很强的竞争力,对于消费者有着很多选择。l 难以决择性现代的互联网提供的信息仍然让用户难以做出消费抉择。l 消费品的评论此消费品必须凝聚一定的消费者评论,让分析数据更有说服力。企业用户角度号百信息服务公司将目标客户定于中小型企业。中介商和一些中小型的供应商便成了信息分析的最主要用户,对于这部分用户而言首先必须从名声出发,了解民众需求,了解行业发展趋势,做出正确的企业决策。而对于企业用户而言,建议获取以下分析信息:l 消费者的消费倾向倾向包括:消费者的消费喜好,消费习惯及相关的消费数据等。l 消费者的消费评论对与本企业以及同行业其他企业消费者的消费评论趋势。l 突发事件行业内发生

7、的突发重大事件报告。l 行业趋势本行业的发展趋势。客户群举例房产类房产类是由于其高昂的价格和多变的价格浮动,让消费者和企业对其趋势十分关心。首先,买房是一件三思而后行的消费行为,消费者再没有详细的数据支持的前提下很难做出消费决策,消费者愿意花费大量的时间在前期准备中,以确保自己能做出准确地判断。其次,房产在全国各地无论是开发商还是中介商,竞争都越加激烈,盈利丰厚,企业管理者对于行业趋势变化十分关心。而信息分析系统恰好帮助双方解决决策问题。教育类这里的教育类可以分成两类,一种是正规的教育,比如:小学,中学,大学的学校选择,另一种是业余的教育,比如:夜大,成人大学等。但是无论是哪一种教育对于每个学

8、生来说择校的意义都是十分重大,学科的热门程度,师资的优劣都是每个择校的人十分关心的热点,而对于学校来说,开设怎样的课程才能吸引更多学生,就业的趋势分析等则是每个学校每年都在考虑的问题。由于学校的论坛众多,分析此类信息得出的结论会十分具有说服力。婚庆类结婚仪式永远是每个人一生最重要的选择之一,所以婚礼的各项事宜成为每一对准新人最愿意花时间研究的数据。现在网络上婚庆的项目很多如:酒类,酒店类,糖类,婚车类等等,但是如何将这些数据整合在一切,给出用户一个决策方案成为一个急切需要解决的问题。而信息分析就可以做到这些,系统通过分析互联网评论等信息,给出各种方案以及当下其他新人流行趋势。对于婚庆中介和婚庆

9、物品提供商而言,竞争也是十分激励,新人想要怎样的婚礼,当下流行话题是什么,这些都是这些企业所关心的问题。系统建设建设目标 根据客户需要了解的行业或个企,挖掘互联网上关于此行业或个企的所有信息并通过及其智能分析,最终以图表的方式展现各种用户想要了解的报告资讯,帮助最终客户了解行业动态。建设方案以下是分析系统的总体系统架构,整个系统架构以cooling搜索为核心,从互联网抓取特定的信息,经过分析后,以多种形式展现给最终用户。spiderspider是cooling搜索的非结构与结构化数据的抓取与分析工具,更多时候它也被称为“网络爬虫”与“网络蜘蛛”。要建立一个高效的搜索引擎,最首要的任务是提高网络

10、资源的抓取速 度与效率,这样才能跟得上互联网信息增长的速度,spider 在cooling search 中就承担着这么一个角色。 在非结构化数据方面,spider 包含了完整的 http/1.1,ftp,html/4,xml,rdf 的实现,能够识别与分析各类互联网文本。在结构化数据方面,spider 能够支持对 oracle,sql server,db2,mysql 等主流关系型数据的抓取与分析。spider在分析系统中提供的功能有:信息抓取,信息识别,配置管理,爬虫调度,管理界面以及api。功能描述信息抓取spider能够通过http,ftp,odbc,samba等协议从互联网、局域网、

11、关系型数据库,以及文件系统中抓取信息。这些信息在抓取后将被保存到egg中。信息识别spider能够分析多种格式的文本,包括hmtl、xml、rdf、文本文件以及自定义格式。spider为每一种格式定义了解释器(parser),用于识别特定格式的文本,并将之转换成统一的格式,进行存贮、检索以及后续数据分析。对于自定义格式,用户也可以依据口,实现自己的解释器(parser),实现自定义格式的识别。配置管理spider通过配置文件实现对信息抓取的控制,重要的配置的内容包括:l 数据源,包括网站地址、bbs地址、文件目录、数据库等l 爬虫数量,对指定数据源开户多少爬虫l 抓取频度,对指定数据源多久进行

12、抓取l 抓取与过滤规则,允许抓取或过滤符合特定规则的数据l 抓取深度,对指定数据源抓取到几级深度为止l 抓取内容规则,允许通过规则只抓取重要数据l 分析器设定,使用何种分析器(parser)分析符合规则的数据l 存贮方式设定,设定以何种形式存入egg。爬虫调度spider根据配置文件对抓取信息源的爬虫进行调度管理界面配置管理功能是通过多个配置文件来设定爬虫的行动,但需要对cooling搜索有着较深的理解。spider为了简化一定工作,提供了可视化界面,提供更友好的管理。apispider提供一套api接口、文档以及用户手册以方便二次开发。开发者可以通过spider定制出符合特定需求的爬虫。eg

13、gegg是cooling搜索的索引平台,用来保存海量的非结构化数据,并提供基于关键字以及语义的高效检索。egg 的核心理念是构建一套高效的索引机制,把原始的非结构化数据转化成可供检索的数据结构,并提升检索的效率。egg在分析系统中提供的功能有:文档管理、索引管理、信息检索、特征分析、api。功能描述文档管理egg是一个能够提供对非结构化数据存贮的数据库,spider抓取到的不同种类的数据,转化成统一格式后,最终被保存到了egg中。索引管理不同于关系型数据库,非结构化数据库没有明确的表结构(schema),更多的时候是以动态结构存在,而且存贮的数据以大字段为主。因此egg的索引是基于特征来建立,

14、使用者可以通过某个特征,以比关系型数据库快一个数量级的速度,查询到相应的文档。信息检索egg通过索引,使用者可以通过特征,以最快的速度找到所需要的文档。排序算法是以文档的重要程度,结合搜索条件与文档的相似度进行排列。特征分析egg为不同类的文档,通过统一的特征分析接口,提供不同的特征分析器。特征分析器用于从文档中提取重要特征,这些特征将被用来进行快速检索,以及进一步的数据分析用。apiegg提供一套api接口、文档以及用户手册以方便二次开发。开发者可以通过egg来存贮更多种类的非结构化信息。scholarscholar是 cooling search 的“语义分析”以及“数据挖掘”平台。sch

15、olar通过对互联网信息的分析与挖掘,构建了一套完整的自然语言语料库以及基于统计观点的自然语言语法模型,为语义分析提供了可靠的基石。scholar 目前还在不断地对互联网信息进行分析与挖掘,构建出各类有用的数据模型,力争为互联网应用带来更便捷更准确、更高效的搜索服务。scholar在分析系统中提供的功能有:词法分析、语法分析、感情分析、倾向性分析、语法模型维护、挖掘算法、数学模型。功能描述词法分析词法分析又称分词,用于把句子拆分成能够表达意思的最小单元(词、字或词组)的集合。scholar默认提供了中文以及英文的分词器。语法分析语法分析,用于分析句子成分。通过句子成分分析、建立语法树、让机器可

16、能理解人类语言。感情分析在语法分析的结果之上,感情分析用于分析起修饰作用的每个启的贬褒等感情色彩,并通过一定规则,以数值进行体现。倾向性分析倾向性分析,可以通过一定要求,对感情分析的结果进行汇总,得出一句话或一段话的倾向性。语法模型scholar的自然语言识别算法建立在统计统率模型上,因此scholar默认提供了汉语与英语的语法模型。挖掘算法scholar实现了数据挖掘中常见的各类算法,用于对数据进行分析。数学模型scholar通过挖掘算法,对语义分析后的数据进行挖掘,建立出更可用的数学模型,以供用户检索或通过各类报表进行展现。这个操作可视为数据仓库的etl。apischolar提供一套api

17、接口、文档以及用户手册以方便二次开发。开发者可以通过scholar来实现更多自定义的模型存贮更多种类的非结构化信息。platformplatform是cooling搜索的总线,将cooling搜索的各个模块有效的集合在了一起,并提供高效的数据传输手段,供各模块进行通信。产品介绍产品名称cooling search(中文名“酷灵搜索”)产品简介cooling search是“上海埃帕信息科技有限公司”在自然语言处理、数据挖掘、人工智能以及搜索等行业多年研究与积累的成果。cooling search是一个具备语义分析以及数据挖掘能力的互联网搜索引擎。从传统的搜索引擎的角度来看,它能够提供:快速高效

18、的非结构化数据分析与抓取,保证了向整个互联网探索的能力。支持多种语言,以及各种文本格式。高效的索引机制,保证对海量数据的快速检索能力。高性能,高可用以及可扩展的分布式运行与存贮技术,保证了互联网级的海量信息的存贮能力。在传统的搜索引擎之的功能之上,它还能够提供:自然语义理解能力,能够区分出自然语言的真实含义,更精准地定位搜索结果。数据挖掘能力,能够对互联网的数据进行进一步的分析,建立出更具备商业价值的数据模型。产品愿景cooling search致力于将计算机变得更人性化,更智能,同时不断改变人类与机器的交互方式。在目前的企业信息化系统中,关系型数据库成为保存企业信息的主要手段。关系型数据库的

19、优势在于结构化数据的管理,如企业中已经预选定义好的,具备明确标准与格式的各类表单,单据。但实际情况是,大量的人性化的非结构化信息存放于各类办公文档、网页、邮件、即时消息、图象、音频、视频以及一些特定格式的文件中。随着企业规模的日益增大,信息化系统的日益复杂,非结构化信息大量涌现出来,根据 gartner 研究显示,此类数据以每月翻一倍的速度增长。不少企业都面临到了如何整合与管理这些信息,并发现这些信息中隐含的更有价值的东西。cooling search认为,消除企业中的信息孤岛固然是一个非常重要的行为,但如何对这些信息进行分析,并得出更有价值的模型,才是重中之重。专业服务个体报告 个体报告是指

20、以某个行业中的某一家具体的企业为调研对象,互联网上所有网民对这家企业的各个方面的客观评论文字作为分析依据,将所有分析系统所分析的数据以图表的方式展示出来,最终以word文字报告的方式加以简要说明。由于个体报告是以某一家具体的企业作为研究对象,所以研究的范围包括企业的口碑,企业的特色,企业的竞争力和企业的推广方向等企业的各个方面。也可根据客户的具体需求制定特定的研究课题。而展现内容则包括分析图表,介绍文字和相关评论说明。研究范围描述企业口碑我们的分析系统将用户的评论分为多个维度,每个维度可以理解为用户评论的每个视角,含盖了企业的方方面面。企业的口碑则是用户对企业每个维度的评论,最终分析出企业在消

21、费者心中的形象,企业的优势和劣势,企业的改进方向等。企业的特色每家企业都有其特色产品。餐厅表现为特色菜,商店表现为特色商品。对企业特色分析,分析系统可以分析出特色产品的口碑,特色产品的优势,特色产品的消费份额等,除此之外系统还能通过分析评论为企业推荐民众口中的特色产品。竞争力这里的竞争力主要是指某家企业的竞争对手。竞争力的分析可以分为以下几个方面。l 竞争对手的口碑l 竞争对手的优势l 竞争对手的劣势l 相同产品与竞争对手的比较l 竞争对手推广方式的捕捉l 民众竞争对手推广方式的接受程度推广方向推广方向主要是分析系统对企业的原有推广手段网名接受程度的分析和根据评论中的评论词,维度等消息对企业推

22、广手段的推荐。自定义客户可以根据自己的需求,定义期望展现的分析图表。自定义内容包括图表的展现形式(柱状图,饼图等),x轴的单位(时间,名称等),y轴的单位(评论量,转载量,打分等)。展现内容描述趋势图主要的趋势图有柱状图,饼图,曲线图。报告以图表方式直观的展现出各个分析数据和企业发展趋势。介绍文字辅助文字,帮助用理解图的内容。相关评论说明对趋势变化明显的图解释分析变化原因。评论词展示展示每个维度的用户好评和差评词。行业报告行业报告是指以某个行业的整体为调研对象,互联网上所有网民对这个行业的各个方面的客观评论文字作为分析依据,将所有分析系统所分析的数据以图表的方式展示出来,最终以word文字报告的方式加以简要说明。由于行业报告是以某一个具体的行业作为研究对象,所以研究的范围包括行业的关注度,消费者的消费决策,行业排名、行业整体推广方向和行业的发展趋势等关于此行业的各个方面。也可根据客户的具体需求制定特定的研究课题。而展现内容则包括分析图表,介绍文字和相关评论说明。研究范围描述行业关注度行业的关注度表现为网上的关于此行业的评论量

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论