智能咨询项目前期调研报告.docx_第1页
智能咨询项目前期调研报告.docx_第2页
智能咨询项目前期调研报告.docx_第3页
智能咨询项目前期调研报告.docx_第4页
智能咨询项目前期调研报告.docx_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

智 能 咨 询 项 目调 研 报 告2012-2-22【内部资料 请勿外泄】天津卓朗科技发展有限公司第 1 页 共 10 页智能咨询调研报告一、 近似案例:1.1. IBM Watson项目l 系统概述信息收集、机器学习、机器博弈三大部分组成,其中数据来源于各种网络数据和2亿页书面数据组成。其中核心部分为DeepQA系统,如下图1) 建立知识库l 基于网络爬虫得到相关文档l 摘取文档中的知识点l 基于知识点覆盖到的信息量给知识点打分,l 将知识点加入到数据库中2) 问题分析:确定问题的内容,基于初步分析决定解决问题的方法l 问题分类将问题中特殊部分(一词多义、从句、语义、修辞等)进行处理,经过词法与语法分析,通过知识分类为每一个问题确定类型l 焦点检测确定问题中与答案相关的信息,这些信息被称为焦点,它构成了某种关系的主语或宾语,从而可以用备选答案替换构成问题可能的答案l 关系检测基于主谓宾关系、语义关系、时序关系、地理位置关系等可以确定焦点的关系l 问题分解基于深度语法分析、统计分类方法确定问题是否可以分解,以及如何分解。3) 生成假说l 主搜索依据问题分析的结果,搜索出尽可能多的、潜在的包含答案的内容。从而通过深入的内容分析来获得备选答案l 备选答案生成基于主搜索的内容,构建最终的备选答案(针对非知识库的非结构化的主搜索内容的构建)4) 软滤波基于轻量级的评分算法减少后续评分的时间复杂度5) 假说和证据评分将通过软滤波的备选答案进行全面的评估,这里面包括收集额外的支持证据与深度评分算法6) 综合答案7) 答案融合与信心检测l 硬件概述90台Power750服务器,每台服务器配备四路八核Power7处理器,从而使得Watson总体处理器数目达到2880个Power7内核Power7采用平衡技术,从而保证每个芯片分摊计算任务,其中每个芯片主频为3.55GHZ,从而可以完成美妙180000Gb的计算量l 软件概述100万行代码,主要基于C+、java编写而成,130个系统组件组成,总体设计采用管道-过滤器模式,将系统平行化从而易于对大规模数据进行并行处理l 涉及算法共有100多个算法,涵盖语义识别、分词、歧义消除、浅读与深度句法分析、问题分类、问题分解、知识检索、文本搜索、SparQL三元组的知识搜索、证据生成、假设生成、假设评估、RDF元数据存储l 项目目标基于watson庞大的知识库及强大的知识分析与索引能力,能够更好地才处理企业内部的大数据,从而达到“更好地理解用户”、“更高效地制订决策”、“改变客户服务”、“预测风险”等应用价值l 项目团队共有30多名开发人员进行开发,主要有以下组:算法组:16名成员,主要负责NLP相关算法、解决系统架构等问题策略组:5名成员,负责watson问题系统的问答策略系统组:9名成员,负责watson硬件与软件的搭建语言学组:2名成员,负责watson系统的数据库分类应用组:5名成员,负责解决deepQA系统解决实际问题l 项目时间:4年l 应用领域与成功案例现在的成功案例为危险边缘(Jeopardy)比赛中击败其他人类对手获得冠军;未来准备应用到医疗辅助诊疗系统、金融挖掘与决策系统及其他具有大数据背景的企业1.2. WolframAlpha项目l 总体概述WolframAlpha是开发计算数学应用软件的沃尔夫勒姆研究公司开发出的新一代的搜索引擎,能根据问题直接给出答案,很强大很智能,而不是像百度、谷歌一样返回一大堆网页链接。按照创始人StephenWolfram的说法,这个网站其实是一个计算知识引擎,而不是搜索引擎。其真正的创新之处,在于能够马上理解问题,对问题进行正确的语义分析,并给出答案。l 详细信息Wolfram|Alpha并没有直接采用语义网技术,它有自己的内部知识库,以及大量自有的内部语义及本体(ontology),运用已建立的科学模型或其他模型作为计算的基础,每当它进行新的计算时,它都会有效地得出新的结论,在数据冲突时会根据具体问题进行语义分析,将问题归类,给出不同处理方法。Wolfram|Alpha背后的数据容量超过10T之巨,它们借助于大量的提要(feed)而不断增长。估计采用的事元包自动机来有效地组织和计算知识。l 创始人简介斯蒂芬沃尔夫勒姆(Stephen Wolfram,1959年- ),1959年出生于伦敦,科学家、数学软件Mathematica的发明者之一。美国计算机科学家。23岁时创立复杂系统研究领域,27岁时(1987年)开发Mathematica软件,创立了Wolfram Research公司,从事Mathematica的开发和发行。2002年时,他出版了一本厚达1280页的书一种新科学(A New Kind of Science),探讨“细胞自动控制器”(Cellular Automata)和复杂计算机系统,2009年 发布WolframAlpha。l 与Watson工作原理比对l 应用举例:1.3. 清华大学小图机器人项目l 简介清华大学图书馆机器人小图基于开源软件A.LI.C.E开发的实时智能聊天机器人,提供参考咨询、图书搜索、自我学习等多种服务,并推广到人人网等社交网络。其中:A.L.I.C.E开源软件基于模式匹配方法,启发式会话规则,具有学习、推理、判断、记忆以及上下文获取等功能。AIML智能语言基于XML标准的丰富标签库,可以方便的在一个AIML文档中创建和共享知识,并把多个AIML文档加载到一起。l 系统概况小图采用MSN、QQ等聊天对话风格的界面与用户进行互动交流,具体后台操作用 它自身的自然语言智能问答引擎进行处理。小图的自然语言智能问答引擎,负责具体的问答,包括帮助信息、搜书引擎、教学系统、语料库检索和AIML知识库匹配等功能模块。具体:1、语料库检索功能的实现基于搜索引擎技术,以XML格式存春,并设计了多级语料库;2、中文分词采用中科院的ICTCLAS;3、建立索引加快速度;4、分词后,后台根据输入在语料库中实行相似度匹配;5、搜书引擎依托于清华大学图书馆系统;6、教学系统以“Q:问题 A:答案”的句式对小图进行教学;7、推理机制,当不能在已有的语料库中找到适当的答案时,能够依靠推理从AIML知识库中给出经推理的答案.l 运行结果:二、 项目总体说明:构建一套自动咨询系统,可以帮助响应行业生成相关的咨询报告,或者生成需要的咨询材料。其中需要以下几方面的工作:1) 构建自己的相关行业的知识库,基于RDF形式构建2) 搭建自己的相关行业非结构化数据库,基于NoSQL形式构建3) 构建自己的文本、RDF搜索引擎4) 构建知识分类与分解系统5) 构建中文自然语言处理模块,其中包括深度语义分析、词法分析、句法分析、歧义消除等6) 构建自动知识分类系统7) 构建搜索结果评估系统三、 项目技术方案:1) 非结构化数据库l MongoDB:是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的,是基于key-value实现的NoSQL数据库。它的特点是高性能、易部署、易使用,存储数据非常方便,且支持RUBY,PYTHON,JAVA,C+,PHP等多种语言。使用较简单,中文资料较多。l HBase:是Hadoop Database的开源项目,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可以非常廉价地搭建起大规模结构化存储集群。其中它通过Zookeeper来完成分布式的一致性服务。2) 结构数据库l PostgreSQL:为开源的面向对象的、关系型数据库,它文档齐全且易于使用,而且与linux、unix平台稳定结合。3) 网络爬虫l Heritrix:是一个爬虫框架,可以加入一些交换的组件,且是一个开源的、可扩展的、基于整个Web的、归档网络爬虫工程。主要部件为:范围部件、边界部件、处理器链。特点是:基于广度优先算法、针对特定网站进行递归爬取。l Nutch:是基于java实现的开源web搜索引擎。有两个主要部件组成:爬虫crawler、查询searcher。其中Crawler的数据部分主要由WebDB(存储网页特征和相互关联的数据库)、Segment(存储网页及网页内相关索引)、Index(所有被抓取到的网页构成的索引)。4) 中文自然语言处理(NLP)l 哈尔滨工业大学LTP(语言技术平台),是哈尔滨工业大学历时十年开发的一整套中文语言处理系统。LTP制订了基于XML的语言处理结果表示,并提供了自底向上的词法、句法、语义等六项中文处理核心技术,并且可以通过网络服务的形式使用。5) 知识计算(知识分类、存贮与检索):未搜索到相关开源项目6) 搜索技术(文本搜索):未搜索到相关开源项目7) 自动推理技术(或者称为假设与证据评估技术):未搜索到相关开源项目8) 集群计算l Hadoop:Hadoop是项目的总称,起源于作者儿子的一只玩具大象的名字。主要是由HDFS、MapReduce和Hbase组成:HDFS是Google File System(GFS)的开源实现、MapReduce是Google MapReduce的开源实现、HBase是Google BigTable的开源实现。l Yahoo S4:是Yahoo!发布的一个开源通用、分布式、可扩展、部分容错、具备可插拔功能的平台。这套平台主要是为了方便开发者开发处理流式数据(continuous unbounded streams of data)的应用。适用于大规模的实时数据挖掘与机器

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论