已阅读5页,还剩22页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
海量信息技术有限公司WOS平台-海纳2.0需求规格说明书版本 WOS平台-海纳2.0 版本: 需求规格说明书 日期:修订历史记录日期版本描述作者2010-4-161.0创建文档刘文权2010-4-231.1追加用例图及用例描述;更改2.6验收标准描述;更改4.2.1和4.2.1子流程描述;更改2.2平台概述图;更改4.2.1活动图-分析引擎为语义计算引擎;更改4.2.1.1接口定义要求;追加4.2.2.2资源获取引擎需求;刘文权2010-4-27追加资源搜索接口要求刘文权2010-4-281.2修改查询条件描述;追加容灾验收标准要求;追加完善硬件要求、软件、兼容性要求;追加4.2.1.1对要素分析的范围、排序要求;取消“参考cmsf1项目”的描述,将内容追加到表1和表2中,同时修改日志记录描述;追加4.2.3资源挖掘子流程;修改3.1.4数据采集用例;删除“将来实现.”的描述内容;刘文权2010-4-291.3追加功能列表;“要素分析”更改为“要素提取”刘文权2010-5-51.4追加4.2.2.2资源搜索的“导航”需求刘文权2010-5-61.5修改资源挖掘服务部分示意图;删除资源搜索中的“导航”需求,由海纳2.0完成此功能;表5和表6中上下文字段拆解成上文、下文两个字段和追加了id字段;表2中的范围含义改变;庞晓曦刘文权目录1.引言51.1文档目的51.2文档范围52.产品概述52.1项目背景52.1.1立项依据52.1.2产品应用范围52.1.3系统开发的意义52.1.4系统开发的可行性62.1.5词汇表62.2总体结构62.3与其他系统关系82.4服务接口的统一规范82.5假设依赖关系83.用例分析93.1总体用例图93.1.1要素提取用例93.1.2资源搜索用例103.1.3资源挖掘用例113.1.4数据采集用例124.业务流程144.1业务流程图144.1.1WOS平台-海纳2.0整体业务流程144.2业务子流程说明154.2.1要素提取子流程154.2.2资源搜索子流程184.2.3资源挖掘服务子流程225.非功能性要求265.1非功能性要求265.2平台软硬件要求265.3应急处理要求271. 引言本文档是对WOS平台-海纳2.0整体需求的描述,按照平台规划和海纳2.0的应用需求提出平台提供的接口需求、支撑功能、引擎功能需求以及素材库需求。1.1 文档目的本文档描述WOS平台-海纳2.0的需求规格,以指导设计和系统测试。读者主要为设计人员、系统测试计划编写人员。1.2 文档范围本文档包含相关的功能需求、性能需求、稳定性需求、用户接口需求等。不包括设计和实现说明。2. 产品概述2.1 项目背景 WOS平台-海纳2.0是海纳2.0项目的一部分。目的使公司的语义(S引擎)、形式(F引擎)等核心智能计算引擎通过平台提供服务给客户使用。2.1.1 立项依据详见海纳2.0-立项书(产品类).doc和WOS平台-海纳2.0技术可行性分析报告.doc 2.1.2 产品应用范围本产品本期主要提供满足海纳2.0应用的使用,同时要具有平台的特性。对外提供标准的服务接口,对内组合引擎应用。2.1.3 系统开发的意义 从产品化向平台化发展,并最终实现SaaS模式乃至PaaS模式的WOS平台,而做的初始模型和有意尝试。2.1.4 系统开发的可行性详见WOS平台-海纳2.0-平台技术可行性分析报告.doc。2.1.5 词汇表详见海纳2.0词汇表词汇释义备注WOS互联网智能计算平台,通过对外提供的接口为各种应用提供各种智能计算服务以及资源数据服务等海纳2.0作为WOS平台应用客户,使用平台提供的服务。本期平台主要针对海纳2.0X5海纳产品线2.0中,面向编辑提供内容精编的产品的代号资源类型指WOS平台目前所提供的各种资源的名称,比如言论、观点、事件等。资源海纳对互联网上所报导的新闻内容中根据智能计算所萃取的客观事实描述以及对这些客观事实的观点和评论描述。2.2 总体结构 海纳2.0总体概述图详见海纳2.0-需求规格说明书.doc,其中包括了平台的结构图。图1 平台概述图 人工干预要根据智能计算引擎的智能程度、产品的品标等因素,决定干预的方式。如:是否需要开发干预工具等。 本文档不对海纳应用服务器做描述,包括不描述其运营、干预方式等。平台功能列表:功能名功能描述备注要素提取接口平台对外提供的提取要素的公开服务命名实体要素提取引擎可以实现将文本内容中的要素提取出来。资源搜索接口平台对外提供获取资源的公开服务资源搜索引擎可以实现对资源库中资源的获取资源挖掘将篇章级资源拆分出句子级资源并存入资源库表1 平台功能列表2.3 与其他系统关系本平台对外提供智能计算服务和资源搜索等服务。当前为海纳2.0应用提供智能语义计算和言论、事件的资源搜索服务。同时,海纳2.0在应用过程中可以不断提供丰富平台资源的有用数据。2.4 服务接口的统一规范1. 此接口对外通过REST方式提供服务2. 接口名称、参数要符合命名规范(见平台接口命名规范.docx)2.5 假设依赖关系 本期平台的建设将为海纳2.0项目提供统一服务接口。3. 用例分析3.1 总体用例图 图 2 WOS平台用例图定时启动者是一个虚拟的启动者,因为资源挖掘功能是定时来启动的。3.1.1 要素提取用例3.1.1.1 简要说明海纳2.0将需要进行要素提取的纯文本内容提交给WOS平台,平台分析后将结果返回给海纳2.0。3.1.1.2 使用者海纳2.0。3.1.1.3 触发条件海纳2.0调用平台提供的要素提取接口。3.1.1.4 前置条件无3.1.1.5 基本事件流描述1. 用户:调用要素提取接口,并将纯文本、要素类型传给接口。2. 平台系统:提取出文本中的要素,记录日志,并将提取的要素返回给用户。3.1.1.6 备选事件流2a. 当参数不符合要求时,返回:参数错误。 3.1.1.7 后置条件 成功后置条件: 记录日志,并返回提取的要素。 失败后置条件: 记录日志,并返回失败原因。3.1.1.8 特殊需求详细参考4.2.1节要素提取子流程。3.1.2 资源搜索用例3.1.2.1 简要说明WOS平台根据海纳2.0提供的搜索条件和资源类型(单一),从资源库搜索相应资源类型的符合搜索条件的资源数据,并返回给海纳2.0。3.1.2.2 使用者海纳2.0。3.1.2.3 触发条件海纳2.0调用平台提供的资源搜索接口。3.1.2.4 前置条件无。3.1.2.5 基本事件流描述1. 用户:调用资源搜索接口,并将搜索条件、资源类型传给接口。2. 平台系统:从资源库的该资源类型数据中,获取符合条件的资源数据,然后记录日志,并将结果返回给用户。3.1.2.6 备选事件流2a. 当参数不符合要求时,返回:参数错误。 2b. 当访问数据库失败时,返回:访问数据库失败。3.1.2.7 后置条件 成功后置条件: 记录日志,并返回相应资源类型的资源数据。 失败后置条件: 记录日志,并返回失败原因。3.1.2.8 特殊需求详细参考4.2.2节资源搜索子流程。3.1.3 资源挖掘用例3.1.3.1 简要说明WOS平台对篇章级资源库(当前是xml文件)中的资源做智能计算,将得到的句子级言论、事件资源保存到资源库。也提供对资源库的增删改。3.1.3.2 使用者资源挖掘服务。3.1.3.3 触发条件资源挖掘服务启动。3.1.3.4 前置条件资源挖掘服务启动。3.1.3.5 基本事件流描述1. 系统:获取篇章级资源库(当前是xml文件)中的数据,对其进行抽取并做智能计算,获得相应的句子级资源,再通过智能计算获得句子级资源的所有要素,然后将句子级资源及其要素保存到资源库。3.1.3.6 备选事件流1a. 当数据库访问失败时,返回:数据库访问失败。3.1.3.7 后置条件 成功后置条件: 保存资源数据到资源库。 失败后置条件: 返回失败原因。3.1.3.8 特殊需求详细参考4.2.3节资源挖掘服务子流程。3.1.4 数据采集用例3.1.4.1 简要说明数据采集主要完成获取指定信源的信息,并将信息存储到篇章级资源库(当前暂时是xml格式文件)中。另外,需要注意以下几点:1. 由于当前数据的采集使用原有的批量+h2x产生xml格式文件,采集字段用现有字段,不需要再设计、开发,所以这里不做具体用例描述。2. 最终采集到的xml文件分为:07年数据、已有08-09年数据、最新采集数据,并分别放在不同的位置。3. 篇章采集更新频率新闻类:9+1新闻媒体和5大商业门户最多每隔5分钟更新采集一次 省级、副省级新闻网站最多每隔15分钟更新采集一次 其他最多每隔45分钟更新采集一次博客类:名博(3大BSP)最多每隔60分钟更新采集一次4. 篇章采集准确率 按内容:新闻准确率要能达到85%;博客准确率要能达到85% 按码制:gb2312、gbk、gb18030、utf8、unicode准确率要能达到95% 按语言:简体中文准确率要能达到95%5. 采集召回率新闻、博客一期要求能达到85%4. 业务流程4.1 业务流程图4.1.1 WOS平台-海纳2.0整体业务流程图 3 WOS平台-海纳2.0整体业务流程 此业务流程符合海纳2.0整体架构的分层方式数据层、引擎层、接口层、客户应用层。4.2 业务子流程说明4.2.1 要素提取子流程图 4 要素提取活动图 海纳2.0应用将需要提取出要素的纯文本内容传给平台(通过调用接口的方式);平台(将来会增加验证功能)调用命名实体要素提取引擎,由后者将内容中的要素提取出来;平台记录日志后,将结果返回给海纳2.0应用。4.2.1.1 要素提取接口要求1. 接口定义要符合2.4节的统一规范2. 接口参数需要包括表2中的内容参数包括内容含义参数要求必须输入标题文章的标题是内容需要提取要素的文章内容纯文本是范围决定要素是在标题还是从内容中提取1、 从标题提取要素(标题和内容一起参与计算,但只要标题中的)2、 从内容中的提取3、 标题和内容中提取所有的是发布日期文章发布日期用来计算要素中相对时间;如果这个参数为空使用当前时间参与计算否发布地点文章发布的地点内容的发表地点。用来替换指代空间否要素类型需要提取的要素的类型,包括:时间、地点、人物、组织、数量、活动 可以是单个类型、多个类型、所有类型是提取个数限制每个类型的要素提取的个数默认提取所有排序条件同一要素类型内的要素排序默认按位置(出现次序)排序用户ID平台分配给用户的ID号码用户在平台上注册申请接口服务是数字签名通过加密算法得到的md5码是请求版本预留内容结果数据格式服务返回数据格式缺省为XML是输出要素结果提取的结果1、 接口调用者能得到每种要素类型下的所有要素(包括:名称、位置在文本中的)2、 人物、组织、活动、空间,4个要素类型中的要素都具有唯一可以识别的id属性3、 数量要素需分两个属性数、量表示4、 考虑可扩展性,每个要素类型增加记录要素在整篇文章中的权重(某个要素个数/总要素数)失败信息错误及原因错误情况包括:1、 输入参数无效2、 缺少必要参数3、 用户签名错误4、 服务请求失败5、 服务处理失败(当前为引擎层返回的失败)是表2 要素提取接口参数包括内容描述3. 日志记录内容用户ID,调用接口名称,调用日期,过程用时,要素类型,调用情况4.2.1.2 命名实体要素提取(语义计算)引擎的要求 根据要素类型(如:人物)将内容中该类型的要素(具体人物名称)提取出来。本引擎封装了实体提取的具体实现功能。1. 功能性需求 解析参数内容,将内容和要素类型从参数中解析出来 调用实体提取功能,获得要素结果 对要素结果进行整理,要素属性有:id、名称、位置、权重等。同一要素的要归并,返回结果要符合范围、排序条件要求(参考表2说明)。2. 非功能性需求 所提供语义技术符合WOS平台设计标准与规范; 支持进化(指效果改进、功能升级等),支持便捷的在线升级; 支持效果的人工干预,知识的升级,提供立即生效与阶段调整两种机制; 模块设计做到可灵活扩展; 模块提供效果、效率的调节; 如有其他参考结构智能软件设计规范与指导意见3. 准确率和召回率要求命名实体准确率其他召回率时间95%要求还原成绝对时间形式格式归一化一期80%地点95%内容格式归一化,依靠知识一期80%人名95%共指称呼还原成本名,依靠知识一期80%组织机构95%共指称呼还原成本名,依靠知识一期80%数量95%一期80%活动95%一期80%表3 命名实体要素提取准确率和召回率要求4.2.2 资源搜索子流程图 5 资源搜索活动图 海纳2.0将输入条件和资源类型传给平台(验证功能将来提供);平台从资源库的相应资源类型中搜索符合条件的资源数据,记录日志后,返回获取结果。4.2.2.1 资源搜索接口定义要求1. 接口定义要符合2.4节的统一规范2. 接口参数需要包括表4中的内容参数包括内容含义参数要求必须输入搜索条件搜索条件是资源类型搜索条件所属资源类型只需单一资源类型是范围结果记录条数默认100条排序条件时间排序默认倒序用户ID平台分配给用户的ID号码用户在平台上注册申请接口服务是数字签名通过加密算法得到的md5码是请求版本预留内容结果数据格式服务返回数据格式缺省为XML是输出资源数据根据条件从资源库获得的结果数据返回记录中的所有字段是失败信息错误及原因错误情况包括:1、 输入参数无效2、 缺少必要参数3、 用户签名错误4、 服务请求失败5、 服务处理失败(当前为引擎层返回的失败)6、 数据库访问失败是表4 资源搜索接口参数包括内容描述具体搜索条件和输出资源数据的说明参考海纳2.0-需求规格说明书V1.1.docx;1、 日志记录内容用户ID,调用接口名称,调用日期,过程用时,资源类型,调用情况4.2.2.2 资源搜索引擎 这个引擎实现了对资源库中资源的获取功能。1. 资源搜索引擎接口要求 查询条件和结果集的类型要与4.2.2.1中的资源搜索接口的定义一致。此要求基于2点考虑:1)、平台调度层只负责调度;2)、引擎层进行解析成SQL,当数据库变化时,平台调度层尽量不做改变。 本接口完成将参数转化成对应数据库的SQL语句的功能。如:搜索条件参数作为Where条件,资源类型对应表名,结果集对应返回字段。 本接口完成将SQL查询结果转化成接口要求的结果集格式的功能(资源数据)2. 言论资源查询字段说明备注查询条件时间年月日查询条件:1、 可以有多个字段组合成查询条件,同一字段可以重复使用2、 查询条件是人物、空间、组织、活动时,字段本身使用相等方式,字段间使用或和与的方式。3、 查询条件是时间、数量时,使用范围查询方式(数是范围,量是相等)4、 查询条件是发言人,使用与发言人字段相等方式结果集: 将符合条件所有记录的整个记录内容全部返回,用户不需要对已有记录做二次查询操作。空间4级行政划分人物组织数量数、量是一个与关系的组合条件,数是范围表达式、量是相等表达式活动发言人约束条件范围结果记录条数排序条件时间排序结果集Id空间、人物、组织、活动、发言人都有对应的唯一标识id;这个id可以作为下次查询的条件时间空间人物组织数量数、量两个字段,不用组合返回活动发言人原始片断原文URL上文下文指纹形式表5言论资源查询描述3. 事件资源查询字段含义备注查询条件时间年月日查询条件:1、 可以有多个字段组合成查询条件,同一字段可以重复使用2、 查询条件是人物、空间、组织、活动时,字段本身使用相等方式,字段间使用或和与的方式。3、 查询条件是时间、数量时,使用范围查询方式(数是范围,量是相等)结果集: 将符合条件所有记录的整个记录内容全部返回,用户不需要对已有记录做二次查询操作。空间4级行政划分人物组织数量数、量是一个与关系的组合条件,数是范围表达式、量是相等表达式活动约束条件范围结果记录条数排序条件时间排序结果集Id空间、人物、组织、活动、发言人都有对应的唯一标识id;时间空间人物组织数量数、量两个字段,不用组合返回活动原始片断原文URL上文下文指纹形式表6事件资源查询描述相关资料见海纳2.0-需求规格说明书V1.4.docx和海纳X5资源库结构及字段.xlsx。4.2.3 资源挖掘服务子流程 图 5 资源挖掘服务资源挖掘服务是为了不断丰富资源库中的资源而开发的功能服务,其挖掘对象(也是数据来源)是篇章级资源库。挖掘服务通过调用句子级资源获取SDK获得句子级的资源,再通过调用要素资源获取服务将刚获得的句子级资源中的要素提取出来,最后保存句子资源及相应的要素。当前篇章级资源库字段等内容不确定,暂时不创建,而是直接使用数据采集来的XML格式的文件。4.2.3.1 资源挖掘功能要求1. 读取篇章级资源(当前是XML文件形式)的整篇文章内容和原文URL2. 根据句子级资源提取SDK返回的上下文偏移量,获取到上下文内容3. 计算出句子(原始片断)的字数4. 用提取的句子获得其所有要素(实体级),然后将要素结果和前面获得的信息组合起来5. 将组合结果按资源类型保存到资源库4.2.3.2 资源挖掘性能及其他要求1. 资源挖掘延迟5分钟2. 由于XML文件分为:07年数据xml、已有08-09年数据xml、新采集的数据xml,并且这3部分数据会在不同的位置存放,所以要求资源挖掘服务充分考虑。比如:分别部署3份资源挖掘服务来“挖掘”相应的xml文件。4.2.3.3 句子级资源提取SDK句子级资源提取SDK,即将文章内容中符合条件的句子(原始片断)提取出来,作为句子级资源。同时提取的还有:时间、空间、指纹、上下文偏移量、发言人、形式等(见表7)资源字段字段产生提取内容(知识SDK)挖掘服务(庞)言论自身结构公共时间时间空间地点指纹Y上下文引语内容偏移和长度上下文内容独有原始片段引语内容发言人说话者字数Y分类形式类型(直接间接)关联实体级人物提供独立模块调用模块组织提供独立模块调用模块数量保留字段,本期不实现活动提供独立模块调用模块篇章级原文URLY其它识别信度事件自身结构公共时间时间空间地名指纹接口,分步骤升级上下文偏移和长度Y独有原始片段时间内容分类形式N/AN/A关联实体级人物提供独立模块
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 保险资金运用的监管政策优化-洞察及研究
- 基因相关性与巨乳症预后的研究-洞察及研究
- 基于深度学习的工业直线检测系统及其应用-洞察及研究
- 基于图神经网络的搜索引擎排名模型-洞察及研究
- 区块链与分布式系统结合的工业0应用研究-洞察及研究
- 装修安全责任书合同协议2025
- 2025年房屋互换合同协议书合同终止后处理
- 聚氨酯磁漆施工方案
- 半自动风淋室施工方案设计
- 手绘幕墙施工方案
- 统编版语文四年级上册 19 一只窝囊的大老虎 预习单( 有答案)
- T-GDEIIA 56-2024 垂直起降低空航空器起降场基础设施配置技术要求
- 2024年度淮安市专业技术人员公需考试
- 《眼眶表皮样囊肿》课件
- 导尿管相关尿路感染预防与控制知识培训训课件
- 【MOOC】中国文化概论-武汉大学 中国大学慕课MOOC答案
- 《玻璃幕墙安装》课件
- 中国类风湿关节炎诊疗指南(2024版)解读
- 围手术期合并糖尿病
- 物理人教版2024版八年级上册4.3平面镜成像课件01
- 智能图书馆自助借还系统操作手册
评论
0/150
提交评论