传输与数据交换系统功能说明_第1页
传输与数据交换系统功能说明_第2页
传输与数据交换系统功能说明_第3页
传输与数据交换系统功能说明_第4页
传输与数据交换系统功能说明_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据传输与数据交换功能说明1需求说明兵器210应用系统中,完成七家成员单位和兵器中心的数据传输工作,七家成员单位的源数据包含有网络采集的数据,兵器中心包含的源数据有网络采集的数据和自身的媒体库数据两种。2源数据连接说明1)网络采集数据格式说明数据库是oracle10G,具体数据格式参考下面数据库:IP:192.168.12.26SID:testingUSER:bqsjPAWD:bqsj涉及到的表:Classly-分类体系表MutiFiles-视频和音频库WebInfo-采集信息存储的主表WebInfoContent-采集信息主表的关联表【详细内容表】WebSiteRule-采集的站点信息表【采集站点说明】2)兵器中心媒体库数据格式说明详细数据格式请参考“附件目录”中媒体库资源。兵器中心媒体库总共分为三个“三维模型库”、“国防科技图片库”,“视音频及二三维动画库”。详细数据格式请参考:《资源库关系.doc》3数据传输匹配说明数据传输的源数据包含网络采集的“正文信息库”、“视频库”,和媒体资源库“三维模型库”、“国防科技图片库”、“视音频及二三维动画库”。下面将说明源数据与目标库的对应关系,及需要做的数据处理。网络采集的“正文信息库”源数据库字段査询说明selecte.classlyname,b.classlyid,a.classname,b.title,b.collecttime,ccj_abstract,c.cj_content,ccj_words,dwebnamefrom"Classly"a,"WebInfo"b,"WebInfoContent"c,"WebSiteRule"d,"webSiteRuleClassly"ewherea.id=b.classlyidandb.websiteruleid=d.idandb.id=c.webinfoidandd.websiteruleclasslyid=e.id序号源数据字段目标库说明DB_SEARCH_WEBINFO备注1ID自建字段(生成不重复的主键)2PAGES页数(自建字段)3COLLECT_UNIT所属馆藏单位,对应代码表SM_COLLECT_UNIT(自建字段)4COLLECTTIMECOLLECTTIME采集日期5TITLETITLE标题6WEBNAMEWEBNAME来源7CJ_CONTENTCONTENT正文内容(含图片标签)8CJ_ABSTRACTABSTRACT摘要内容9CJ_WORDSWORDS关键字10CLASSLYIDTYPE_ID分类号11FIRST_TYPE_ID一级分类号12SECOND_TYPE_ID二级分类号13CLASSLYNAMEDEFINENAME米集自定义类型名称14PICTURE图片(/usr/aaa.jpg,/usr/bbb.jpg)15SOURCEFILE_NAME文档附件名称+路径(/usr/aaa.pdf)16URLFROMURL来源网址数据处理说明1.源数据CJ_CONTENT字段,对应的是正文内容,内容中可能包括图片标签vimglogosrc='〔/>,・需要将图片对应的src值,匹配成目标数据存储的实际路径。建议:可以通过配置文件,读取目标数据存储的实际路径。源数据表“WEBINFO”中定义了一个字段“isFetch”抽取每一条数据后,将该字段赋值为“1”,表示该条数据已经被获取。目标数据中其它字段值的获取方式:ID:自动生成,不重复主键;COLLECT_UNIT:对应目标数据库中表SM_COLLECT_UNIT中字段UNIT_CODE值;PAGES默认值0;PICTURE:存储每篇文章的图片路径,可以存储多个,每个数据之间用半角逗号“,”隔开;图片的路径从正文中解析vimglogosrc../>标签获得,入库之前替换成目标数据的实际存储路径。数据统计:要求没入库一条数据,更新当前数据库表中记录的数据总量。1)表:DB_TYPE按国防分类体系记录数据总量。每插入一条数据对应分类号的“COUNT”字段增加1,分类号为一级分类号、二级分类号、三级分类号。表:SM_DOCTYPE,按资源类型分库统计数据总量,更新字段DOC_CODE=“DB_SEARCH_WEBINFO”的memol字段,每新增一条数据对应MEMO1增加1;表:DB_SEARCH_WEBINFO_DEFINETYPE更新采集自定义类型的数据量,插入的每条数据对应的DEFINE_NAME字段和表DB_SEARCH_WEBINFO_DEFINETYPE中“DEFINE_NAME”对应,如果存在相同类型名则直接将数据统计字段“COUNT”增加1,如果不存在则建立对应的类型字段“COUNT”默认为0。5)表:DB_SEARCH_WEBINFO_WEBNAME更新采集数据的来源网站名称,插入的每条数据对应的WEBNAME字段和表DB_SEARCH_WEBINFO_WEBNAME中“WEBNAME”对应,如果存在相同类型名则直接将数据统计字段“COUNT”增加1,如果不存在则建立对应的类型字段“COUNT”默认为0。数据去重:各成员单位的数据入检索中心库前,对数据进行查重。查重规则:TITLE[标题]+WEBNAME[来源]+ABSTRACT[摘要]相等时视为重复数据。*摘要为自动摘要生成。自动摘要计算:计算是按句做的TFIDF加权结论句和总括句,处理机制不依赖于语种。网络采集的“视频库”源数据字段查询说明(*注意:源数据库字段就是中文的):select文件名,作者,摘要,影片时间,上传时间,来源,标题from"MutiFiles"序号源数据字段目标库说明DB_SEARCH_WEBVIDEO备注1ID自建字段(生成不重复的主键)2PAGES页数(自建字段)3COLLECT_UNIT所属馆藏单位,对应代码表SM_COLLECT_UNIT(自建字段)4文件名FILENAME文件路径5作者AUTHOR作者6摘要ABSTRACT摘要7影片时间VIDEOPLAYTIME影片时间8上传时间UPLOADTIME上传时间9来源WEBNAME来源10标题TITLE标题11DISPLAY_PICTURE显示图片名称12FILEFORMAT文件格式(如:flv)数据处理说明源数据中“文件名”标识的是视频文件存储路径,在数据传输过程中需要将源数据路径替换为目标数据的实际存储路径。建议:可以通过配置文件,读取目标数据存储的实际路径。源数据表”MutiFiles”中定义了一个字段“isFetch”抽取每一条数据后,将该字段赋值为“1”,表示该条数据已经被获取。目标数据中其它字段值的获取方式:ID:自动生成,不重复主键;COLLECT_UNIT:对应目标数据库中表SM_COLLECT_UNIT中字段UNIT_CODE值;PAGES::默认值0。数据统计:表:SM_D0CTYPE,按资源类型分库统计数据总量,更新字段DOC_CODE=“DB_SEARCH_WEBVIDEO”的memo1字段,每新增一条数据对应MEMO1增加1。数据查重:每入库一条数据检查数据的重复性,当数据”TITLE”完全匹配时,视为重复数据。DISPLAY_PICTURE:是将视频文件有图像的第一帧的图片做为显示图片,图片生成为固定大小“256*197”,图片存储目录和视频文件相同,命名方式为“记录ID_display.jpg”。FILEFORMAT:存储对应的文件格式,如:flv。网络采集的“图片库”将网络采集信息存储到DB_SEARCH_WEBINFO信息表时,将关联到的图片,逐条存储到DB_SEARCH_WEBIMAGE图片库。字段对应如下表:序号源数据字段目标库说明备注DB_SEARCH_WEBINFODB_SEARCH_WEBIMAGE1ID自建字段(生成不重复的主键)

2PAGES页数(自建字段)3COLLECT_UNITCOLLECT_UNIT所属馆藏单位,对应代码表SM_COLLECT_UNIT(自建字段)4由PICTURE截取的FILENAME文件路径5TITLEDESCRIBE描述6由PICTURE获取的FILEFORMAT文件格式7COLLECTTIMECREATETIME创建时间8RELATE_TABLE关联表名默认“DB_SEARCH_WEBINFO”9IDRELATE_ID主键10DOC_CODE文献类型默认"DB_SEARCH_WEBIMAGE”11FILENAME_THUM文件缩略图12WEBNAMEWEBNAME来源网站名称13DEFINE_NAMEDEFINE_NAME自定义类型名称数据处理说明:1)FILENAME:由picture字段切分成单个图片,每一个图片对应一条记录;2)FILEFORMAT:文件对应的格式。如:.jpg。必须包含点;3)FILENAME_THUM:文件缩略图,在没存储一张图片的时候,在相同的目录下生成一张该图片的缩略图,缩略图的像素尺寸固定为“256*197”,命名格式为“FILENAME_thum.jpg”网络采集的“文档库”将网络采集信息存储到DB_SEARCH_WEBINFO信息表时,将关联到的文档,逐条存储到DBSEARCHWEBDOC文档库。字段对应如下表:序号源数据字段DB_SEARCH_WEBINFO目标库说明DB_SEARCH_WEBDOC备注1ID自建字段(生成不重复的主键)2PAGES页数(自建字段)

3COLLECT_UNITCOLLECT_UNIT所属馆藏单位,对应代码表SM_COLLECT_UNIT(自建字段)4SOURCEFILENAME文件路径5TITLEDESCRIBE描述6由SOURCE获取的FILEFORMAT文件格式7COLLECTTIMECREATETIME创建时间8RELATE_TABLE关联表名默认“DB_SEARCH_WEBINFO”9IDRELATE_ID主键10DOC_CODE文献类型默认"DB_SEARCH_WEBDOC”11WEBNAMEWEBNAME来源网站名称12DEFINE_NAMEDEFINE_NAME自定义类型名称数据处理说明:4)FILENAME:由SOURCE字段切分成单个文件,每一个文件对应一条记录;5)FILEFORMAT:文件对应的格式。如:.pdf。必须包含点;媒体资源库“三维模型库”数据查询说明:selecta.libID,b.ItemID,b.Title,b.Notes,b.Column1,b.Column2,b.Column3,b.Column4,b.Column5,b.Column7,b.Column10,Column11fromtabliba,TabLib2bwherea.LibName='TabLib2'序号源数据字段目标库说明DB_SEARCH_MEDIA备注1ID自建字段(生成不重复的主键)2PAGES页数(自建字段)3COLLECT_UNIT所属馆藏单位,对应代码表SM_COLLECT_UNIT(自建字段)4TITLETITLE标题5NOTESNOTES备注信息6COLUMN1AUTHOR作者7COLUMN2CREATETIME创建时间8COLUMN3SOURCE来源9COLUMN4PUBLISHER出版者10COLUMN5SUMMARY内容简介11COLUMN7FILETYPE文件类型12COLUMN8RELATEDINFO相关信息13COLUMN10COPYRIGHT版权14COLUMN11RESPONUNIT责任单位15TYPE多媒体类型,默认'2'数据处理说明:源数据表“TabLib2”中定义了一个字段“isFetch”抽取每一条数据后,将该字段赋值为“1”,表示该条数据已经被获取。ID:自动生成,不重复主键;COLLECT_UNIT:对应目标数据库中表SM_COLLECT_UNIT中字段UNIT_CODE值;PAGES:默认值0;TYPE:默认值为“2”;数据统计:表:SM_DOCTYPE,按资源类型分库统计数据总量,更新字段DOC_CODE=“DB_SEARCH_MEDIA”的memo1字段,每新增一条数据对应MEMO1增加1。数据查重:每入库一条数据检查数据的重复性,当数据”TITLE”完全匹配时,视为重复数据。

3.6媒体资源库“国防科技图片库”数据查询说明:selecta.libID,b.ItemID,b.Title,b.Notes,b.Column1,b.Column2,b.Column3,b.Column4,b.Column5,b.Column6,b.Column7,b.Column10,Column11fromtabliba,TabLib1bwherea.LibName='TabLibl'序号源数据字段目标库说明DB_SEARCH_MEDIA备注1ID自建字段(生成不重复的主键)2PAGES页数(自建字段)3COLLECT_UNIT所属馆藏单位,对应代码表SM_COLLECT_UNIT(自建字段)4TITLETITLE标题5NOTESNOTES备注信息6COLUMN1AUTHOR作者7COLUMN2CREATETIME创建时间8COLUMN3SOURCE来源9COLUMN4PUBLISHER出版者10COLUMN5SUMMARY内容简介11COLUMN6LANGUAGE语言12COLUMN8RELATEDINFO相关信息13COLUMN10COPYRIGHT版权14COLUMN11RESPONUNIT责任单位15TYPE多媒体类型,默认'1'数据处理说明:源数据表“TabLibl”中定义了一个字段“isFetch”抽取每一条数据后,将该字段赋值为“1”,表示该条数据已经被获取。ID:自动生成,不重复主键;COLLECT_UNIT:对应目标数据库中表SM_COLLECT_UNIT中字段UNIT_CODE值;PAGES:默认值0;TYPE:默认值为“1”;数据统计:表:SM_DOCTYPE,按资源类型分库统计数据总量,更新字段DOC_CODE=“DB_SEARCH_MEDIA”的memo1字段,每新增一条数据对应MEMO1增加1。数据查重:每入库一条数据检查数据的重复性,当数据”TITLE”完全匹配时,视为重复数据。3.7媒体资源库“音视频及二三维动画库”数据查询说明:selecta.libID,b.ItemID,b.Title,b.Notes,b.country,b.Column1,b.Column2,b.Column3,b.Column4,b.Column5,b.Column6,b.Column7,b.Column8,.Column9,b.Column10,Column11fromtabliba,TabLib3bwherea.LibName='TabLib3'序号源数据字段目标库说明DB_SEARCH_MEDIA备注1ID自建字段(生成不重复的主键)2PAGES页数(自建字段)3COLLECT_UNIT所属馆藏单位,对应代码表SMCOLLECTUNIT(自建字段)4TITLETITLE标题5NOTESNOTES备注信息6COUNTRYCOUNTRY国别7COLUMN4SCREENSIZE画面尺寸8COLUMN5TIME时间长度9COLUMN8AUTHOR作者10COLUMN6CREATETIME创建时间11COLUMN1SOURCE来源12COLUMN9PUBLISHER出版者13COLUMN2SUMMARY内容简介14COLUMN3FILETYPE文件类型15COLUMN11RELATEDINFO相关信息16COLUMN10COPYRIGHT版权17COLUMN7RESPONUNIT责任单位18TYPE多媒体类型,默认'3'数据处理说明:源数据表“TabLib3”中定义了一个字段“isFetch”抽取每一条数据后,将该字段赋值为“1”,表示该条数据已经被获取。ID:自动生成,不重复主键;COLLECT_UNIT:对应目标数据库中表SM_COLLECT_UNIT中字段UNIT_CODE值;PAGES:默认值0;TYPE:默认值为“3”;数据统计:表:SM_DOCTYPE,按资源类型分库统计数据总量,更新字段DOC_CODE=“DB_SEARCH_MEDIA”的memo1字段,每新增一条数据对应MEMO1增加1。4.数据查重:每入库一条数据检查数据的重复性,当数据”TITLE”完全匹配时,视为重复数据。3.8媒体资源库关联文件导入从媒体库中抽取出每一条信息,还要按照查询出的liblD和ItemID,查询相关联的多媒体文件信息(源数据中多媒体文件分三个表存储),来导入到目标库中。导入图片资源数据查询:selectImgName,ImgFormat,Description,EntryTimefromTabimagewhereLiblD=''andItemID=''序号源数据字段目标库说明DB_SEARCH_MEDIA_FILE备注1ID自建字段(生成不重复的主键)2PAGES页数(自建字段)3COLLECT_UNIT所属馆藏单位,对应代码表SM_COLLECT_UNIT(自建字段)4ImgNameFILENAME文件名称5ImgFormatFILEFORMAT文件格式6DescriptionDescription文件描述7EntryTimeEntryTime创建时间8FILETYPE媒体资源类型默认“1”9MEDIA_ID关联的多媒体信息ID数据说明:ID:生成不重复的主键;COLLECT_UNIT:对应目标数据库中表SM_DOCTYPE中字段DOC_CODE值;PAGES:默认“0”FILETYPE:文件类型,默认值“1”MEDIA:关联表“DB_SEARCH_MEDIA”的ID;程序中文件物理路径设置为可配置的。■导入视频资源数据查询:selectAVName,AVFormat,Description,EntryTimefromTabimagewhereLiblD=''andItemID=''序号源数据字段目标库说明DB_SEARCH_MEDIA_FILE备注1ID自

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论