内容网数据采集接口定义及自动处理流程.doc_第1页
内容网数据采集接口定义及自动处理流程.doc_第2页
内容网数据采集接口定义及自动处理流程.doc_第3页
内容网数据采集接口定义及自动处理流程.doc_第4页
内容网数据采集接口定义及自动处理流程.doc_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据采集及自动处理流程1 概述本文主要描述内容网库对外定义的数据采集接口以及对于这些采集数据的自动处理流程。通过对现速网的分析,我们认为对于数据的采集主要是通过手工方式,爬虫爬取方式进行的,对于其他的采集方式,网信虽然有提及,但是我们在现在的速网后台没有发现相应的模块,希望网信相关人员通过对该文档的阅读,对于我们欠缺的采集接口做及时的补充。对于我们下面所设计的接口,希望网信相关人员可以提供测试数据供我们测试,2 采集接口定义2.1 爬虫BT接口2.1.1 待确认问题因为在原有的速网后台中,我们没有发现该接口的设置界面,所以请相关人员就一下几个问题给与解答1.爬虫是否会去爬取BT的信息2.如果爬虫会爬取BT的信息,那么和HTTP爬取的信息是否一致?3.Bt爬虫爬取的数据与Bt主动缓存解析的数据有什么区别基于上述的问题,在没有获得网信相关人员答复的前提下,我们按照如下条件设计1.爬虫会爬取BT信息2.爬虫爬取的信息仅包含资源信息。2.1.2 接口设计调用方:爬虫系统调用频率:当发现爬取到新的数据时实时调用或者每天定时调用约束:确保每次发送的信息都是最新批次的数据输入参数: 输入参数明细如下18 FORMAT文件格式2NAME名称用于完整性校验,判断去重4PROTOCOL采集协议5LANGUAGE语言(6CNT_SIZE大小7QUALITY质量10DATA_RATE码流11INFOHASHInfohash值 判断去重12Duration播放时长13URL资源来源 完整性校验 输出:成功或者失败。2.2 爬虫HTTP接口2.2.1 待确认问题1. 爬虫爬取HTTP在线资源时,资源资料信息是否同时采集?2. Http爬取的资源中 是否带有影片名称 ,集数?基于上述的问题,在没有获得网信相关人员答复的前提下,我们按照如下条件设计爬虫爬取HTTP在线资源时,资源和资料信息不是同时进行采集2.2.2 接口设计 爬虫HTTP资源接口 18 FORMAT文件格式2NAME名称用于完整性校验,判断去重4PROTOCOL采集协议5LANGUAGE语言(6CNT_SIZE大小7QUALITY质量10DATA_RATE码流11INFOHASHInfohash值 判断去重12Duration播放时长13URL资源来源 完整性校验 爬虫HTTP资料接口 编号字段名称说明备注2NAME名称 影片名称3LABEL别名 4DESCRIPTION描述 影片的剧情描述5HPOSTER横向海报6VPOSTER竖向海报 7IS_HOT是否热点 8TAGTag栏 9CHILDREN_COUNT子集数量 10AUTHOR编剧11TV_NAME电视台名12TV_HOST主持人13SPAN时长 播放时间14COMMENTS点评 15LANGUAGE影视语言(FK) 16ACTORS主要演员17DIRECTORS导演18 PLAYDATE影视上映日期19COUNTRY地区分类(FK)20MOVIETYPE影视分类(FK)21CONTENT_TYPE题材分类(FK)22AVG_MARKS评分23capture_site采集点判断是不是10大门户网站24channel频道可用于区分是否有集数,主演作者等一系列字段3 自动处理流程自动处理流程的目的是对于采集接口获得的数据通过系统的自动内容筛选,自动内容质控,自动内容发布功能提高入库数据的质量,减轻人工编辑的工作量。3.1 规则列表下方表格中定义了我们归纳出的筛选,质控,发布的规则,平台的规则引擎会自动根据下方的规则对数据进行处理。请根据实际情况对这些规则进行确认以及补充。筛选规则屏蔽资料垃圾数据通过对影片名称,播放地址进行非空判断。如有空字段,则把该数据放到垃圾表中处理。(资料)屏蔽资源垃圾数据通过对影片名称,播放地址进行排空处理。如有空字段,则把该数据放到垃圾表中处理。(资源) 采集信息资料去重对“影片名称”进行比对。如有相同数据,则把该相对数据内容不全的资料放到垃圾表中处理。 采集信息资源去重对“播放地址”,“infohash”进行比对。如果数据相同。则删除其中一条记录。 元数据资料去重通过影片名,别名与元数据中原先资料进行对比,如果有相同资料,则此资料不添加到元数据库中。 元数据资源去重http通过播放地址进行对比,bt通过infohash值进行对比。如找到相同记录,此资源状态改为屏蔽 添加到元数据库中。绑定入库如果在去重阶段未找到相同记录。通过查找对应的影片名(资料查找资源) 进行绑定,反之,亦然。(资源 资料)对于有父子级关系的(例如电视剧)资料。如果库中没有子集资料。父子资料会自动生成子集资料供资源绑定。审核规则合法性校验判断各字段中是否有关键词(例如:黄色词语),如果有则转入人工待审核(资源 资料通用)资源有效性校验资源是否属于10大门户网站,如果是直接审核通过。向播放地址发送ping 看是否有效。资料内容校验首先判断资料是否属于10大门户网站,如果是,直接审核通过。对别名中出现的逗号,顿号自动转换成/.去除”/“两边的空格。 评分字段如果低于5分,自动转为5分以上,如果评分为整数,则添加一位小数。 对于导演,演员,自动去除每一行的 前后空格。 对于剧情描述,首行空2个空格,自动添加或删除多余空格。 对于演员,导演,如果名字不全(例如:张艺谋,但资料中是张艺)查找字典表,自动补全名称。演员亦是如此。 对于地区:如果地区为空,可通过演员,导演来推算是哪个地区。 如果频道对应的剧集,影片。那么演员,导演不能为空。如果对应是动漫,那么作者不能为空。如果对应是综艺,那么主持人,电视台不能为空。不符合规则,转为人工代审核分布管理规则 资源发布规则根据资源的热度(点击率,排行,搜索次数)划分出若干个等级,根据热度等级的结合每个局点的缓存情况,下发到各个局点。例如将热度分为高,普通,低3个等级,对于等级为高的资源下发所有局点,对于热度为普通的资源只下发到缓存空间多的局点,对于热度等级为低的资源只下发到本地。缓存优化规则1.当发现某个资源的缓存进度一直处于比较低的时候,根据规则替换或者删除该缓存2.当发现一个资源被缓存多次时,应根据资源的缓存进度保留进度最高的资源,删除其他资源缓存。3.当发现局点缓存空间偏低,应根据每个资源的热度,缓存情况,清理资源,清理热度低,缓存进度低的资源。3.2 详细描述 1 资源处理流程图 资源在入库前,会进行完整性校验,同批次去重,资源可靠性审核等多重步骤,保证进入元数据的资源是真实可用。 资源在入库后会定时调用审核规则查看资源库中的数据是否符合审核条件,对于已经失效的链接等进行剔除操作。并且对符合发布条件的资源调用 分布管理机制,保证资源的最大利用率。 2资料处理流程图 资料在入库前,会进行完整性校验,同批次去重,与元数据

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论