




已阅读5页,还剩9页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
IDC引入内容视图管理技术方案,中国移动研究院2012.4,技术方案原理:基于DNSServer的日志信息的引入内容上报与管理,基于DNSServer实现实现引入内容管理,内容上报与管理:LocalDNS中保存经迭代查询后获得的网站子域名解析记录;建议LocalDNS能够将相关的域名信息生成内容视图数据,通过接口传送至Cache内容管理平台;存在的问题:对于删除的内容不能及时发现,需要在TTL超时之后才能获取到。从一个DNSServer中取数据即可。LocalDNS的解析结果会受到上级的Cache系统干扰,使得A记录受污染.能区分出来,但不全。如果不是DNS劫持的方式,则可用。北京这种基于DNS重定向做的可以知道,但是少数。,Cache系统内容管理平台,IDC,内容视图上报,内容主动探测,DNS自身是一个方案.,技术方案原理:基于人工方式的引入内容上报与管理,基于IDC流量分析系统实现引入内容管理,内容上报与管理:由Cache系统内容管理平台提供Web方式内容视图管理界面,并为IDC运营管理人员提供响应的账号/密码;省IDC相关部门的管理员登陆管理界面,手工录入本省引入内容的域名、IP地址等相关信息;内容主动探测:内容管理平台按照域名对所有引入内容进行实时监测,仅对于经DNS解析及HTTP访问正确无误的内容视图才确认为有效信息;【补充:补充多种策略】,Cache系统内容管理平台,IDC,内容视图上报,内容主动探测,优点:内容管理由人工管理实现,没有新建系统的要求;对于Cache系统内容管理平台的新增功能要求实现难度相对较低;缺点:对管理维护的要求较高,需人工定期更新维护内容视图;人工上报的视图可能不准确,需要对引入内容进行动态监测,判断视图的准确性;当CP/SP在IDC中新增部分频道或内容时,IDC管理员可能无法及时发现,使得IDC内容视图上报不全面;,基于IDC流量分析系统实现引入内容管理,对于现网的改造配置要求,要求Cache系统内容管理平台提供引入内容的管理功能,支持远程登录及记录的增删操作;Cache系统内容管理平台应具备对子域名的主动探测及视图维护功能;要求省公司IDC运维人员需要定期在内容管理平台中维护本地的内容视图;要求一级Cache系统将内容管理平台的IP地址配置服务策略,不对该IP地址发出的请求进行拦截;【Excel文件上传.支持记录的导入导出功能】,方案特点及分析,技术方案原理:由IDC运营管理平台上报引入内容视图,基于IDC运营管理平台实现引入内容管理,由IDC运营管理平台对IDC引入内容进行管理,并将域名信息、IP地址等数据整合形成本节点内容视图;IDC运营管理平台支持全量/增量方式,将内容视图发送至Cache系统管控中心;,Cache内容管理平台,IDC运营管理平台,IDC,对于现网的改造要求,功能要求:IDC运营管理平台定位于开展业务集中运营支撑系统,缺乏对于引入内容进行有效管理和监测的技术手段,需省级支持进行相应内容管理功能;接口要求:需支持HTTP+XML的接口方式与Cache内容管理平台对接,上报IDC内容视图信息;,方案特点分析,对于IDC运营平台的依赖度较高,受限于运营平台的部署进度,同时需要多方推动运营平台进行功能与接口升级,实施时间相对不可控;,技术方案原理:基于IDC流量分析系统实现内容视图传送,基于IDC流量分析系统实现引入内容管理,Cache系统内容管理平台,IDC1,IDC流量分析系统,IDC流量分析系统,IDC2,CMNET,全量同步:初始同步:系统对接时两端进行内容视图的全量同步,流量分析系统将本地的引入内容视图全量发送至Cache系统内容管理平台;周期同步:系统间根据设定时间周期性进行内容视图的全量同步;增量同步:流量分析系统对于发生变化的网站内容,实时发送至内容管理平台;,IDC流量流向分析系统对IDC的请求/响应报文进行监测,捕获IDC链路出入流量的相关信息;系统对监测数据进行分析,解析HTTPHeader及目标IP地址等参数,整合形成标准的引入内容视图数据,发送至Cache系统的内容管理平台;,信息传送机制:支持全量同步和增量同步,基于IDC流量分析系统实现引入内容管理,对于现有系统的改造要求,系统部署:需在IDC的出口链路上部署流量流向分析系统;集团已经统一要求,只有部分省公司IDC已经部署上线,需要加快推动;功能要求:系统对IDC链路中的上行/下行流量均进行监测;系统支持对HTTPHeader字段及报文的目标IP地址进行分析统计;系统支持将引入内容的数据整合生成标准的内容视图格式;接口要求:流量分析系统支持通过HTTP+XML的方式与Cache内容管理平台对接,上报本地视图信息;,方案特点及分析,优点:可以对IDC引入内容进行全量和报文粒度的分析,统计相对精准;对IDC流量监测的实时性较强;缺点:当子域名从IDC中删除时,对于该类场景的监测存在延时,不能实时发现及上报;,基于网络爬虫的内容管理方案,网络爬虫是自动抓取网页对象的程序,可以根据抓取任务的设定来访问网站中的页面与相关链接;内容爬取:从初始网站的URL开始,通过网页的链接地址,遍历Web空间,读取网页的内容;在抓取网页的过程中会自动建立索引,找到在网页中的其他链接地址,对HTML文件进行解析;取出其页面中的子链接,并加入到网页数据库中,不断从当前页面上抽取新的URL放入队列;数据分析:所有被爬虫抓取的网页将会被系统存储,并进行一定的分析、过滤,并建立索引,以便之后的查询和检索。网络爬虫分析某个网页时,利用HTML语言的标记结构来获取指向其他网页的URL地址,可以完全不依赖用户干预;,IDC引入内容视图管理方案,技术方案4:在CMNET中部署网络爬虫监测系统,对引入网站进行主动爬取,并对爬取结果进行分析,得出引入内容的分布情况;爬虫监测系统将上述信息整合形成内容视图,发送至Cache系统内容管理平台;,方案要求与分析系统部署:需要新建爬虫监测系统,按照指派任务进行爬取和内容整合;接口要求:需要在建立数据同步接口:爬虫监测系统Cache内容管理平台实时性问题:爬虫监测系统对于网站内容爬取的速度较慢,实时性较低从省公司的爬虫系统数据来看,爬取一个大型网站约需要23天的时间;,Cache系统内容管理平台,爬虫系统,Internet,内容视图同步,初始爬取策略及参数,基于IDC流量分析系统实现引入内容管理,对于现有系统的改造要求,系统部署:需要现网新建网络爬虫监测系统,对于引入网站的内容进行爬取和分析;接口要求:流量分析系统支持通过HTTP+XML的方式与Cache内容管理平台对接,上报本地视图信息;重用省公司的网络爬虫系统,并按照功能进行功能和接口改造;,方案特点及分析,优点:可以对网站的所有内容进行遍历,覆盖面广泛;缺点:内容爬取速度相对较慢,实时性差,存在对于网站内容的动态侦测不及时的情况;需要对内容爬取算法做进一步优化、选择合适的算法;,1页面采集模块:该模块是爬虫和因特网的接口,主要作用是通过各种web协议(一般以HTTPFTP为主)来完成对网页数据的采集,保存后将采集到的页面交由后续模块作进一步处理。2页面分析模块:该模块的主要功能是将页面采集模块采集下来的页面进行分析,提取其中满足用户要求的超链接,加入到超链接队列中。3、链接过滤模块:该模块主要是用于对重复链接和循环链接的过滤。例如,相对路径需要补全URL,然后加入到待采集URL队列中。4页面库:用来存放
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 6.2做核心思想的传承者 七年级道德与法治下册 议题式课件
- 平谷中考数学试卷
- 彭山区初中数学试卷
- 七下部编版数学试卷
- 清远新城区初三数学试卷
- 2024年山东体育学院附属中学招聘笔试真题
- 七下课堂精练数学试卷
- 全国卷数学北京数学试卷
- 普兰店市高中数学试卷
- 2024年遵义市汇川区招聘教师笔试真题
- 2025年度吉林辅警招聘考试题(含答案)
- 吉安市新庐陵投资发展有限公司及下属子公司2025年第二批面向社会公开招聘笔试备考题库及答案解析
- 幼儿园卫生及安全检查标准
- 2025至2030年中国生长激素行业市场深度研究及投资战略规划报告
- 大疆:2025大疆机场3操作指导书
- 2025年12345热线考试题库
- 网络接入管理办法
- 隧道二衬安全注意事项
- 2025年卫生健康行业经济管理领军人才试题
- 绿色矿山培训课件
- 2025-2030中国香皂市场销售动态及竞争策略分析报告
评论
0/150
提交评论