河南移动互联网行为分析应用案例.doc_第1页
河南移动互联网行为分析应用案例.doc_第2页
河南移动互联网行为分析应用案例.doc_第3页
河南移动互联网行为分析应用案例.doc_第4页
河南移动互联网行为分析应用案例.doc_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

河南移动互联网行为分析应用案例总体说明1.1 背景目前河南wap网关中有大量用户上网日志,此重要的信息没有被很好地挖掘,无法形成有效的用户知识,不能支撑对客户的营销工作,在此背景下,我们建设互联网行为分析系统,一方面完善对用户的认知,一方面在此基础上支撑对用户的营销1.2 目标本期的建设目标以平台搭建为主,辅以业务应用,具体目标如下:1、搭建互联网用户行为分析平台,重点建设用户群提取,提升用户群精确定位能力。2、支撑业务部门的关键词检索分析、网页内容解析业务。1.3 实施要求1、 系统遵循中国移动集中的4a规范,以及河南省移动公司的安全管理规范 2、 系统要从网络层、主机层、中间件层、应用层四个层次进行保证可靠性3、 系统要保持可服务性4、 系统要有简单的可扩展性功能介绍1.4 技术实现河南的互联网分析主要涉及几个方面:数据采集、数据清洗、网络爬虫、文本解析、索引创建、搜索查询1.4.1 数据采集互联网分析的数据采集主要来自wap日志,wap日志ftp服务器以文件的方式进行抽取到互联网分析系统,并装载到数据仓库1.4.2 数据清洗数据清洗处理流程:1、 获取wap日志,wap日志从wap网关分时段进行装载入库。2、 通过存储过程剔除图片和应用网页。3、 根据二八原则获取有意义的日志群4、 格式化网址,对类似网页进行格式化5、 根据知识库的沉淀,剔除不需要爬取的网站6、 给url进行增加id7、 数据剔重8、 形成可以爬取的url数据流程图如下,以上过程全部通过数据库进行。1.4.3 互联网爬虫一、服务器清单设备名称服务器ip是否主节点备注爬虫服务器60 是设备型号dl585爬虫服务器61否设备型号dl585爬虫服务器362否设备型号dl585爬虫服务器463否设备型号dl585二、四台服务器上部署的软件设备名称软件类别软件名称版本占用空间(gb)爬虫服务器操作系统linux redhat10以上5配套软件tomcat5.51.5配套软件jdk1.60.3应用软件hadoop10.3应用软件爬虫软件10.7三、应用说明:1. 系统把爬取数据形成爬取文件,通过ftp把爬虫文件传递给爬虫服务器。2. 爬虫服务器接收到输入的url文件和分块大小,hadoop会自动将url切分成若干个url列表,作为map函数的输入 3. map函数根据输入url,爬取相应网页,输出网页源代码 4. 各map函数之间的处理完全独立。具体哪个爬虫服务器爬取哪个url由hadoop自动调度分发。 5. 爬取结果通过ftp传递给分析服务器。1.4.4 互联网分析一、服务器清单设备名称服务器ip是否主节点备注分析服务器11是hp pc server分析服务器12否hp pc server分析服务器313否hp pc server分析服务器414否hp pc server二、服务器部署的软件设备名称软件类别软件名称版本占用空间(gb)分析服务器操作系统linux redhat10以上5配套软件tomcat5.51.5配套软件jdk1.60.3应用软件hadoop10.3应用软件分析软件10.7三、应用说明:1. 爬虫服务器把爬取的网页源代码文件通过ftp传送给分析服务器,作为分析服务器的输入。2. 输入网页源代码文件,hadoop会自动将文件切分成若干个份列表,作为map函数的输入 3. map函数根据输入源代码,进行页面解析、分词、分类等分析,输出分析结果 4. 各map函数之间的处理完全独立。具体哪个分析服务器分析哪个urlid由hadoop自动调度分发。 5. 分析服务器把分析结果进行入库。1.4.5 互联网全文检索一、服务器清单:设备名称服务器ip是否主节点备注搜索服务器15否hp pc server搜索服务器16是hp pc server搜索服务器386否hp pc server搜索服务器488否hp pc server搜索服务器519否hp pc server搜索服务器620否hp pc server二、服务器部署的软件设备名称软件类别软件名称版本占用空间(gb)搜索服务器操作系统linux redhat10以上5配套软件tomcat5.51.5配套软件jdk1.60.3配套软件oracle客户端11g10应用软件active mq10.3应用软件全文检索服务端10.2应用软件全文检索客户端10.1应用软件etl客户端0.7三、 应用说明:1、索引创建分为两部分:a、 关键词索引和黄页索引按地区每日创建一个索引库。b、网页索引则每三小时执行一次创建命令,如果执行命令时已有待索引的网页源文件则创建一个单独的索引库;2、关键词查询是实时扫描前台的查询信息,搜索到查询信息以后,以消息的形式发给active mq,由active mq进行任务分发给查询服务器集群,示意如下:activemq可以维护很多不同的队列,我们只要将每台查询服务器中设置不同的队列,不同的客户端使用的消息队列与不同查询服务器的队列设置成一样,这样就可以将任务分配给不同的查询服务器。 3、整个调度使用经分的etl,通过etl的调度控制。 4、查询结果通过ftp传递给ckm进行前台展示。1.5 技术架构1.6 模块介绍1.6.1 url业务过滤目的对于抽取入库后的wap日志数据,根据相关的业务过滤策略进行业务过滤,分解出需要分析的网页,送入爬取服务器。功能列表功能名称描述备注策略过滤根据业务策略得到待分析任务。过滤策略包括:去重策略、网站策略和网站更新策略,前一天汇总策略; url任务分解对过滤后的日志,分解出待爬取的网页url,需要url分类的url。处理1.6.2 网页爬虫目的根据wap日志文件爬取url的源文件功能列表功能名称描述备注url任务控制传爬取任务到爬虫服务器并记录最大处理量和待处理量到爬虫监控信息中网页缓存根据设置文件传回到服务器的ip及目录,并根据url来确定网页的分类,并解压出网页文件,并在缓存目录下创建分类目录,并把网页文件放到相应的分类目录下爬取爬取url的源文件网页文件传回传网页文件到磁盘陈列上,并记录爬取的成功和失败量处理1.6.3 网页分析目的对爬取url的源文件进行分词,分类,分关键词,对过滤的url分类。功能列表功能名称描述备注添加分类添加,更新,删除分类,并为分类添加,更新,删除训练集,并进行分类训练。分类训练对添加,更新,删除的分类重新进行分类训练内容分类根据词库对网页文件分类, 把分类文件中分类结果保存到数据库中分关键词根据系统关键词词库分关键词, 把关键词文件中分关键词结果保存到数据库中url分类按url默认规则对url进行分类用户行为分类根据wap用户访问日志和网页分类对用户行为进行分类用户行为分关键词根据wap用户访问日志和网页关键词对用户行为进行关键词处理1.6.4 前台展现客户群查询目的 提供客户群的查询,业务人员使用不同的条件查询满足条件的客户群,可以查询用户分类偏好、用户关键词偏好和当月用户分类偏好、当月用户关键词偏好。功能列表功能名称描述备注查询客户群在主页面提供简单的查询,简单查询只能使用分类名称、分类访问次数、关键词名称、关键词访问次数来查询客户群。还提供高级查询功能,查询分类偏好和关键词模型,查询条件有分类名称、权重、访问次数、关键词名称、权重、访问次数支持条件关系和逻辑关心。处理视图管理目的方便业务人员了解网站的访问情况和客户的行为。功能列表功能名称描述备注用户视图通过用户视图可以了解到用户的基本属性、用户的分类偏好、用户的关键词偏好,用户访问互联网的情况用户云图通过云图了解用户点击的关键词和访问次数网站视图通过网站视图可以了解到网站的访问量,网站的基本信息,网站所包含的url网站热力图热力图展示以刻度值来显示网站分类热度情况。处理 1.6.5 网站/url管理网站管理目的对网站的基本信息及策略(是否爬取,更新周期),及网站对应的url进行维护,依据这些策略来爬取或者不爬取网站下的url对url默认分类管理,url分类根据设置来对url进行按后辍名或者包含的内容进行分类。功能列表功能名称描述备注网站维护根据url特定条件,对网站的网站信息、网站基准url(即首页的url,以该url为前缀的所有url都会被归入该网站)、网站所含关键词等信息进行修改,删除等操作网站策略维护对于网站策略的信息进行修改,删除等操作处理1.6.6 url管理目的对url默认分类及url过滤进行设置,为url分类及url过滤提供规则。功能列表功能名称描述备注查看url默认分类查看url默认分类添加url默认分类添加url默认分类更新url默认分类更新url默认分类删除url默认分类删除url默认分类查看url过滤查看url过滤添加url过滤添加url过滤更新url过滤更新url过滤删除url过滤删除url过滤处理1.6.7 系统监控及调度 核心组件监控目的根据日志信息监控网页爬取和网页分析的运行情况,对异常情况进行前台页面显示,和系统重启操作;功能列表 该核心监控包括爬取任务进程监控、网页分析进程监控,详见下表:功能名称描述备注爬虫服务器爬取网页源文件任务进程状态监控etl调用shell命令,获取执行爬虫服务的进程的运行状态,并在前台页面显示,如果得到爬虫服务器爬取进程停止信息,则etl调用shell命令,重启爬取进程每隔一定时间,进行监控网页分析任务进程状态监控etl调用shell命令,获取网页分析服务器分析进程的运行状态,并在前台页面显示,如果得到分析取进程停止信息,则etl调用shell命令,重启分析进程每隔一定时间,进行监控处理爬取进程系统监控 网页分析进程监控 业务监控 目的 etl对wap日志的获取,过滤,url默认分类,已知url分类,网页爬取和网页分析六个过程中的处理量、成功量、失败量和处理速度进行监控,对于某个处理量达到该处理过程的上限阀值进行告警; 功能列表 业务监控主要功能点包括:wap日志获取监控、wap日志url过滤监控、url默认分类监控、对已知url分类过程监控、网页爬取过程监控、网页分析过程监控;详见下列表: 功能名称描述备注wap日志获取监控对提供wap日志接口处理文件量进行监控,如果达到wap接口处理量情况,进行告警,输出到前台监控页面,由系统维护人员进行维护主要监控:url到达总量,待加载url总量,加载成功量,加载失败量,处理速度wap日志url过滤监控对从wap日志中抽取url后进行过滤操作进行监控,并对异常情况进行告警,输出到前台监控页面,由系统维护人员进行维护主要监控:抽取url总量,待过滤url量,过滤通过量,过滤去掉量,处理速度url默认分类监控对按url策略分类操作的过程监控,并对异常情况进行告警,输出到前台监控页面,由系统维护人员进行维护主要监控:按url策略分类总量,待url策略分类的量,按url策略分类成功量,按url策略分类失败量,处理速度网页爬取过程监控对爬取服务器爬取文件操作的监控,并对分析过程中文件量过大,超过处理阀值等异常情况进行告警,输出到前台监控页面,由系统维护人员进行维护主要监控:送入爬虫服务器url总量,待爬取url的量,爬取url成功的量,爬取url失败的量,处理速度网页分析过程监控对网页分析服务器分析网页操作进行监控,对分析文件过大,超过阀值等情况进行告警,输出到前台监控页面,由系统维护人员进行维护主要监控:网页分析文件到达总量,待分析网页的文件量,网页分析成功的文件量,网页分析失败的文件量,处理速度 处理 系统调度 目的 系统调度是为了使互联网行为分析的各个流程模块,能够很好的相互连接,顺序进行,快速准确的输出分析结果; 功能列表系统调度模块包括:url过滤调度、网页爬取调度、网页分析调度、网页文件回传调度、网页缓存调度,具体见下表:功能名称描述备注url业务过滤调度当wap日志抽取之后生成有效url列表,etl执行url业务过滤调度,执行业务过滤操作,每隔一定时间,执行调度网页爬取调度如果数据库中有待爬取的任务生成时,执行爬取调度操作,将需要爬取的url文件,ftp到爬虫服务器,执行爬取操作每隔一定时间,执行调度网页分析调度如果磁盘阵列上有爬取文件生成,则执行分析调度操作,将爬取文件ftp到分析服务器上,执行分析操作每隔一定时间,执行调度网页回传调度当爬虫服务器有爬取结果生成时,执行网页回传调度,将本地的结果ftp到磁盘阵列上,等待网页分析调度每隔一定时间,执行调度网页缓存调度当系统执行网页分析调度时,首先执行网页缓存调度,将待分析的爬取文件,缓存到临时数据库,当有分析结果生成时,手动删除临时表信息每隔一定时间,执行调度 处理1.6.8 搜索任务管理目的管理搜索任务及查看任务的统计信息及用户清单。功能列表功能名称描述备注前台展示显示用户定义的搜索任务及查看任务的的信息(任务id,查询条件,搜索类型,查看用户群信息,删除操作)也就是搜索任务查看搜索任务创建链节到搜索页面搜索任务删除删除当前自己的搜索任务,如果当前任务超期,则删除对应的清单。数据处理搜索任务展示目的显示用户定义的搜索任务及查看相关的数据处理关键词删除目的 删除当前自己的搜索任务,如果当前任务超期,则删除对应的清单。数据处理1.6.9 搜索服务与管理目的 调用搜索服务接口来搜索关键词,并生成离线任务,并显示完成的任务的搜索清单。功能列表功能名称描述备注关键词搜索页面搜索用户关心的包含关键词的网页, 根据用户输入的条件生成搜索任务,以便离线查询关键词,访问次数及搜索类型(全部,网页,关键词)关键词搜索结果显示根据任务来显示相应任务的搜索清单(用户id,关键词,词频,访问次数)数据处理关键词搜索页面目的根据用户的输入条件,调用搜索服务,生成搜索服务。数据处理关键词搜索结果显示目的显示搜索关键词的结果,以便查看搜索结果。功能列表功能名称描述备注关键词搜索结果显示显示搜索关键词的结果,以便查看搜索结果数据处理1.6.10 搜索服务目的为ckm等其它系统提供用户清单搜索的服务。功能列表功能名称描述备注搜索服务 搜索界面,结果显示,搜索服务建立索引针对wap日志由lucene自动建立网页全文索引,关键词全文索引删除索引 删除超期的全文索引查询索引 定时调度,根据关键词,索引库类型查询,导出查询结果数据处理1.6.11 用户搜索结果后台汇总目的根据网页搜索结果结合用户访问清单、搜索任务信息汇总满足搜索条件的用户清单及用户汇总信息,提供给前台展示及ckm应用。功能列表功能名称描述备注关键词用户清单汇总网页搜索结果表和带id用户访问日志清单表通过url_id关联获取用户id,汇总出关键词用户清单信息关键词用户汇总信息汇总关键词用户清单信息根据用户id、关键词汇总,得到访问次数、总词频信息。关键词用户汇总信息转横表关键词用户汇总信息结合搜索任务信息表的关键词列表,动态构

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论