



版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、中国移动专利申请技术交底书注意事项1. 技术 人应为深入了解本申请提案技术方案的技术 ,如交底书撰写人,负责向专利审核 和 人解释技术细节、修改交底书、审核申请文件等工作, 请务必填全技术 人的姓名、 、 。2. 请按照 公司提供的本技术交底书模板逐项填写,除交底书第八部分为可选项外,其他均为必须填写的内容。填写不全的专利申请提案, 公司不予 。3. 专利申请不要求已具体实现或实施,形成完整的技术方案即可提交申请,特别是需要向合作方公开、向标准提案或以其他方式公开的重要技术构思应公司编号由公司专利管理处填写发明名称一种基于分布式网络爬虫调度的用户行为分析方法申报广西移动运营支撑中心申报类型发明
2、发明人刘晓峰 甘雯 王涛 罗鹏技术人罗鹏luopeng中国移动通信公司在公开前尽早申请。4技术交底书文件命名要求:发明名称短横线(半角)交底书版本号,例:一种短消息方法-交底书 v1.doc一、发明名称【发明名称应尽量清楚、简要、全面地反映技术方案的主题和类型,并尽可能使用所属技术领域通用技术术语。】一种基于分布式爬虫调度的用户行为分析方法二、技术领域【请在下述技术领域中选择本申请提案中技术方案所属领域:无线、网、传支持技输与 IP、业务支撑、数据业务、其他(包括通信电源及其他术等)。如果本申请提案的技术方案序选择多个领域。】多个领域,请按照相关性从高到低的顺业务支撑三、现有技术的技术方案【请
3、在这部分写明以下两个部分的内容:其一是作申请提案基础且能够帮助人理解本申请提案的公知技术;这部分内容以与本申请提案密切相关的公知技术为限,且简单介绍即可;其二是现有技术中与本申请提案最为接近的技术方案;这部分要写明现有的技术方案是怎样实施的,尤其是对现有技术方案与本申请提案的不同之处要描述清 楚,清楚到足以让阅读交底书的人能够符合逻辑地推导出现有技术方案的缺点; 而不能只给出现有技术方案的缺点。如果存在多个与本申请提案最为接近的现有技术,请将其逐一按照上述要求写明。如果与本申请提案最为接近的技术方案是检索到的专利文献,可以只给出专利文献的申请号或公开号,但需对公开的技术方案进行简单描述。请注意
4、:如果重新检索到更接近的对比文件,应当相应修改本部分内容。】目前于移动用户行为分析的,主要为基于用户通信行为以及用户消费行为的分析。根据两者的综合结果确定用户的消费偏好从而得到用户画像,再进行性的。另外一方面,目前分布式爬虫系统多采用集中式或基于散列的任务分割策略。这两种策略都是从均匀分配的出发点解决问题,没有考虑URL 优先级的影响和子节点负载情况。四、现有技术的缺点及本申请提案要解决的技术问题【请技术中与本申请提案最为接近的技术方案,将其与本申请提案相比,写明现有的技术方案具有哪些缺点;如果有多个与本申请提案最为接近的技术方案,请逐一分别写明。这些缺点同时必须是本申请提案的技术方案能够解决
5、的技术问题。请注意:所写的缺点应当是技术性的缺点,比如利用率低、网络实体负荷过大等,而不能是管理性或商业性的缺点,比如依据人的评价或某个管理规范推导出的缺点、商业运行上的缺点等。如果重新检索到更接近的对比文件,应当相应修改本部分内容。】目前的用户行为分析主要存在以下弊端:(1)随着 3G的到来,传统的用户通信行为分析以及用户消费行为分析已经不足以完全反应用户的行为习惯,用户画像存在缺失。这对于要求日益精确的的客户画像,则无法准确管理来说是个很大的缺憾,没有完整用户的行为喜好,从而无法做出精准营销,直接企业投入产出比;(2)而在分布式爬虫系统中,爬取任务的均衡分配是影响系统性能和或基于配置的关键
6、问题之一。目前分布式爬虫系统惯用的集中式散列的任务分割策略并没有考虑 URL 优先级的影响和子节点负载情况,导致系统任务调度效率低下,从而成为分析 WAP日志这一海量数据的瓶颈。五、本申请提案的技术方案的详细阐述【请对本申请提案所提供的技术方案做详细描述,必须说明技术方案是怎样实现的,不能只有原理,也不能只介绍功能。如果本申请提案的技术方案提供的是法或者业务流程,则需要提供该方法或业务的流程图或信令交互图,并结合图以步骤的形式顺序描述技术方案的整体实现流程。如果本申请提案的技术方案提供的是一种系统或者一个设备,则需要提供该系统或该设备内部组成部分的结构图,并结合结构图,详细描述各个组成部分的功
7、能或各个部分的信号处理方式、以及各个部分之间的连接关系(该连接关系可以是物理的连接,如焊接;也可以是逻辑的连接,如传送了某种信号或某种信息)。在方法的各个步骤或设备的结构中,对于本申请提案没有对其作出改进的步骤或组成部分(如和现有技术相同的实现)简要描述即可,对于本申请提案对其作出改进的步骤或组成部分,或者是新的步骤或组成部分,则需要详尽地描述,到本领域技术不需要付出创造性的劳动即可实施的程度。】目前 WAP 网关中有大量用户上网日志,此重要的信息没有被很好地挖掘,无法形成有效的用户知识,不能支撑对客户的工作,在此背景下,我们建设互联网行为分析系统,一方面完善对用户的认知,一方面在此基础上支撑
8、对用户的。整体系统架构如下图所示。系统基于网络爬虫设计,数据处理流程为:1、用户终端网络,在 WAP 网关留下日志,日志文件通过 ETL 接口接入分析平台;2、分析平台对网关日志进行分析,提取用户信息及URL 信息,经过业务过滤和任务分解,生成网络爬虫抓取任务,加入任务调度队列;3、网络爬虫根据任务分配 URL,从互联网上抓取该 URL 对应的网页内容,根据内容出 URL,再进行内容抓取;4、对于抓取的页面内容,通过分词、类,再结合聚类技术,进行用户行为挖掘;挖掘等进行文本分5、得到用户网络行为特征,结合传统的用户通信行为以及消费行为特征,完户画像。面对海量用户的网络,网络内容的抓取效率将会成
9、为互联网行为分析系统性能以及准确程度的关键因素,对于这样的应用环境,采取分布式网络爬虫的抓取方式是提高抓取效率的一个有效途径。而对于分布式网络爬虫抓取,网络爬虫任务的任务分割算法将成为分布式网络性能能否最优化的的因素。本项目的系统架构,任务分割算法包括的 URL 加权传递排序算法和方法。服务器调度的基于散列的最小调度(1)在中心节点和子节点中的 URL 队列中设计算法。传递的排序首先,在中心节点级,其 URL 队列主体是不同主题的 URL,影响爬取质量的属性包括页面重要性、抓取频率和搜索深度。页面重要性评价采用基于网络拓扑的 PageRank 算法作为标准,采用线性函数计算,具体为对应的 PR
10、 和 URL 队列中 PR 最小值的差与PR 最大值和最小值差的比值:PRI - min( PR)a =Imax( PR) - min( PR)搜索深度是指页面在最佳优先策略中规定的层数,有 HiddenWeb 表单的深度为 1,目录块结构的数据密集型页面深度为 2,正文导向的目标页面深度为 3,搜索深度的权重影响因子为其本身深度的倒数。b I =1Li抓取频率是根据搜索前台需求和更新策略设置的时间间隔对应的影响因子,更新间隔短,抓取频率大,则优先级较高。经过研究比较,首先采用线性归一化函数处理得到结果,然后过 Sigmoid 函数均匀处理,具体计算如下:,最后经FI - min( F )x
11、=Imax( F ) - min( F )其中, FI 是最大值和最小值。的抓取频率;min 和 max 分别取得队列中频率11 + e-axg =Ia取值大于 1,是线性平滑结果后的因子,目标是扩大首步计算结果。按照 Sigmoid 函数曲线,a 在系统中取 2.5。由此可以得出,的优先级权重是 3 个影响因子的算术平均:= a i + b i + g iQI3其次,子节点中的 URL 队列继承了中心节点的 URL 权重算法,Q 值中抓取频率和站点重要性 2 个因子不变,只会随搜索深度因子变化,计算如下:- b pre- bpre3其中, Qpre 是从父 URL 传递下来的权值; b pr
12、e 是父 URL 的搜索深度因子; b 是对象 URL 的搜索深度因子。(2)调度队列的调度采用用相应的权值表示其处理性能最小调度算法。各个子节点最小连接调度在调度新连接时尽可能使服务器的已建连接数和其权值呈正比最小连接调度的算法流程如下:假设有一组服务器 S=S0,S1, Sn-1,W(Si)表示服务器Si 的权值,C(Si)表示服务器 Si 的当前连接数。所有服务器当前连接数的总和为CSUM = åC(Si )(i=0,1,n-1)当前的新连接请求会被服务器 Sm,当且仅当服务器 Sm 满足以下条件再,Sm 执行内容抓取任务:C(Sm )= min C(Si )W (Sm )W
13、(Si )整体的系统拓扑结构如下图所示。在经过网络爬虫抓取页面内容入库后,经过内容分类以及用户聚类分析,最终得到用户的网络行为分析画像。六、本申请提案的关键点和欲保护点【请对本申请提案与现有技术不同的各个区别点进行提炼,按照区别点对本申请提案发明目的影响的重要程度从高到低顺序列出。】将移动通信用户分析范畴从传统的通信及消费分析模式提升到 网络行为分析模式,完善客户画像。整套系统基于分布式网络爬虫构 建;当前网络爬虫系统对于海量分析数据,爬虫任务的调度成为系统效率一大瓶颈的问题,本项目采用了基于 URL传递排序算法和基于散列的最小调度方法,有效提高了调度效率。七、与第三条中最接近的现有技术相比,本申请提案有何技术优点【请按照重要性从高到低的顺序,写明本申请提案相比于现有技术所具有的优点,并逐一说明本申请提案是因为采用了怎样的技术才能具有某个优点。请注意:至少要写明与现有技术缺点相对应的本申请提案的优点,如果本申请提案取得了的技术效果也请列出;这里所说的优点或效果是指技术上的优点,而不是管理上或商业上的优点。】申请的专利方案有如下特点:3G 网络移动用户的行为特点,了传统的基于用户通信及消费的分析模式,加入了基于分布式网络爬虫系统的用户网络行为分析元素,最大程度完善了客户画像,从而在精确方面提供了
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 机电设备维修技术 第3版 课件 第六章-典型机电设备的维修
- 单片机课程设计心得体会模版
- 湖北省襄阳市宜城市五校2024-2025学年七年级下学期期中学业质量监测历史试卷(含答案)
- 北京版英语Unit 4 Where is my shirt《Lesson 13》课件
- 公司采购员年终总结模版
- 2023年雷雨知识竞赛题目及答案
- 山西科技学院《光学基础实验(二)》2023-2024学年第二学期期末试卷
- 市场营销营销策略知识点习题
- 打桩工程分包合同
- 江西省永新县达标名校2025年初三下学期七调考试语文试题含解析
- 2025年部编版新教材语文一年级下册期末测试题及答案(一)
- (统编2024版)语文一年级下册第三单元解析+任务目标+大单元教学设计
- 内河船舶船员基本安全知识考试题库300题(含答案)
- 校长论坛交流发言:引领教师专业成长的核心能力点燃教育变革的引擎
- 2024 年普通高等学校招生全国统一考试新课标 I 卷-数学试卷-全国
- 《春夏中医养生》课件
- 2024年02月北京2024年北京银行总行社会招考(217)笔试历年参考题库附带答案详解
- 《高速公路设计审查技术指南》
- 燃气岗位安全培训
- 《pmp项目管理培训》课件
- 机械设计基础B知到智慧树章节测试课后答案2024年秋哈尔滨工程大学
评论
0/150
提交评论