07、更复杂的推荐系统场景mahout_第1页
07、更复杂的推荐系统场景mahout_第2页
07、更复杂的推荐系统场景mahout_第3页
07、更复杂的推荐系统场景mahout_第4页
07、更复杂的推荐系统场景mahout_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第7周DATAGURU专业数据分析社区法律【】和幻灯片为炼数成金网络课程的教学资料,所有资料只能在课程内使用,不得在课程以外范围散播,违者将可能被责任。法律和经济课程详情炼数成金培训NZZV KJ JGZGMX IT*:-;8;专业数据分析社区文本挖掘典型场景网页自动分类邮件判断评论自动分析通过用户内容判别用户喜好*:-;8;专业数据分析社区网页自动分类自动化门户系统(搜索引擎根据用户,谷歌等)类型推送不同类别的搜索结果*:-;8;专业数据分析社区邮件判断*:-;8;专业数据分析社区邮件判断原理分词公式与分类器*:-;8;专业数据分析社区评论自动分析*:-;8;专业数据分析社区文本挖掘的难点分

2、词技术自然语言理解与处理巨量数据数学模型复杂*:-;8;专业数据分析社区项目背景:运营商数据传统数据文件上网行为数据订单数据产品数据流量使用客户账单网页大数据价值密度由高到低*:-;8;专业数据分析社区9项目背景:增值业务影音应用*:-;8;专业数据分析社区10项目背景:内容推送*:-;8;专业数据分析社区11根据用户偏好来指导内容推送项目流程提取用户页面的;82提取页面的正文内容计算用户识别页面类别的偏好*6/ 深度包检测正文提取算法分词文本分类器类别分布统计*:-;8;专业数据分析社区12目标:分析用户的偏好构建文本分类器测试分类器性能训练分类器文本预处理积累样本确定分类体系*:-;8;专

3、业数据分析社区13构建文本分类器的步骤分类体系两层的分类体系*:-;8;专业数据分析社区14一级分类二级分类一级分类二级分类生命科学科技考古地理自然天文财经外汇保险数码36 基金相机电脑家电积累样本*:-;8;专业数据分析社区15从门户爬取指定类别下的文章文本预处理*:-;8;专业数据分析社区16类别 BZ a词 词 词3 中文分词简介分词算法分类基于字符串匹配的分词方法基于理解的分词方法基于统计的分词方法两题歧义识别新词识别应用搜索引擎自然语言处理*:-;8;专业数据分析社区2IKTK的中文分词器基于字符串匹配的分词VGUJOTMSSYKM P:33YKM算法/1:正向迭代最细粒度切分算法基

4、于统计的分词OSJOIZ:采用隐模型参考资料:NZZV OZK_K IUS TKY *:-;8;专业数据分析社区分词简介简介Paodings 1TOKY 中文分词具有高效率和高扩展性 ;采用完全的面象设计,构思先进。主页NZZV IUJK MUUMRK IUS V VGUJOTM 优点:自定义词库能够对未知的词汇进行合理分词效率高*:-;8;专业数据分析社区分词示例:资源资源NZZVY IUJK MUUMRK IUS V VGUJOTM JUTRUGJY ROYZ必要的文件RIKTK IUXK PGX:2IKTK0GX包VGUJOTM GTGR_YOY PGX:分词包IUTY RUMMOTM

5、PGX :日志输出JOI:词典文件夹*:-;8;专业数据分析社区分词示例:指定词典位置方法 : 修改配置文件VGUJOTM JOI NUSK VXUVKXZOKY方法 :在系统中添加环境变量65*/4-E*/)E.53+,指向词典路径*:-;8;专业数据分析社区IRGYYVGZN JOI表示词典文件在类路径下分词示例:代码*:-;8;专业数据分析社区分词示例:运行结果*:-;8;专业数据分析社区并行分词:环境介绍开发环境系统:=OT HOZ/*+:+IROVYK0GG:0*1 集群环境节点:三节点, 个3GYZKX, 个9RGK系统: )KTZ59 XKRKGYK 0GG: 0*1 .GJUU

6、V: .GJUUV *:-;8;专业数据分析社区并行分词:程序设计 1K_:偏移量GRK:文件的一行1K_:类别 文件名GRKY:ROYZa每行的分词结果c8KJIKX3GVVKX1K_:类别GRK:文件的分词结果1K_:类别 文件名GRK:行的分词结果*:-;8;专业数据分析社区并行分词:程序设计 1K_:文件的类别名GRK:完整的文件3GVVKX输入的每一条代表一个文件3GVVKX处理后的结果可以直接输出,不需要再经过8KJIKX的处理解决.GJUUV处理大量小文件3GVVKX1K_:类别GRK:文件的分词结果*:-;8;专业数据分析社区/TVZ,UXSGZ /TVZ,UXSGZ *:-;

7、8;专业数据分析社区一个任务最开始的阶段由/TVZ,UXSGZ来控制/TVZ,UXSGZ在3GV8KJIK框架中,/TVZ,UXSGZ扮演的角色:将输入数据切分成逻辑的分片(9VROZ),一个分片将被分配给一个单独的3GVVKX提供8KIUXJ8KGJKX的对象,该对象会从分片中读出1K_GRK$对供3GVVKX处理/TVZ,UXSGZ对3GVVKX的影响:决定了3GVVKX的数量决定了3GVVKX的SGV函数接收的1K_和GRK*:-;8;专业数据分析社区/TVZ,UXSGZ:源码MKZ9VROZY负责将输入数据进行划分,生成一组分片IXKGZK8KIUXJ8KGJKX返回的对象,负责从分片

8、中1K_ GRK$对*:-;8;专业数据分析社区/TVZ9VROZ/TVZ9VROZ是一个抽象类,分片的类都继承自它方法MKZ2KTMZN 用于获取分片的大小方法MKZ2UIGZOUTY 用于获取分片的位置列表*:-;8;专业数据分析社区3GV8KJIK调用8KIUXJ8KGJKX3GVVKX类的XT函数3GVVKX通过IUTZKZ来获取1K_ GRK对,而IUTZKZ的TKZ1K_GRK、MKZ)XXKTZ1K_、MKZ)XXKTZ1K_方法,就是调用/TVZ,UXSGZ返回的8KIUXJ8KGJKX对象*:-;8;专业数据分析社区/TVZ,UXSGZ:类层次结构*:-;8;专业数据分析社区

9、,ORK/TVZ,UXSGZ,ORK/TVZ,UXSGZ是/TVZ,UXSGZ的子类,所有使用文件为数据源的输入格式类都继承自它实现了MKZ9VROZY方法返回的分片类型是,ORK9VROZ,是/TVZ9VROZ的子类,里面加入了描述文件路径,分片开始位置的信息没有实现IXKGZK8KIUXJ8KGJKX方法,是一个抽象类*:-;8;专业数据分析社区,ORK/TVZ,UXSGZ:生成分片默认情况下为文件在.*,9上的每一个HRUIQ都生成一个分片可通过作业的配置参数SGVXKJ SOT YVROZ YOK和SGVXKJ SG YVROZ YOK来设置分片大小的最小值和最大值,设置这两个参数后,

10、可能会对文件连续的HRUIQ生成一个分片,使分片大小在指定的范围内。一个分片包含的HRUIQ只来自一个文件,ORK/TVZ,UXSGZ*:-;8;专业数据分析社区,ORK HRUIQ GHRUIQ HHRUIQ I9VROZ HRUIQ G9VROZ HRUIQ HHRUIQ I9VROZ HRUIQ G9VROZ HRUIQ HHRUIQ I,ORK HRUIQ GHRUIQ HHRUIQ I:KZ/TVZ,UXSGZ:KZ/TVZ,UXSGZ 是默认的输入格式是,ORK/TVZ,UXSGZ的子类,继承了它的MKZ9VROZ方法IXKGZK8KIUXJ8KGJKX返回的是ROTK8KIUXJ

11、8KGJKX的对象每行数据生成一条1K_ GRK$1K_:每个数据的在数据分片中字节偏移量,类型是2UTM=XOZGHRKGRK:每行的内容,类型是:KZ如果输入文件有上万个,那么就需要调用至少上万个3GVVKX!*:-;8;专业数据分析社区)USHOTK,ORK/TVZ,UXSGZ)USHOTK,ORK/TVZ,UXSGZ是针对小文件设计的输入格式继承了类,ORK/TVZ,UXSGZ重写了MKZ9VROZ方法返回的分片类型是)USHOTK,ORK9VROZ,是/TVZ9VROZ的子类,可包含多个文件的路径是一个抽象类,编写具体类需要实现IXKGZK8KIUXJ8KGJKX方法建议返回值的类型

12、是)USHOTK,ORK8KIUXJ8KGJKX,它用于处理类型为)USHOTK,ORK9VROZ的分片)USHOTK,ORK8KIUXJ8KGJKX的构造函数中,还需指定一个8KIUXJ8KGJKX,用于处理分片内的单个文件*:-;8;专业数据分析社区)USHOTK,ORK/TVZ,UXSGZ:生成分片输出的分片中可包含多个不同文件的HRUIQ文件切分原理:NZZV HRUM YOTG IUS IT Y HRUME L H KZ NZSR)USHOTK,ORK/TVZ,UXSGZ*:-;8;专业数据分析社区,ORK HRUIQ GHRUIQ HHRUIQ I9VROZ HRUIQ G9VRO

13、Z HRUIQ H9VROZ HRUIQ IHRUIQ G HRUIQ H HRUIQ I,ORK HRUIQ GHRUIQ HHRUIQ I自定义输入格式3_/TVZ,UXSGZ确保文件不被分割,每个文件都只分配到一个分片一个分片可包含多个文件输出的每条1K_ GRK$对应一个完整的文本文件1K_: 文件所属的类别名, 类型是:KZGRK: 文件的文本内容, 类型是:KZ*:-;8;专业数据分析社区3_/TVZ,UXSGZ:代码继承类)USHOTK,ORK/TVZ,UXSGZ重写方法OY9VROZGHRK:判断所有文件都不可分割实现方法IXKGZK8KIUXJ8KGJKX返回一个)USHOT

14、K,ORK8KIUXJ8KGJKX对象)USHOTK,ORK8KIUXJ8KGJKX的构造函数中,指定8KIUXJ8KGJKX*:-;8;专业数据分析社区指定8KIUXJ8KGJKX:自定义的3_8KIUXJ8KGJKX3_8KIUXJ8KGJKX:构造函数构造函数包含三个参数IUSHOTK,ORK9VROZ:待处理的9VROZIUTZKZ: 保存任务和系统信息OTJK: 当前文件在9VROZ中的索引*:-;8;专业数据分析社区3_8KIUXJ8KGJKX 方法TKZ1K_GRK文件所在的目录名设为QK_文件内容设为GRK如果文件已处理,返回LGRYK*:-;8;专业数据分析社区3_8KIUX

15、J8KGJKX:其他方法继承抽象类8KIUXJ8KGJKX,还需要实现以下方法:OTOZOGROK:初始化MKZ)XXKTZ1K_:返回QK_MKZ)XXKTZGRK:翻译GRKMKZ6XUMXKYY:计算当前处理的进度IRUYK: 关闭XKGJKX前的工作*:-;8;专业数据分析社区并行分词: 任务设置*:-;8;专业数据分析社区指定输出格式指定3GVVKX;不需要指定8KJIKX设置输入格式设置分片大小的上限并行分词: 任务设置*:-;8;专业数据分析社区运行任务如果存在输出目录,则把它删除把输入路径下的目录都加入到任务的输入路径输入路径与输出路径并行分词:3GVVKX*:-;8;专业数据分析社区将分词结果设为输出的GRK,/2*5)分词失败的文件数输入QK_为文件所在目录名,直接设为输出QK_并行分词:运行在.GJUUV上执行分词程序运行信息*:-;8;专业数据分析社区并行分词:运行结果所有文本都保存到一个文件中每行代表一篇文章类别 BZ a词 词 词3 *:-;8;专业数据分析社区炼数成金逆向式网络课程*GZGMX(炼数成金)是专业数据分析,提供教育,内容,社区,数据

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论