




已阅读5页,还剩7页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
信息流:1.,收集URL;2.从Int网页分词、建立站点树;3.萃取出用户与行业、专业关系;4.收集搜索关键字,建立用户与行业及专业的关系;5.依据客户与各行业和专业的关系,提供给三类应用,业务流与数据流,-1,URL,搜索关键字,流量经营,各行业分析,网络质量分析,客户行为与行业、专业的关系,网页,搜索网站/消费网站,社会各行业及专业,关键词库,Internet各网页,站点树,互联网用户,1,3,2,4,1,2,3,4,5,5,5,业务流:1.用户输入或点击URL,访问网页;2.用户从网页获取到某行业及其下某专业的信息,并进行交互;3.用户在搜索网站/消费输入搜索关键字;4.用户访问搜索结果网站,电信级BIGDATA开始被关注处理面临挑战,DataAnalytics,DataOperations&ModelBuilding,Database&Warehouse,At-RestDataAnalytics,Traditional/RelationalDataSources,Non-Traditional/Non-RelationalDataSources,Non-Traditional/Non-RelationalDataSources,Traditional/RelationalDataSources,InternetScale,传统数据仓库,实时数据,互联网非结构化数据,市场、客户、产品分析等,网络状态实时分析和监控,客户洞察分析,Billing,CRM,Location,10000,CDRs,NetworkDevices,Internet,Blogs,e-Mail,开始关注互联网日志数据和互联网站内容数据,处理速度要求更快,存储容量要求更高,网络带宽要求更高,传统数据仓库无法满足存储和处理的要求,解决方案,网络带宽要求更高,处理速度要求更快,存储容量要求更高,传统以太网千兆升级到万兆,传统以太网升级到Infiniband,单端口带宽最大可达到20Gbps,采用集群计算并优化每点计算算法和效率,采用Hadoop分布式文件系统容量可扩展到ZB级,MapReduce,BigData技术落地分布式文件管理系统及组件,HIVE,HBASE,Hadoop分布式文件系统(HDFS),基于分布式文件的关系数据库,基于分布式文件的非结构化数据库,大规模并行处理引擎MapReduce技术,有较强容错性可在通用的机器上运行,降低总体成本可扩展,能构建大规模应用,关键技术-互联网信息萃取,互联网信息萃取处理流程:,关键技术点:网络爬虫:我们采用Heritrix框架的网络爬虫技术获取常规站点的网页内容分词和文本挖掘技术:采用最优算法进行文本分词,基于关键字排序算法进行网页分类,非结构化存储hadoop,结构化存储ODS,Hadoop分布式文件系统(HDFS),分布式文件系统优点:有较强容错性可在通用的机器上运行,降低总体成本可扩展,能构建大规模应用,基于分布式文件的关系数据库(HIVE),HIVE优点:表定义是基于HDFS文件,不必复制数据表查询采用与兼容的语句查询数据自动调用分布式处理引擎,查询处理速度快,2011/12/2716:35:11debug243385#0:*11LatnId=5512011/12/2716:35:11debug243385#0:*11avscFileName=3504.avsc2011/12/2716:35:11debug243385#0:*11svcName:DPRINTwillbecalled.2011/12/2716:35:11debug243385#0:*11BeginWrite:ret=12011/12/2716:35:11debug243385#0:*11simtpcallsuccess!-,log_time,log_level,thread_info,log_detail用语句定义表对应的文件,字段对应的位置,就将表与字段建立了关联,查询时按数据库一样查询:Selectlog_time,log_detailfromlog_tablewherelog_level=error,基于分布式文件的非结构化数据库(HBASE),HBASE优点:基于列存储模式,节省存储空间适合存放文本、网页等互联网内容。,实例:计算各月总收入假如5000万用户号码,12个月,分布在10台机器上,在分布式处理模式下,1.2秒得到统计结果,(201110,40.27)(201110,149)(201110,25.15)(201110,138.05)(201111,197.5)(201111,128.25)(201111,302.74)(201111,156.45)(201112,277.39)(201112,129)(201112,156.17)(201112,130),(201110,40.27,149,25.15,138.05)(201111,197.5,128.25,302.74,156.45)(201112,277.39,129,156.17,130),Map,Reduce,(201110,352.47)(201111,784.94)(201112,692.56),某个DataNode下的数据:,汇集所有DataNode的结果,大规模并行处理引擎MapReduce技术,.其他DataNode,MapRecude将复杂的统计任务拆分成各节点能独立处理的小任务,然后Master节点再将各节点的结果汇总得到最终统计结果。,已完成访问日志清洗保存流程ETL完全监控化,原始日志,去不完整URL;去图片、广告,筛选掉后台API调用URL,规范URL,保存到HADOOP中,完全过滤掉噪声数据,后续处理高效精准,节省存储保存更久历史,关联用户资料,关联URL分类库,客户行为特征库,已建资源库互联网URL分类库/手机应用分类库/影视资料库,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026届江西省临川一中等化学高二上期末综合测试模拟试题含答案
- 贵州省安顺市2026届化学高一第一学期期中预测试题含解析
- 室内空气消毒研究-洞察及研究
- 公司法现代化-洞察及研究
- 连锁酒店选址策略优化-洞察及研究
- 智慧照明系统优化-洞察及研究
- 现代主义设计趋势-洞察及研究
- (2025年标准)购粤b协议车协议书
- 2025年柬埔寨离婚协议书
- 2025年新合唱指挥聘请协议书
- 新常态下的中国消费-麦肯锡
- 酒店楼层分租协议书
- 单位对个人教育教学情况定性综合分析
- 《2025年CSCO HR阳性晚期乳腺癌治疗指南》解读
- 浙江省温州市鹿城区2025年小升初总复习数学测试卷含解析
- 2025福建德化闽投抽水蓄能有限公司招聘15人笔试参考题库附带答案详解
- 电力服务收费标准
- 厂区行驶车辆安全管理规定模版(2篇)
- 食品安全保障措施方案
- 第三届全国工业经济应用创新职业技能竞赛(供应链管理师赛项)考试题库(含答案)
- 写作《观点要明确》教学设计
评论
0/150
提交评论