版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于TipDM大数据挖掘建模平台实现广告流量检测违规识别项目实施快速构建广告流量检测违规识别工程在TipDM大数据挖掘建模平台上配置广告流量检测违规识别项目,主要包括以下3个步骤。配置数据源,导入广告流量检测数据到TipDM大数据挖掘建模平台。对数据进行数据处理。基于处理好的数据,利用随机森林算法建立分类模型,预测广告流量是否违规,实现模型构建与评估。在平台上配置得到的广告流量检测违规识别的最终流程总流程如右图。数据源配置使用TipDM大数据挖掘建模平台进行数据源配置的基本步骤如下图。数据源配置1.导入数据本章的数据为广告流量检测数据,该数据文件为CSV文件,使用TipDM大数据挖掘建模平台导入数据,步骤如下。新增数据集。单击“数据集”模块,在“数据集”中选择“新增”,如下图。数据源配置设置新增数据集参数。任意选择一张封面图片,在“名称”中输入“广告流量检测数据”,在“有效期(天)”中选择“永久”,单击“点击上传”选择“case_data_new.csv”文件,如右图,等到数据载入成功后,单击“确定”按钮,即可上传数据。数据源配置2.创建空白工程数据上传完成后,新建一个命名为“广告流量检测违规识别”的空白工程新建空白工程。单击“我的工程”模块,单击按钮,新建一个空白工程。在新建工程页面填写相关的信息,包括名称和描述,如下图。数据源配置3.配置输入源在“广告流量检测违规识别”工程中配置一个“输入源”组件,操作步骤如下。拖曳“输入源”组件。在“我的工程”模块的“组件”栏中,搜索“输入源”,拖曳“输入源”组件至画布中。数据源配置配置“输入源”组件。单击画布中的“输入源”组件,然后单击画布右侧“参数配置”栏中的“数据集”下的框,输入“广告流量检测数据”,在弹出的下拉框中选择“广告流量检测数据”,在“文件列表”中勾选“case_data_new.csv”,如下图。数据源配置加载数据。右键单击“输入源”组件,选择“运行该节点”。运行完成后,可看到“输入源”组件变为绿色,如下图。数据源配置查看日志。右键单击运行完成后的“输入源”组件,选择“查看日志”,可看到“数据载入成功”的信息,如下图,说明已成功将广告流量检测数据加载到平台上。数据处理本项目数据处理主要是对广告流量检测数据进行缺失值处理、特征构建、数据合并、数据标准化等操作。数据处理1.缺失值处理基于项目4的缺失值统计结果,需将缺失率过高的mac、creativeid、mobile_os、mobile_type、app_key_md5、app_name_md5、os_type等属性进行删除,实现缺失值处理。对加载后的广告流量检测数据进行缺失值处理,步骤如下。拖曳一个“Spark脚本”组件至工程画布中,连接“输入源”组件和“Spark脚本”组件。单击右键“Spark脚本”组件,在跳出来的快捷菜单中选择“重命名”并输入“缺失值处理”,再单击“确定”按钮。数据处理配置“缺失值处理”组件。单击画布中的“缺失值处理”组件,删除缺失率过高的7个属性代码,在【代码编辑】中填入本书配套资料中“删除缺失率过高的属性.scala”文件中的内容,如下图(注意:由于平台限制了各框架的大小,所以可能会导致一些输入内容显示不全);“运行参数”保持默认选择。数据处理预览数据。右键单击“缺失值处理”组件,选择“运行该节点”;运行完成后,右键单击该组件,选择“查看日志”,其结果如下图。由“缺失值处理”组件的日志可以看到,处理前的属性个数22个,处理后的属性个数为15个,已成功删除7个属性。数据处理2.特征构建基于处理好缺失值的数据,进行构建N、N1、N2、N3特征,步骤如下。拖曳一个“Spark脚本”组件至工程画布中,连接“缺失值处理”组件和“Spark脚本”组件。单击右键“Spark脚本”组件,选择“重命名”并输入“特征构建”。数据处理配置“特征构建”组件。单击画布中的“特征构建”组件,构建N、N1、N2、N3特征的代码,在【代码编辑】中填入本书配套资料中“特征构建.scala”文件中的内容,配置如下图;数据处理“运行参数”中“内存大小”填入“32”,“核心数”填入“32”,如下图。数据处理预览数据。右键单击“特征构建”组件,选择“运行该节点”;运行完成后,右键单击该组件,选择“查看数据”,其结果如下图。由“特征构建”组件的日志可以看到,处理后的数据字段存在N、N1、N2、N3特征。数据处理3.数据合并经过特征构建后的数据只存在5个属性,不包含label属性,label属性存在于完整数据集中,因此需要将4个特征属性和label属性进行数据合并,步骤如下。拖曳一个“表连接”组件至工程画布中,连接“特征构建”组件、“缺失值处理”组件和“表连接”组件。数据处理配置“表连接”组件。单击画布中的“表连接”组件,在“字段设置”中,单击“左表特征”旁的按钮后,勾选所有属性,单击“右表特征”旁的按钮后,勾选“rank”“label”属性,“选择连接函数”选择“根据相同字段连接”如右图。数据处理在“根据相同字段连接参数设置”中,单击“连接主键”旁的按钮后,勾选“rank”属性,“选择连接方式”选择“inner”,如下图;其余保持默认选择。数据处理预览数据。右键单击“表连接”组件,选择“运行该节点”;运行完成后,右键单击该组件,选择“查看数据”,其结果如下图。数据处理4.数据标准化如果特征之间的值存在很大的差异,那么可能会导致某一特征对模型的预测结果有着更大且不合理的影响,因此需要对特征数据进行标准化处理。由于特征数据之间的差值较大,因此将使用最小——最大值归一化方法进行处理,步骤如下。拖曳一个“数据标准化”组件至工程画布中,连接“表连接”算法和“数据标准化”算法。数据处理配置“数据标准化”组件。单击画布中的“数据标准化”组件,在“字段设置”中,单击“特征列”旁的按钮后,勾选“rank”以外的所有属性,如下图;数据处理在“字段设置”中,在“标准化方式”中选择“最大-最小规范化”,如下图;“运行参数”保持默认设置。数据处理预览数据。右键单击“数据标准化”组件,选择“运行该节点”;运行完成后,右键单击该组件,选择“查看数据”,其结果如下图。模型构建与评估通过随机森林算法对广告流量检测数据进行违规识别,步骤如下。拖曳一个“随机森林”组件至工程画布中,连接“数据标准化”组件和“随机森林”组件。模型构建与评估配置“随机森林”组件的“字段设置”。单击画布中的“随机森林”组件,在“字段设置”中,单击“特征”旁的按钮后,选择除“label”以外的所有属性,单击“标签”旁的按钮后,选择“label”属性,如下图。模型构建与评估配置“随机森林”组件的“参数设置”。“参数设置”保持默认设置,如下图。模型构建与评估配置“随机森林”组件的“运行参数”。在“运行参数”中“内存大小”填入“32”,“核心数”填入“32”,如下图。模型构建与评估预览日志。右键单击“随机森林”组件,选择“运行该节点”,运行完成后,右键单击该组件,选择“查看日志”,其结果如右图。模型构建与评估“数据回判”是对已经分类或归类的数据进行再次验证或复核的过程,该过程旨在评估分类模型的准确性或判断分类结果的可靠性。由上图可知,使用随机森林算法构建分类模型,并且该分类模型对数据回判的准确率约为89.72%,随机森林模型的分类效果较为理想。由于随机森林是一种基于集成学习的算法,在构建每个决策树时会进行随机特
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026中国科学院科技战略咨询研究科技发展战略研究所特别研究助理(博士后)招聘1人考试参考题库及答案解析
- 2026内蒙古赤峰市宁城县八里罕中学招聘公益性岗位人员1人笔试备考题库及答案解析
- 2026广西河池市罗城仫佬族自治县农业农村局招聘就业见习人员3人考试参考试题及答案解析
- 医用生物化学检测与分析仪器:精准诊断的核心支撑体系全面解析
- 2026年金华市青少年宫公开招聘外聘(兼职)教师33人笔试备考试题及答案解析
- 2026重庆某国有企业员工招聘2人考试参考题库及答案解析
- 2026年甘肃兰州永登县妇幼保健院招聘笔试备考题库及答案解析
- 2026南昌市南钢学校教育集团劳务派遣教师招聘考试备考题库及答案解析
- 2026湖南怀化市溆浦县社会保险服务中心公益性岗位招聘2人考试备考试题及答案解析
- 大连市西岗区2026年教育系统自主招聘应届毕业生备考题库有答案详解
- 0.4kV配网不停电作业用工器具技术条件V11
- 携程推广模式方案
- 满腹经纶相声台词完整篇
- JGT138-2010 建筑玻璃点支承装置
- 2023年10月自考05678金融法试题及答案含评分标准
- 垃圾清运服务投标方案(技术方案)
- 断桥铝合金门窗施工组织设计
- 新苏教版六年级科学上册第一单元《物质的变化》全部教案
- 城镇道路工程施工与质量验收规范CJJ解析及质量控制点
- 软土路基处理工程CFG桩施工方案
- 致母亲追悼会答谢词
评论
0/150
提交评论