大数据营销 课件 第二章 营销大数据的管理_第1页
大数据营销 课件 第二章 营销大数据的管理_第2页
大数据营销 课件 第二章 营销大数据的管理_第3页
大数据营销 课件 第二章 营销大数据的管理_第4页
大数据营销 课件 第二章 营销大数据的管理_第5页
已阅读5页,还剩49页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章营销大数据的管理1学习目标熟悉营销大数据的内涵和处理流程正确区分结构化数据与非结构化数据的差异,掌握结构化数据分析方法了解营销大数据高级分析方法的基本原理2本章思维导图3开篇案例大数据背景下的网络舆情监控互联网技术的应用和社交媒体的流行特点:1)数据源覆盖面广。如资讯网站、社交媒体平台

2)技术难度较大。

具备强大的数据采集、数据处理和数据挖掘能力

需要实时监控。应用:(1)监测负面信息(2)监测竞品信息(3)发现市场需求

(4)分析事件脉络,提供决策依据涉及流程:营销大数据采集、存储、挖掘和分析。4一、营销大数据的内涵二、结构化和非结构化营销大数据三、营销大数据的来源5第一节营销大数据概况一、营销大数据的内涵营销大数据是大数据技术和营销科学的有机结合,是企业营销部门的重要决策支撑,可以提高企业营销活动的有效性。营销大数据为企业带来机遇:海量的营销大数据有助于企业挖掘潜在营销信息。营销大数据使个性化营销成为可能。营销大数据极大推进了精准营销的实现。6营销大数据为企业带来挑战:营销大数据的急剧增长给数据挖掘技术带来了新的挑战。营销大数据的异质性导致企业在理解和管理数据上面临着巨大挑战。大数据技术在推动实时分析发展的同时,也对大数据技术提出了更高的要求。7一、营销大数据的内涵二、结构化和非结构化营销大数据结构化营销大数据:可以通过二维表结构来表现的营销数据,遵循一定的数据格式与长度规范,主要通过关系型数据库进行存储和管理。例如,消费者的购买数量、产品购买转化率和顾客留存率等都属于结构化营销大数据。

结构化营销大数据往往格式单一,有统一的标准,易于搜索存储。8如左图所示存储于MySQL数据库里的营销数据就是结构化的营销数据非结构化营销大数据:数据结构不遵从一定规则,难以用数据库二维表结构来表达和实现的营销数据。

通常以文本、图片、音频和视频等形式呈现。例如,用户评论、品牌图片、直播视频等属于非结构化的营销大数据。非结构化的营销大数据往往格式多样、标准多样,搜索存储较为复杂。9如左图所示包含大量图片的文件夹里面存储的就是非结构化品牌图片数据二、结构化和非结构化营销大数据非结构化营销数据转换为结构化营销数据的方法:直接转换法:将非结构化营销大数据一步转换为结构化营销大数据。间接转换法:先把非结构化营销数据转换为半结构化营销数据,然后再转换为结构化营销数据。10二、结构化和非结构化营销大数据交易数据

如互联网点击数据、ERP系统数据、CRM系统数据、公司的生产数据;移动通信数据

个人交易数据、产品搜索记录、个人信息资料和用户地理位置等;人为数据

使用网络时生成的视频、音频、图片和文字文档,以及利用微信、微博等社交媒体进行互动时产生的数据流;机器和传感器数据

包括来自感应器、GPS定位系统数据和物联网产生的大数据等;互联网上的开放数据来源

例如,政府机构、非营利组织和其他企业免费提供的数据。11三、营销大数据的来源第二节营销大数据的处理流程一、营销大数据的采集二、营销大数据的存储三、营销大数据的清洗四、营销大数据的分析12营销大数据的采集:是指利用多个数据库或存储系统来接收发自客户端的数据。营销大数据采集方法:系统日志采集:指收集公司业务平台日常运营产生的日志数据,并提供离线和在线的实时分析使用。网络数据采集:指通过网络爬虫和一些网站平台提供的公共API等方式从网站上获取数据。数据库采集:收集企业每时每刻产生的业务数据,以数据库一行记录的形式被直接写入到企业的数据库,最后由特定的处理分析系统进行系统分析。感知设备数据采集:感知设备数据采集是指通过传感器、摄像头和其他智能终端自动采集信号、图片或录像来获取数据。13一、营销大数据的采集营销大数据的存储需要用到数据库管理系统

常用的数据库管理系统有Excel、MySQL等MySQL是开源软件,适应于所有的平台,支持存储5000万条记录,同时版本更新较快,价格也相对便宜SQLserver采用客户机/服务器体系结构,有图形化的用户界面,使系统管理和数据库管理变得更加直观和简单。Oracle稳定性和安全机制较好,缺点是价格昂贵。14二、营销大数据的储存企业使用数据库管理系统时需要关注以下问题:容量问题。数据规模可能随着时间不断增长,因此,数据存储系统一定要有高等级的扩展能力。延迟问题。大数据分析应用通常会使用到网络流量和交易记录这些大量的小数据,而这些小数据对响应延时要求非常高。因此,大数据存储架构设计往往需要满足最小延时的功能。安全问题。大数据分析往往需要多类数据相互参考,伴随数据混合访问的情况,进而催生出隐私泄露等一系列新的安全性问题。成本问题。使用大数据需要购买高昂的硬件设备,企业需要尽可能地提升存储效率,控制成本。15二、营销大数据的储存营销大数据往往是不完全的、有噪声的和不一致的,因此需要进行数据清洗。数据清洗的主要处理方法包括:(1)缺失值处理删除法:当缺失部分在整体数据样本中占比较低时,直接删除即可均值填补:若总数据量比较小,且数据满足正态分布的情况下,可以计算非缺失值的平均数或众数,然后使用平均数或众数来代替缺失值热卡填补法:若缺失值包含变量,那么在数据库中寻找与它相似度最高的一组数据进行填补16三、营销大数据的清洗(2)异常值处理检测异常值的方法:统计分析:对数据进行描述性统计。通过观察最大和最小阈值来判断其中的某一项数据是否符合常识模型检测:建立数据模型,将数据表现与模型不拟合的数据定义为异常值3σ原则:若整体数据服从正态分布,可将一组测定值中与平均值的偏差超过3倍标准差的值视为异常值完成异常值检测后,通常对异常值采取删除处理。或者将异常值视为缺失值,再用上文介绍的缺失值处理方法来处理异常值。17三、营销大数据的清洗描述型分析

是对企业营销活动中的重要业务指标进行描述性统计分析,如每月的营收账单。

营销人员在进行描述型分析时可以利用可视化工具,更加直观呈现营销指标,从而帮助决策者对经营情况做出总体判断。诊断型分析

主要是分析关键营销指标产生异动的原因,如分析销量为何下降。

营销人员进行诊断型分析时需要对市场环境变化、营销活动执行效果和人员工作效率等各个环节进行评估,进而总结成功或失败的原因,以便及时调整营销策略。18四、营销大数据的分析预测型分析

是指根据历史数据趋势建立预测模型,如预测新广告宣传效果。

预测型分析的核心在于发现营销数据背后的规律,并利用规律为企业下一阶段营销战略制定提供方向。指令型分析

该分析在于提炼数据特点,并提供决策建议。例如,企业可以通过指令型分析选择最佳的门店位置。

指令型分析常被用于指导营销活动过程中的具体细节,使企业产品或服务的质量得到保证,进而提升企业的经营效率。19四、营销大数据的分析第三节营销大数据的分析方法一、相关分析二、方差分析三、回归分析四、时间序列分析五、非结构化数据分析六、高级分析方法20相关分析既可以发现数据之间的正负关系,也可以度量数据之间的强弱关系,如完全相关,不完全相关等。通过对营销大数据之间的关系相关性进行分析,可以发现影响营销活动成功的关键因素。21一、相关分析相关分析方法:图表相关分析

通过绘制图表对数据进行可视化处理,从而让数据整体趋势和数据间的联系更加直观清晰。22如左图所示利用Python的seaborn库绘制的回归散点图发现账单和消费之间的正相关关系一、相关分析协方差

协方差是用来衡量两个变量的总体误差。

若协方差值为正,则说明这两个变量呈正相关,两个变量的变化趋势一致。

若协方差值为负,则说明这两个变量成负相关,两个变量的变化趋势相反。

若协方差值为0,则说明这两个变量之间相互独立,两个变量不相关。23一、相关分析相关系数相关系数是用于反映变量之间相关程度的统计指标,一般用字母r表示。相关系数的取值区间在-1到1之间。其中r表示相关系数,cov表示协方差,Sx表示变量X的标准差,Sy表示变量Y的标准差。相关系数不仅可以对变量之间的方向进行度量,还可以衡量变量之间的关系强弱。24一、相关分析方差分析(ANOVAAnalysis)用于分析两组及两组以上样本均值之间的差异,通过检验各组均值的差异性来检验分类型自变量对数值型因变量是否有显著影响。使用方差分析前需要满足以下三个条件:各样本是相互独立的随机样本各样本均服从正态分布各样本的总体方差相等25二、方差分析方差分析的基本原理是:对于所有样本,总差异=不同的处理造成的组间差异+随机误差造成的组内差异通过检验组间差异和组内差异之比,可以判断因素的影响是否显著。根据分析因素数量的不同,方差分析可以分为单因素方差分析、双因素方差分析和多因素方差分析等。26二、方差分析线性回归线性回归是通过将观察的数据拟合成一个线性方程,从而来模拟变量之间的关系。进行回归分析的主要目的是判断自变量与因变量之间的回归系数是否显著不等于零。若拒绝零假设(H0:因变量和自变量之间无关系),则可以判断变量之间因果关系显著。27

三、回归分析泊松回归泊松回归与泊松分布有关,泊松分布用于描述单位时间内随机事件发生的次数。在进行泊松回归需要满足以下几个条件:因变量必须要为计数变量,即非负整数。在进行泊松回归时,因变量的数据分布一般要服从泊松分布,表现为因变量的平均值等于方差。如果因变量不服从泊松分布,但只要样本数量足够大,并不妨碍我们得到渐进一致的估计值。至少包含一个自变量,且自变量不存在显著异常值,自变量之间不存在严重多重共线。因变量里每次发生的事件相互独立,不相互影响。28三、回归分析序数回归因变量必须为有序分类型数据自变量可以是分类变量或连续变量如果对有序分类型因变量采用多分类逻辑回归模型,会导致数据内在的排序被无视,从而导致排序信息的缺失,使得统计结果出现问题。而如果采用OLS,那么就是将定序变量作为连续变量处理,又会导致信息膨胀。故,针对有序分类变量应采取序数回归。29三、回归分析生存回归生存回归用于分析一个事件发生之前的预期持续时间,事件如生物有机体死亡和机械系统故障等。生存分析的主要目的是估计生存函数。对于分组数据,在不考虑其他混杂因素的情况下,可以用Kaplan-Meier法对生存函数进行组间比较。Kaplan-Meier一般只考虑单个因素对事件的影响如果考虑多个因素对事件的影响,可以使用Cox比例风险回归模型。30三、回归分析逻辑回归若因变量是连续变量,可使用线性回归模型来进行分析若因变量是分类变量,则采用逻辑回归模型解决逻辑回归的因变量为二分类或者多分类变量

例如,通过分析工作强度、收入水平、受教育程度等指标,来判断一个人是否患有心理疾病。其中Y=0表示未患病,Y=1表示患病,在该情况下因变量就是一个二元分类变量。31三、回归分析时间序列包括平稳序列和非平稳序列平稳序列基本上不存在趋势,序列中的各观察值基本上在某个固定的水平上下随机波动。非平稳序列包含趋势、季节性或周期性,非平稳时间序列可以被分为有趋势序列、季节性序列、周期性序列以及几种成分混合而成的复合型序列。32股价为显著的非平稳时间序列四、时间序列分析一个具体的时间序列,它可能含有一种成分的单一序列,也可能是几种成分混合而成的复合型序列。时间序列的预测方法包含自回归(AR)模型、移动平均(MA)模型、自回归移动平均(ARMA)模型和差分自回归移动平均(ARIMA)模型等。33四、时间序列分析文本分析文字是营销过程中最常见的交互方式,营销人员可以借助文本数据反映的信息洞察市场规律。文本分析步骤:对文本数据进行采集

数据采集是文本分析的第一步,使用python软件进行网络爬虫,是采集文本数据的最常见方法。

网络爬虫常用到的访问库包括requests库、数据解析库lxml库、BeautifulSoup库和数据存储库csv库等。34五、非结构化数据分析对文本数据进行分词

分词是指将数据尺度从章节段落拆解成颗粒度更小的词语层面,以便于后续分析。对文本数据进行清洗

网络爬虫采集的往往不是干净的文本数据,可能会包含非文本内容,或者无意义的词。需要将这些无用的内容进行删除。构建文本分析模型

常用的文本分析模型有LDA、SVM、TextCNN等。35五、非结构化数据分析情感分析情感分析是利用算法在对文本进行分析、处理、归纳和推理后,提取出文本中包含的情感。文本情感分析中常用的两种方法,分别是基于情感词典的方法和基于机器学习的方法。36五、非结构化数据分析基于情感词典的方法利用事先设置好的情感词库,为每个词赋予一定的情感倾向度的权值。从要分析的文本中提取出所有的情感词,根据句子特点计算情感得分,进而判断文本的情感极性。

基于情感词典的情感分析方法,主要涉及到分词、去除停用词、标记词的权重、搜索词的前缀程度词、搜索词的前缀否定词和计算情感得分六个步骤。37五、非结构化数据分析基于机器学习的方法

其是通过对已经标注的文本数据进行特征处理,再对模型进行有监督学习训练,最后用训练好的模型判断文本的情感极性。包括模型训练和模型预测这两大模块。38五、非结构化数据分析图像分析包括图像分类、目标检测、实例分割和语义分割等。图像分类

是将不同的图像,划分到不同的类别,实现最小的分类误差。常用深度学习算法模型有GoogleNet、ResNet39五、非结构化数据分析目标检测图像目标检测的任务要求算法用矩形框框出图上每一个物体,并对框里的物体进行分类。目标检测既要输出目标的类别信息和概率(分类任务),又要输出目标的具体位置信息(定位任务)。40目标检测程序检测出了人、狗、马,并给出了位置和置信度。五、非结构化数据分析语音分析

需对语音信息进行识别,将语音序列转换为文本序列,并对输出的文本进行分析处理。语音分析涉及语音活动检测、降噪、回声消除和混响消除等技术。41五、非结构化数据分析视频分析视频承载的是人物+场景+动作+语音的内容信息视频分析从视频中提取有效的特征,对内容进行分析理解视频分析包括:视频目标检测。目标跟踪。跟踪视频中运动目标。视频行为识别。给定一个视频,让计算机判断感兴趣的人或物体在进行什么行为。42五、非结构化数据分析网络分析

该方法是一种定量的群体交互行为研究方法,主要用于研究不同行动者之间的关系。运用这种研究方法可以并发现社群内部行动者之间的各种社会关系。在网络分析中,经常会使用中心度的测量指标。

中心度又被划分为度数中心度、中间中心度、接近中心度和特征向量中心度这四个维度。43五、非结构化数据分析网络分析图是行动者之间关系的形象化表示,行动者可以是个体,也可以是组织。如图所示,图中的圆圈代表一个行动者,实线和箭头代表行动者之间关系。右图中带有箭头的线表示行动者之间的关系是有向的。左图中的实线表示行动者之间的关系是无向的。44五、非结构化数据分析45微案例1用户画像,又称作用户信息标签化,是指根据用户的人口统计特征、用户偏好特征、用户行为特征等信息对用户进行标签化。本案例根据用户的历史行为数据,将用户分成优质客户、发展客户、一般客户和流失客户。用户的行为数据集包含三个数据字段,分别是购买时间(上一次购买距今的时间,单位是天)、购买次数(最近一个月购买的次数)和平均单次购买金额(最近一个月平均单次购买金额)。其中有120个用户已经打上了用户画像的标签,分别被标记为优质客户、发展客户、一般客户和流失客户。本案例的目的是建立一个决策树模型,根据已经标记的用户数据(又称作训练集),自动预测尚未标记的用户的标签。46决策树是一种非参数的监督学习方法,主要用于分类和回归。决策树的目的是构造一种模型,使之能够从样本数据的特征属性中,通过学习简单的决策规则—IFTHEN规则,来预测目标变量的值。47微案例1我们利用机器学习库:sklearn库构建预测模型。48微案例1可视化决策

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论