人工智能与商业数据挖掘-思维、方法与案例 课件全套 第1-10章 人工智能、机器学习与数据挖掘概论 -商业文本挖掘_第1页
人工智能与商业数据挖掘-思维、方法与案例 课件全套 第1-10章 人工智能、机器学习与数据挖掘概论 -商业文本挖掘_第2页
人工智能与商业数据挖掘-思维、方法与案例 课件全套 第1-10章 人工智能、机器学习与数据挖掘概论 -商业文本挖掘_第3页
人工智能与商业数据挖掘-思维、方法与案例 课件全套 第1-10章 人工智能、机器学习与数据挖掘概论 -商业文本挖掘_第4页
人工智能与商业数据挖掘-思维、方法与案例 课件全套 第1-10章 人工智能、机器学习与数据挖掘概论 -商业文本挖掘_第5页
已阅读5页,还剩397页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一章人工智能、机器学习与数据挖掘概论CATALOGUE目录02人工智能概论01课前导读03机器学习概论04数据挖掘概论05三者之间的关系辨析01PART课前导读课前导读:令人眼花缭乱的技术热词你是否留意过以下现象?电商平台总能推荐你喜欢的商品?在线客服原来是“机器人”?抖音视频总能戳中你的兴趣?智能助手帮你订餐、控制家电?送餐机器人、自动驾驶汽车、GPT大语言模型、视频生成软件……这些“神奇”现象背后,隐藏着什么秘密?这些现象都与人工智能(AI)有关!人工智能就像一个隐形魔法师,悄无声息地改变我们的生活。你是否好奇:这些智能应用如何实现?背后有哪些技术?作为商科的学生,能否在AI时代有所作为?让我们一起探索!课前导读:令人眼花缭乱的技术热词人工智能——智能的“魔法师”人工智能(AI)是模拟、延伸和扩展人类智能的技术,目标是让机器像人一样思考和学习。人工智能就像一位全能的“销售员”,通过技术模仿人类的行为,随时为我们提供个性化服务。它早已从科幻走进现实,渗透到电商、社交媒体、出行等方方面面。AI是如何“模仿”智能的?答案:在于它的核心技术——机器学习和数据挖掘。课前导读:令人眼花缭乱的技术热词机器学习——AI的“学习秘籍”机器学习是AI的一个分支,通过算法让计算机从数据中学习,识别模式并预测行为。以智能推荐系统为例,机器学习通过分析用户历史行为(如浏览、购买记录),构建模型预测你可能喜欢的商品。它就像教AI“销售员”如何读懂你的喜好。关键在于:数据越多,模型越精准,推荐越贴心!课前导读:令人眼花缭乱的技术热词数据挖掘——挖掘“智能宝藏”数据挖掘是从海量数据中提取有用模式或规律的过程,为AI提供“智能原料”。在智能推荐系统中,数据挖掘分析你的历史行为(如点击、收藏),挖掘出你的兴趣偏好。这些“宝藏”被输入机器学习模型,生成个性化推荐。数据挖掘就像为AI“销售员”提供洞察消费者需求的“秘籍”。本章要点主要内容本章主要介绍了人工智能、机器学习与数据挖掘的基本概念及技术要点,重点介绍人工智能的定义、特点、发展历史、类型划分及前沿发展、伦理问题,辨析了人工智能、机器学习及数据挖掘三者之间的关系,帮助读者全面理解人工智能、机器学习与数据挖掘等技术概念之间的联系与区别。学习目标掌握人工智能、机器学习和数据挖掘的基本概念和定义;熟悉人工智能的发展历史;理解人工智能三大学派(符号主义、连接主义、行为主义)的核心思想及其代表性的技术路线;理解并能够解释有监督学习、无监督学习、半监督学习和强化学习的主要特征和适用场景;对于给定的智能系统架构案例,能够解释案例所使用到的人工智能、机器学习和数据挖掘技术,以及这些技术是如何解决问题的。本章重点人工智能的基本概念;人工智能伦理;监督学习、无监督学习、半监督学习和强化学习的含义与区别;数据挖掘算法;人工智能、机器学习和数据挖掘的联系与区别。本章难点监督学习、无监督学习、半监督学习和强化学习的含义与区别;人工智能、机器学习和数据挖掘的联系与区别。本章要点02PART人工智能概论AI是交叉学科理念范围广泛,涵盖计算机科学、数学、统计学等,并非具体技术,而是交叉学科理念,旨在让计算机系统具备类人智能。AI定义众说纷纭人工智能定义各异,本书认为AI是让机器模拟人类思考与学习的科学,通过开发计算机程序模拟、延伸和扩展人的智能,实现复杂任务。AI让机器变聪明通俗地讲,人工智能即让机器“聪明”,指机器通过学习训练,在特定任务上展现“类似人类”的智能,并不具备人类情感和意识。AI研究范围广泛包括机器学习、自然语言处理、计算机视觉等,这些学科相互支撑,形成人工智能的学科主干或特定领域,共同推动AI的发展。人工智能的定义人工智能的特点人工智能是归纳性的从数据中学习并发现规律,形成自己的规则,具有归纳性,不同于传统计算机程序仅根据既定规则处理数据。人工智能算法很简单人工智能处理速度快常用算法并不复杂,如分类、聚类等,可通过界面操作或几行到几百行的代码实现,无需深厚编程基础。电子信号传播速度远超大脑,AI可处理海量数据,实现快速学习和行动,在商业和科研的复杂活动中不可或缺。人工智能的特点人工智能的语言和视觉能力进步最快在感知层面能力发展迅速,无人驾驶、deepseek等大语言模型及视频生成模型在现实业务场景中广泛应用。人工智能克服了复杂性障碍人工智能解决问题方式不同能处理线性及非线性问题,如物流领域优化运输路线,克服传统方法局限,提供创新解决方案。与人类不同,它依赖于启发式方法解决问题,旨在找到最优解,而非模仿人类执行特定工作方式。人工智能较难被质询人工智能的商业价值来自数据和训练分散行动集中学习人机交互正在改变决策过程较不透明,科学家和政策制定者正致力于开发可解释性AI算法和出台相关法律,以确保系统可追溯和责任明确。训练集的重要性超过了算法的先进性,高质量的数据和训练对于智能系统的构建是至关重要的。整合集中化和分散化架构,如自动驾驶汽车,终端车辆将数据传输至中央数据中心,促进学习并迭代算法,实现高效决策。优化了人机交互的范围已超出静态程序训练,大语言模型的兴起使人类和AI的互动更加有效,促进了优质输出结果的产生。人工智能的特点早期探索与萌芽(20世纪中叶)达特茅斯会议标志着AI诞生,1956年夏天,在美国达特茅斯学院,科学家们约翰·麦卡锡(JohnMcCarthy)、马文·明斯基(MarvinMinsky)、克劳德·香农(ClaudeShannon)和纳撒尼尔·罗切斯特(NathanielRochester)发起了“探索人工智能的可能性”研讨,奠定了AI发展的基础。人工智能的发展历史人工智能的发展历史繁荣与瓶颈(20世纪60年代-70年代)20世纪60年代AI蓬勃发展,艾伦·纽厄尔和赫伯特·西蒙开发了“逻辑理论家”程序、通用求解器(GeneralProblemSolver)等,但面临计算机性能、神经网络及公众期望等挑战。70年代陷入低谷,资金短缺和项目中断导致“AI的冬天”。专家系统与第二次低谷(20世纪70年代-80年代)70年代末至80年代,专家系统兴起,专家系统将人类专家的知识编码成计算机程序,希望它们能够在特定领域提供专家级的建议。但知识获取制约、表示和组织困难,推理能力有限且缺乏常识知识,导致“专家系统泡沫”破裂。神经网络的复兴与深度学习的崛起(20世纪80年代-现在)1986年,大卫·鲁梅尔哈特(DavidRumelhart)、杰弗里·辛顿和罗纳德·威廉姆斯(RonaldWilliams)提出了反向传播算法,解决了多层神经网络的训练问题。21世纪初,深度学习发展,神经网络在图像识别、语音等领域取得突破,如:AlphaGo战胜围棋冠军标志着AI重大突破;2024年诺贝尔奖表彰AI在蛋白质结构预测和设计方面的贡献。人工智能的发展历史人工智能的广泛应用(21世纪)深度学习推动AI在计算机视觉、自然语言处理等领域广泛应用,改变生活方式。在计算机视觉领域,涌现了大量算法并推动了相关应用的发展。如,ImageNet大规模视觉识别挑战赛极大地推动了计算机视觉的发展。在自然语言处理领域,涌现了大量算法和商业应用。如2022年底一飞冲天的ChatGPT,在全球范围内引发了“百模大战”,涌现了大量可以生成高质量文本的大语言模型。特斯拉、华为等公司利用深度学习技术开发的无人驾驶技术应用于汽车工业等。弱人工智能(NarroworWeakGeneralIntelligence,NarrowAI或WeakAI),也称为狭义人工智能或应用型人工智能,是指专注于某一特定任务的人工智能。如图像识别、语音助手,需数据驱动,无自我意识。强人工智能又称为通用人工智能(ArtificialGeneralIntelligence,AGI),是指具备与人类同等智能,或超越人类的人工智能,能表现正常人类所具有的所有智能行为,被认为是人工智能研究的终极目标。,通用智能,能学习、推理、表达情感,目前无公认落地应用。

两类人工智能的比较1.弱强人工智能人工智能的类型特征弱人工智能强人工智能目标执行特定任务具备人类水平的通用智能能力擅长某一领域能理解、学习、适应各种任务自我意识没有具有自我意识例子语音助手、图像识别系统科幻作品中的机器人机械智能,指的是机器(系统或算法)在物理世界中的运动和控制能力,主要体现在机器人技术、自动驾驶、智能制造等领域。认知智能,指的是机器(系统或算法)在理解和处理信息方面的能力,主要体现在自然语言处理、知识图谱、机器学习等领域。情感智能,指的是机器(系统或算法)在理解和处理情感方面的能力,主要体现在情感识别、情感计算和情感交互等领域。情感智能强调机器对情感的感知、理解和回应能力,使机器能够像人类一样进行情感交流和互动。典型应用包括智能客服、各类聊天机器人等。2.机械、认知与情感智能人工智能的类型人工智能的前沿发展大语言模型通过海量数据训练,能生成和理解自然语言,广泛应用于文本生成、对话系统等领域;国内外众多模型各有特色,如ChatGPT、deepseek、Sora、文心大模型等。0102大语言模型智能体AIAgent能自主感知环境并采取行动,通过持续学习和适应,实现智能决策和高效执行;多Agent系统、强化学习、人机协作是其关键技术,推动智能系统发展。AIAgent人工智能的前沿发展0403具身智能强调智能体与环境互动,促进机器人和交互系统进步;触觉感知、运动控制和情感计算等进展使其能更好理解世界,自然互动,并在多领域应用中展现潜力。具身智能新兴技术或趋势包括联邦学习、量子计算与AI结合、可解释性AI;联邦学习保护隐私提升模型泛化力;量子计算加速AI算法;可解释性AI提高决策透明度,增强用户信任。其他趋势人工智能的伦理问题数据隐私与安全01数据收集需明确告知用户并获授权,限制数据接触,加强传输安全;存储时建立访问权限管理,删除无用数据,降低泄露风险,保护用户隐私。算法偏见与公平性02算法训练需消除数据偏见,确保公平性;定期审查测试算法,建立指标体系衡量差异,通过第三方审计增强信任,促进决策过程公平透明。人工智能的伦理问题就业影响与社会变迁03AI加速岗位替代,但创造新就业机会;需加强职业培训,支持受影响人群转型;出台政策维护劳动者权益,促进劳动力市场健康发展。责任归属与法律监管04AI决策失误责任界定复杂,需完善法规;深圳出台智能网联汽车条例,明确责任。平衡创新与监管,建立多方治理体系,促进AI健康发展。你的工作会被AI取代吗?03PART机器学习概论开发机器智能的策略符号主义模拟人类心智,强调逻辑推理与知识表示,从专家系统演至知识图谱,代表人物包括赫伯特·西蒙等,典型应用为专家系统与早期自然语言处理系统。符号主义学派连接主义模拟人脑结构功能,以神经网络为基础,通过学习和适应实现智能,在计算机视觉、语音及自然语言处理等领域,随深度学习技术取得显著进展。连接主义学派行为主义通过观察和模仿生物体行为发展机器智能,强调与环境交互学习,逐渐形成智能机器人技术,在机器人、强化学习及自适应控制领域广泛应用。行为主义学派三大学派推动人工智能发展,各有优缺点;现代人工智能系统常融合多学派思想,如深度学习结合符号知识推理,强化学习利用神经网络决策。三个学派的融合赫伯特·西蒙开发机器智能的策略表1-3人工智能三大学派比较学派核心思想主要方法优点缺点符号主义符号操作知识表示、逻辑推理可解释性强难以处理不确定性连接主义神经网络神经网络、深度学习擅长处理大数据可解释性差行为主义环境交互强化学习、机器学习适应性强需要大量数据机器学习使算法无需明确编程即可从数据中学习模式,提升性能,类比人类学习;它依赖数据,通过算法学习数据中的规律,并利用这些规律对新数据进行预测。机器学习的定义机器学习包括有监督、无监督、半监督和强化学习,分别通过标签数据、无标签数据、两者结合及环境交互来训练模型,广泛应用于分类、回归、聚类、异常检测等。机器学习的类型机器学习某知名电商平台借助机器学习技术打造个性化推荐系统,有效提升了运营效率。系统收集用户浏览、购买、搜索等行为数据,经预处理后,通过协同过滤算法计算用户与商品相似度,结合基于内容的算法分析商品属性特征,实现精准推荐。经过模型训练与A/B测试优化,用户登录后可看到定制化推荐。数据显示,平台用户浏览量增长30%,购买转化率提升20%,充分体现了机器学习在精准对接商品与用户需求上的价值。案例机器学习机器学习表1-4

四种主要机器学习方法的差异学习方式数据类型目标典型算法应用场景有监督学习有标签数据预测、分类线性回归、逻辑回归、支持向量机、决策树、随机森林、神经网络图像分类、文本分类、垃圾邮件过滤、情感分析、房价预测无监督学习无标签数据发现数据中的潜在结构、模式K-Means聚类、层次聚类、DBSCAN、PCA、自编码器客户细分、异常检测、数据降维、图像压缩半监督学习有标签数据和无标签数据结合两者的优点,提高模型性能自训练、协同训练、半监督支持向量机图像分类、文本分类、少量标注数据下的分类问题强化学习与环境交互最大化长期累积奖励Q-learning、深度Q网络、策略梯度、Actor-Critic游戏、机器人控制、自动驾驶、推荐系统知识图谱知识图谱的定义知识图谱(KnowledgeGraph)是一种结构化的知识库,它以图的形式展现实体(Entities)、概念(Concepts)及其之间的关系(Relationships)。这种图形化的知识表示方式使得信息更加直观、易于理解和利用。知识图谱是一种以图结构表示知识的语义网络,其核心由实体(Entity)、关系(Relationships)和属性(Attribute)构成。01知识图谱在美团推荐场景中的应用早期探索阶段(20世纪70年代-2012年)知识图谱的思想可以追溯到20世纪70年代的语义网络(SemanticNetwork)。语义网络是一种基于图结构的知识表示方法,通过节点和边表示概念及其关系,为知识图谱的理论发展奠定了基础。知识图谱Google推动阶段(2012年-2015年)2012年,Google公司正式推出知识图谱项目,将其应用于搜索引擎,显著提升了搜索结果的语义性和准确性。谷歌的知识图谱构建了一个包含数十亿实体和数千亿关系的庞大知识体系。快速发展阶段(2015年-2020年)这一时期,开源框架和工具不断涌现,如Neo4j、ApacheJena等,降低了知识图谱的构建门槛。同时,学术界在知识抽取、知识融合和知识推理等方面取得了显著进展,为知识图谱的广泛应用奠定了技术基础。多元化与深化阶段(2020年至今)知识图谱在医疗、金融、教育等领域应用深化,跨领域融合与动态更新成为研究热点,推动知识图谱向更智能、高效方向发展。知识图谱的发展02知识图谱构建流程知识图谱的构建03知识融合知识更新与维护知识存储知识抽取01020304关键技术:自然语言处理技术、图数据库技术、机器学习与深度学习技术。知识图谱知识图谱的应用构建工具与框架学术界和工业界开发多种知识图谱构建工具和框架,如ApacheJena、Neo4j等开源框架,以及IBMWatsonKnowledgeStudio、AWSNeptune等商业工具,支持知识图谱的构建和应用。04PART数据挖掘概论数据挖掘定义数据挖掘是从大量、复杂、不完全的原始数据中,提取隐含的、先前未知的、具有潜在价值的信息和知识的过程。数据挖掘不是数据的简单汇总,而是通过分析和理解数据,发现隐藏在数据背后的规律和模式。在商业场景下,数据挖掘的价值非常广泛。数据挖掘的定义分类技术分类是有监督学习方法,通过已知类别的训练数据集学习分类模型,预测新数据点类别,如K近邻、决策树等,用于信贷审批、医疗诊断等。关联规则关联规则是无监督学习方法,发现数据集中频繁出现的项集组合及关联规则,如Apriori、FP-Growth,用于零售业商品推荐、库存管理等。预测模型预测模型是有监督学习方法,利用历史数据建立模型预测未来事件或趋势,如时间序列分析、回归分析等,用于天气预报、股票分析等。聚类技术聚类是无监督学习方法,将数据集划分为多个组,使同组数据相似,不同组数据差异大,如K均值、层次聚类等,用于市场细分、图像分割等。数据挖掘技术数据挖掘技术数据挖掘已经成为各行业不可或缺的技术,以下是几个典型的应用场景:电商推荐系统:像淘宝、京东这样的电商平台,通过数据挖掘分析用户浏览记录,推荐他们可能感兴趣的商品,提高购买率;金融风控:银行使用数据挖掘检测信用卡欺诈,提高风控能力;医疗健康:医院可以通过数据挖掘分析病历数据,预测疾病趋势,提高诊断准确率;社交媒体分析:微博、抖音等平台通过数据挖掘优化推荐算法,让用户刷到更符合兴趣的内容。05PART三者之间的关系辨析人工智能与机器学习的关系人工智能是目标,机器学习是实现这个目标的工具,数据挖掘是这个工具的应用场景。人工智能和机器学习是两个密切相关的概念,但又有所区别。人工智能是一个更广阔的概念,它旨在创造能够像人类一样思考和学习的智能机器、系统或算法。人工智能的终极目标是让机器具备人类的智慧,能够进行推理、学习、解决问题、感知环境等。机器学习则是人工智能的一个子集,专注于让计算机系统能够从数据中学习。机器学习算法通过分析数据,发现其中的模式,并利用这些模式进行预测或决策。形象地说,人工智能是目标,而机器学习是实现这个目标的一种方法或一个子领域。除了机器学习,人工智能还可以通过其他方法和技术来实现,如,专家系统和知识图谱等。人工智能与机器学习人工智能与机器学习的关系无论是机器学习的模型训练,还是数据挖掘的模式发现,最终目的都是为了从数据中获取知识或有价值的信息,辅助决策。很多机器学习算法,如,决策树、神经网络、支持向量机等,在数据挖掘中得到了广泛应用。这些算法可以有效地处理海量数据,发现其中的规律和模式。不过,机器学习更侧重于算法的开发和模型的构建,关注如何让机器从数据中学习,提高模型的预测准确率。而数据挖掘更侧重于从业务角度出发,发现数据中的潜在知识,解决实际问题。机器学习与数据挖掘的关系特点机器学习数据挖掘侧重算法开发、模型构建发现知识、解决问题范围更广,包括自然语言处理等更窄,专注于数据分析关系提供技术手段应用机器学习技术三者之间的融合人工智能、机器学习和数据挖掘共同构成了智能信息处理的核心框架。数据挖掘从海量数据中提取知识,为人工智能模型提供了丰富的训练和测试数据,是人工智能模型学习和优化的基础。机器学习算法不仅能够从数据中发现复杂的模式和关联关系,还提高了数据挖掘的效率和准确性,使得数据挖掘技术能够应用于更广泛的领域和场景。随着人工智能技术的进步,数据挖掘不断创新和完善。小红书通过算法推荐可能认识的朋友三者之间的融合例如,阿里巴巴利用强化学习优化了推荐系统,提高了用户体验和销售转化率;Facebook和Twitter通过构建用户关系图谱,进行好友推荐和虚假信息检测,展示了其强大的分析能力;Google的自动化学习平台AutoML,降低了非专业开发者构建高效模型的门槛。这些创新不仅提高了数据挖掘的效率和准确性,也拓展了其应用范围,为多个领域带来了新的挑战和机遇。THANKS感谢观看第二章数据与数据的价值CATALOGUE目录02无处不在的数据01课前导读03数据的价值04警惕“数据至上主义”01PART课前导读数据使能的经济新业态当数据“包围”生活时,会发生什么?为什么你每天刷手机、点外卖、打车、甚至走路,都在“生产钱”?01数据使能的经济新业态答案1:数据=新型“石油”“数据被政府列为‘第五大生产要素’,像石油一样驱动经济”01石油驱动工业时代,数据驱动数字时代。2023年国家数据局成立,专门“开采”数据资源,2024年数字经济核心产业已占GDP的10%(提前完成“十四五”目标)。数据使能的经济新业态答案2是:数据=个性化服务的“钥匙”“你的每一次点击,都在反向塑造为你定制的世界”01银行用交易数据评估信用,3秒放贷;医院用基因数据定制抗癌药;城市用交通流量数据动态调整红绿灯。你检索“运动鞋”就会向你推荐“运动耳机”支付宝蚂蚁保就会向你推荐“运动意外险”数据使能的经济新业态答案3:数据=催生新业态的“催化剂”“数据不是‘副产品’,而是新商业模式的‘起点’”012024年,全国数据市场交易规模预计超1600亿元,同比增长30%以上,其中场内市场数据交易(含备案交易)规模预计超300亿元,同比实现翻番。。新业态:2025年,字节跳动给AI训练岗开出了月薪2万~4万元、15薪。衍生出“数据标注师”本章要点主要介绍数据爆发的原因、数据的模态与类型、非结构化数据的结构化过程,重点介绍了数据爆发的原因、数据的类型、数据标注及非结构化数据的结构化方式。辨析了数据金字塔、数据价值、数据价值的演进及商业价值的实现方式,讨论了数据局限性、伦理问题及隐私保护,以期帮助读者全面理解数据、数据价值及其重要性、局限性。0102主要内容理解数据的本质及其对企业的价值,能够解释从数据获取价值的过程;理解数据商业价值的实现方式,能够解释特定案例中数据的具体价值;掌握常见的数据标注方法,能够根据项目需求设计标注方案,将非结构化数据转化为结构化数据;能够识别和解释数据利用相关的伦理问题,熟悉相关法律法规及隐私保护的原则与方法。学习目标本章要点0403数据的形态。数据价值与数据金字塔。数据商业价值的具体体现。数据的局限性、伦理问题与隐私保护。本章重点本章难点在于数据标注与类型转化,这涉及到如何将非结构化数据通过标注转化为结构化数据,以及理解不同数据类型之间的转化方法和应用场景。本章难点02PART无处不在的数据数据爆发的原因互联网普及与社交媒体兴起,如Facebook、X(原Twitter)、微信、微博等,不仅连接全球,更推动数据爆炸,重塑数据生态与社交格局。互联网的普及和社交媒体的兴起01科学研究,特别是实验数据,在粒子物理、生物医学、天文学和地球科学等领域爆炸式增长,推动科研进步,带来发展新机遇。

科学研究与实验数据的爆炸性增长02电子商务平台和企业内部的ERP系统成为数据重要来源;CRM系统则聚焦客户数据收集分析,助力企业精准营销与优化服务。企业与商业活动的数字化03数据爆发的原因政府作为最大的数据拥有主体,在推动数据透明度和利用效率方面发挥着关键作用。近年来,随着数字化转型的加速,政府数据开放在全球范围内愈发显著。各国纷纷推出相关政策和平台,以促进数据共享、增强公共服务质量和激发社会创新。政府数据开放04数据的爆炸式增长,与存储技术的不断革新密不可分。回顾存储技术的发展历程,从早期的磁带、软盘,到后来的硬盘驱动器、固态硬盘,再到现如今的各类云存储服务,存储技术的每一次革新,都带来了存储容量的显著提升、存储速度的极大加快和存储成本的大大降低。存储成本的降低05处理器技术的不断进步,使得CPU的核心数不断增加,主频也在稳步提高,显著提升了计算机的处理能力与速度。图形处理单元(GPU)最初被设计用于加速计算机图形输出,在高性能计算中的作用随着时间的推移变得日益重要。数据处理能力的提升06按照特定格式组织,具有明确字段和数据类型,便于存储在关系型数据库中进行分析查询,如ERP、CRM等系统中的数据。结构化数据未特定格式组织,无预定义字段和数据类型;如文本、图像、音频、视频等;包含大量信息,需复杂处理方法提取价值。非结构化数据不符合关系数据库严格表格模型,但包含组织形式的数据;如JSON和XML文件,通过键值对或标签树形结构组织数据。半结构化数据数据的模态与类型01.数据类型数据的模态与类型02.数据类型转换非结构化数据的不规则性和模糊性,不仅会使得传统程序难以理解,还不利于数据模型构建与数据价值释放。将非结构化数据转换为结构化数据,是数据分析和建模的基础性工作。最重要的数据转换方式之一是数据标注。以图片格式的数据为例,数据标注是把需要计算机识别和分辨的图片事先打上标签,然后让计算机模仿人类学习过程中的经验学习,不断地识别图片的特征并与标签对应,最终实现计算机自主识别图片的过程。人脸识别属于数据标注的典型应用场景之一数据的模态与类型02.数据类型转换常见的数据标注有三种划分方式。按照标注对象分类,可以分为图像标注、语音标注和文本标注。按照标注的构成形式分类,可以分为结构化标注、非结构化标注和半结构化标注。按照标注者的身份分类,可以分为人工标注和机器标注。图像标注:路上违章抓拍标注语音标注:导航软件的合成语音文本标注:医学应用领域当中的应用数据的模态与类型02.数据类型转换区域标注与标框标注类似。但与标框标注相比,区域标注的要求更加精确,而且边缘可以是柔性的。区域标注描点标注是指将需要标注的元素(如,人脸、肢体等)按照需求位置进行点位标识,从而实现对特定部位的关键点识别。描点标注标框标注是从图像中选出要检测的对象,此方法仅适用于图像标注。标框标注还有很多个性化的数据标注任务。其他标注分类标注是从给定的标签集中选择合适的标签分配给被标注的对象。分类标注按任务目标,常见的数据标注任务对行人进行标框标注03PART数据的价值数据金字塔数据就像金矿,蕴藏着巨大的价值。但要将这些价值挖掘出来,需要经过一系列的加工和提炼。数据金字塔案例:利用数据金字塔总结复盘,成为一名小红书博主。数据价值的演进数据分析帮助企业解决现存的问题,还能激发新的创新思路;通过深入挖掘,企业可以发现新的市场机会,开发出颠覆性的产品和服务。从洞察到创新05基于对未来的预测,人们可以做出更加明智的决策;数据分析能够帮助企业了解过去,更能为企业未来发展或业务运营提供建议,从而进行提前决策与规划等。从预测到决策03随大数据技术兴起,人们可处理海量数据,运用机器学习算法挖掘模式,预测趋势;如,电商平台通过分析用户的浏览和购买历史,可以预测用户的潜在需求。从分析到预测02在计算机技术普及之前,数据以纸质或其他传统方式存储,其主要作用是记录历史事件;随计算机技术发展,数据得以数字化存储,能够进行简单的统计分析。从记录到分析01数据驱动的决策不仅停留在预测层面,更重要的是将预测结果转化为实际行动;企业可以将数据分析的结果与业务目标相结合,制定出切实可行的行动方案。从决策到行动04数据商业价值的实现方式1.数据的商业价值在海量用户数据的支撑下,企业可以对市场开展更深入的洞察。通过对这些数据进行深度分析,企业能够精准地描绘出目标客户的画像。基于此,企业可以量身定制营销策略,将产品和服务以最恰当的方式呈现给目标客户,从而极大地提高销售转化率。01数据能够提升企业收入数据商业价值的实现方式1.数据的商业价值海量数据分析助力企业优化生产流程,提升效率,降低生产成本;福特汽车、京东通过工业物联网、智能补货系统实现生产优化,降低成本,提升竞争力。02降低运营成本京东的物流大数据管理平台数据商业价值的实现方式1.数据的商业价值市场数据分析助力企业规避风险,微众银行、中联重科通过数据驱动的风险管理,实现精准风控和提前预警,确保业务稳健发展,提升客户满意度。03规避风险案例:小米智能风控(1)数据产品将数据加工成具有商业价值的产品,是数据时代企业实现商业转型的关键。通过将原始数据转化为可理解、可操作的分析报告、模型、可视化产品等。(2)数据服务数据服务指的是通过专业的技术和方法,为客户提供数据分析、数据咨询等服务,帮助客户从海量数据中提取有价值的信息,通过项目制、订阅制及平台服务等方式,为企业创造新的收入来源。数据商业价值的实现方式2.数据货币化的路径数据产品案例:市场调研报告数据服务案例:高校订阅数据库(3)数据交易数据交易是指将原始数据、加工数据或数据产品作为一种商品,在市场上进行买卖的行为。随着数据成为新的生产要素,数据交易市场日益活跃。(4)数据增值数据增值是指通过将原始数据与其他数据、知识或技术相结合,创造出新的、更有价值的数据产品或服务的过程。数据增值的途径包含数据融合、数据关联、数据分析、数据可视化及机器学习等。数据商业价值的实现方式2.数据货币化的路径04PART警惕“数据至上主义”真实性数据是现实世界的反映,但并非现实世界的全部,在收集和处理过程中可能存在偏差,影响数据真实性,需关注数据质量以确保决策准确。不完整、不准确、不一致等是常见的数据质量问题;低质量的数据会导致错误决策,危及患者健康,影响企业利益,需确保数据质量以保障决策准确。信息过载是大数据时代一个普遍且严峻的问题,数据过多可能干扰判断,需利用数据清洗等技术提升信息处理能力,确保工作效率与决策质量。数据价值会随着时间的推移而衰减,企业需要建立一套完善的数据更新机制,确保数据的时效性,以保障决策的正确性和有效性。数据的准确性信息过载数据的时效性数据的局限性01020304数据利用的伦理问题数字鸿沟问题数据的获取和利用存在着不平等,可能会造成数字鸿沟问题,加剧社会不平等,影响弱势群体发展机会及社会整体进步。算法歧视问题算法歧视是大数据和AI发展带来的问题,可能基于多种因素加剧社会不公平,影响求职者机会,损害社会公正与公平。案例:亚马逊AI招聘工具性别歧视案背景:

亚马逊曾开发了一款用于自动化简历筛选和初步面试评分的AI系统。然而,该系统在投入使用后被发现对女性求职者存在显著的歧视。原因:

该系统的训练数据主要来源于过去几年的招聘记录,而亚马逊过去的员工队伍中男性占比较高。因此,系统在学习过程中强化了这种性别不平衡,导致对女性求职者的评分普遍较低。结果:

尽管亚马逊试图通过调整算法来消除这种歧视,但最终还是决定放弃该项目,因为无法完全保证其公平性。数据利用的伦理问题数据滥用现象日益严重数据滥用现象严重,如“大数据杀熟”和Facebook-CambridgeAnalytica数据泄露事件,严重侵犯了用户个人隐私与正当权益。Facebook数据泄露事件数据利用的伦理问题网络“公众人物”操纵数据与流量网络“水军”和“大V摆拍”现象泛滥,操控公众舆论,影响信息真实,严重威胁社会秩序,造成恶劣社会影响。数据存储的安全威胁数据存储还面临着黑客攻击、数据泄露等安全威胁,一旦数据泄露将造成巨大经济损失和负面社会影响。数据质量管理清洗无效数据,建立统一标准,验证数据完整性和可靠性,确保数据质量,提高数据分析的准确性。个人隐私保护在收集个人信息时,坚持明示告知原则,最小化收集,确保用户同意,保障数据主体权利,维护个人隐私。数据安全防护严格控制数据访问权限,加密敏感数据,定期备份,建立入侵检测系统,确保数据安全,防止未授权访问。数据隐私与安全保护建立数据共享机制,脱敏处理数据,确保公平共享,避免算法歧视,促进数据资源的有效利用。数据公平与共享我国已出台多项法规规范数据处理,如《中华人民共和国数据安全法》自2021年9月1日起正式施行,保障数据安全,促进数据开发利用,标志数据安全法规体系不断完善。2025年1月1日起施行的《网络数据安全管理条例》,进一步细化了相关规定,完善了网络数据安全规则,为提升网络数据安全治理体系和能力现代化提供了更具有可操作性的法治保障。法律法规建设数据隐私与安全保护人的判断与智慧数据素养不仅是指人们理解数据的基本含义,更包括了对数据进行深入分析、批判性评估以及有效利用等能力。随着大数据、人工智能等技术的飞速发展,数据已经渗透到社会生活的方方面面,从个人消费到国家治理,无不体现着数据的影响力。数据素养人机协同人机协同是未来趋势,人类提出问题和策略,机器处理数据并提供分析结果,提升效率与创新。数据分析提供决策依据,但人的智慧与判断不可替代,需综合考虑数据与非数据因素。人与数据的关系THANKS感谢观看第三章数据思维与商业应用目录CATALOGUE01课前导读02思维范式03商业需求与决策04驱动商业决策的技术体系01课前导读跨越知识与应用之间的鸿沟从小学到大学,许多人学习数学(如微积分、线性代数)或算法(如数据挖掘、编程语言)时,常常感到“难学”“无用”,甚至避开相关专业。数据分析课程中,学生学了多种工具(如Excel、Python)却不会实际分析;人文社科引入AI课程,学习痛苦,效果有限。这些现象反映了学习者对知识的困惑:学了多年,却不知其起源、应用和诀窍。你是否有过类似经历?为什么会出现这种“知识与应用之间的鸿沟”?跨越知识与应用之间的鸿沟如微积分源于天体运动研究,但教学只讲公式和证明,忽略现实需求导向,使学习脱离实际,造成“无用”误解。建议阅读数学历史书籍,重新认识数学思维。原因一:教学停留在抽象知识层面跨越知识与应用之间的鸿沟第一次抽象:从现实问题到数学符号(如概率论源于赌博问题);第二次抽象:符号间的逻辑推理。教育陷于第二次抽象,忘记了知识如何指导现实。数学发展的两次抽象过程这种抽象导致困惑,如学生不知微积分如何描述变化。需强调“需求导向”,从现实问题设计工具,跨越鸿沟。跨越知识与应用之间的鸿沟“造”指开发工具(如算法底层,是计算机专业重点);“用”指应用工具解决行业问题(如人文社科重点)。教学未区分,导致抽象学习无效。原因二:未区分“造”和“用”的逻辑VS造工具用工具人文社科应从“用”入手,激发兴趣探索原理。以用促学,建立问题导向数据思维,从业务场景切入,跨越知识到应用的鸿沟。本章要点主要阐述思维范式、商业需求与商业决策、驱动商业决策的技术体系,探讨数据思维在商业决策中的重要性,提出要从行业应用、业务场景的角度切入去培养学生的数据思维。核心内容熟悉常见的数据思维,理解它们的含义与实际指向;理解并能够解释数据驱动的商业决策思维;熟悉商业数据分析技术体系的内容;理解并能够解释业务需求决定数据分析技术的选择。学习目标数据思维是核心,它深刻影响商业决策,通过数据驱动的方式优化决策流程;而商业数据分析体系则为数据思维提供了实践平台,是连接数据思维与商业决策的桥梁。本章重点数据驱动的商业决策是本章的难点,它要求读者深入理解数据思维在决策过程中的应用,掌握数据驱动决策的方法和技巧,并能将其应用于实际商业环境中。本章难点02思维范式数据思维思维是大脑对信息进行加工、处理、理解和运用的过程,帮助我们认识世界、解决问题、做出决策,具有主动探索、目的明确、创造新意和社会影响等特点。思维的特点数据思维是利用数据解决问题的思维方式,强调从数据中提取信息、发现模式,指导实践,是数据挖掘领域的应用与融合,核心是将抽象概念转化为量化数据。数据思维的定义数据思维逻辑思维逻辑思维是人类的核心认知能力,指按照逻辑顺序进行推理和判断,在数学证明中依赖逻辑思维,通过严谨推理步骤,考量每个细节,确保命题正确性。系统思维系统思维强调从整体视角看问题,要求我们深入挖掘各要素间的联系和相互作用,具备跨学科知识和综合能力,能揭示系统深层次结构和动态变化,应对复杂问题。数据思维抽象思维形象思维抽象思维概括复杂事物本质,数据处理与挖掘中尤为重要,能洞察对象背后的特征与真实规律,提炼出精准描绘数据本质的特征变量,转化业务问题为技术问题。形象思维通过想象和联想,将抽象概念和复杂数据转化为直观视觉表达,在数据可视化中尤为重要,设计创意图表和图像,迅速传达数据核心信息,激发联想和洞察。发散思维收敛思维发散思维鼓励跳出常规,从不同角度审视问题,提出新颖想法,激发创造力,发现新机会,提供丰富视角,适用于创新和突破情境,如新产品开发和市场营销策略制定。收敛思维强调在多样化想法中选出最佳方案,在决策中选出全面评估后满足当前需求、具备长远发展潜力的方案,需敏锐判断、严谨分析,保持客观公正。数据思维批判性思维创造性思维批判性思维强调对信息进行质疑、评估和分析,帮助我们形成独立、理性判断,评估分析报告时,会审视论据、逻辑和观点,判断结论合理性,培养独立思考精神。创造性思维指的是能够产生新颖、独特且富有价值的想法和解决方案;在数据分析领域,创造性思维推动我们基于数据洞察设计出前所未有的新产品或新业务。Airbnb初创时付不起房租,两位创始人把客厅气垫床拍照上传,配上“早餐+向导”创意文案,竟吸引三位租客。受此启发,他们构建“共享民宿”模式,颠覆传统酒店业,十年内估值破千亿美元,展现跨界重组资源的创造性思维。模型思维模型思维的定义模型思维是抽象思维的一种,通过建立模型模拟现实世界,简化复杂问题,有助于我们更好地理解和预测系统行为,是数据思维高度相关的概念。数据思维与模型思维数据思维与模型思维互补,共同解决实际问题;数据思维从数据出发,注重分析和应用;模型思维从抽象概念出发,注重模型的构建和验证。数据分析的核心数据驱动模型构建,利用数据优化模型;模型验证数据分析,确保结果准确;数据可视化模型结果,促进理解,是现代数据分析的核心。模型思维数据思维与模型思维的对比特点数据思维模型思维出发点数据抽象概念目的从数据中提取信息,支持决策模拟现实,理解系统方法数据分析、统计学数学建模、计算机模拟关系数据是模型的输入,模型可以解释数据模型可以生成数据,数据可以验证模型03商业需求与决策数据清洗数据清洗是保证数据质量的关键环节,即对收集到的数据进行检查、纠正、补充,以消除其中的错误、异常值和缺失值。现状分析现状分析是企业决策的基础。通过对历史数据的深入挖掘和分析,企业可以准确的把握当前的市场环境、竞争态势以及自身业务的优劣势。数据收集数据收集是理解企业业务现状的基础。企业需要收集与业务相关的各种数据,如,行业数据、市场数据、客户数据、销售数据、财务数据等。1.认识现实,理解现状是什么数据可视化数据可视化可以将复杂的数据转化为直观的图表、图形等,帮助决策者快速理解数据背后的含义。1.认识现实,理解现状是什么关注KPI通过对这些指标的深入分析,企业可以了解自身的经营状况,发现存在的问题,找到改进的机会。深入分析如,一家电子商务企业可以通过分析销售数据,了解不同产品的销售情况,找出畅销品和滞销品,从而调整产品策略。特定环节分析通过分析客户数据,企业可以了解客户的购买行为、偏好,从而有针对性地开展营销活动;通过分析供应链数据,企业可以优化供应链流程,降低成本。瑞幸咖啡通过清洗3000万条订单数据,把“爆款”生椰拿铁销量做成热力图,发现南方午后销量飙升,立即在南方门店追加30%原料并推“冰饮券”,单周销量翻2倍,库存周转缩短40%,成为数据驱动调整产品策略的标杆。预测未来通过对历史数据的分析,企业可以发现潜在的增长机会;如,一家在线教育公司可以通过分析用户行为数据。模式识别通过关联规则挖掘,电子商务平台卖家可能会发现,购买婴儿尿布的顾客通常也会购买婴儿湿巾和婴儿奶粉,可以进行搭配销售。趋势分析手机厂商分析近几年的销售数据,会发现智能手机的屏幕尺寸越来越大,功能越来越丰富;基于这种趋势分析,企业可以预测未来的市场需求。季节性分析企业可以识别出季节性的波动规律,从而更好地制定生产和销售计划;如,一家冰淇淋店可以通过分析历史销售数据。2.识别模式,按照规律做决策2.识别模式,按照规律做决策案例:沃尔玛的“飓风与Pop-Tarts”趋势与关联分析在美国沃尔玛超市,数据分析师运用模式识别技术,对历史销售数据进行趋势和关联规则挖掘。分析发现,在飓风来临前,顾客不仅购买应急用品如手电筒和电池,还大量购买Pop-Tarts(一种即食早餐饼干)。这一关联源于Pop-Tarts易储存、不需烹饪且保质期长,适合灾区应急。通过季节性分析,沃尔玛识别出飓风季(夏季至秋季)的销售波动规律,预测高峰期需求。同时,趋势分析显示,随着气候变化,极端天气事件增多,此类应急食品需求持续上升。超市据此优化库存:在飓风预警前,增加Pop-Tarts库存,并将它与电池等应急品捆绑陈列,推出促销组合。这不仅提升了销售额15%,还改善了供应链响应速度,避免了缺货风险。该案例突显模式识别如何从历史数据中挖掘隐含趋势,支持企业提前布局和精准决策。因果关系它不仅告诉我们不同变量之间存在的联系,更重要的是揭示这些变量之间的因果关系,即一个变量的变化如何导致了另一个变量的变化。3.理清关系,根据因果做决策因果分析帮助我们回答“为什么”的问题;如,我们想知道为什么某个产品的销量会下降;找出销量下降的根本原因,并采取相应的措施。因果推断是与因果分析相近的一个概念,但它的实现需要更复杂的方法。如,随机对照实验是因果推断的黄金标准。在社会科学以及企业运营中得到了较多应用;2021年10月11日,瑞典皇家科学院将诺贝尔经济学奖授予大卫·卡德等三位经济学家。应用与贡献对于卡德的主要贡献,定位是引领了“自然实验在经济学中的兴起”;对于安格里斯特和因本斯的主要贡献,定位则是建立了“因果推断的方法论”。重要性3.理清关系,根据因果做决策大卫·卡德(DavidCard)约书亚·安格里斯特(JoshuaD.Angrist)吉多·因本斯(GuidoW.Imbens)在一家大型电商平台,数据分析师使用因果分析技术,对历史用户数据进行挖掘,以理清客户流失率上升的原因。初步相关分析显示,流失与页面加载速度慢、客服响应迟缓和促销活动减少有关。但通过因果推断方法,如倾向评分匹配(PropensityScoreMatching),排除混杂因素(如用户年龄或地域差异),发现根本因果是客服响应迟缓直接导致信任下降,进而引发流失,影响程度高达45%;而页面速度仅为间接因素。为验证,该平台开展随机对照实验:随机将用户分为实验组(优化客服AI响应)和对照组(标准服务),结果实验组流失率下降20%。基于此,平台投资升级客服系统,并调整资源分配,避免无效优化页面。这不仅挽回了15%的潜在客户,还提升了整体用户满意度。该案例展示了因果分析如何从“为什么流失”到精准决策,帮助企业避免资源浪费。案例:电商平台的客户流失因果分析3.理清关系,根据因果做决策4.预测未来,通过预判来决策预测01基于历史数据和当前趋势,对未来发展进行的一种科学猜测,可以帮助企业提前做好准备,应对未来的挑战和机遇。时间序列分析02通过分析历史数据的时间序列,可以发现其中的规律和趋势,利用这些规律预测未来的值。机器学习03机器学习则提供了更强大的预测工具。通过构建机器学习模型,可以从大量数据中学习复杂的模式,利用这些模式进行预测。其他预测方法04如,回归分析、ARIMA模型、神经网络等;选择合适的模型也是预测成功的关键通过特征工程,可以更好的识别关键因素,提高模型的预测能力。4.预测未来,通过预判来决策案例:航空公司航班需求预测与动态定价在美国一家大型航空公司,数据科学家利用时间序列分析和机器学习模型,对历史航班数据进行预测。分析过去五年乘客流量、季节性高峰(如假期出行)和外部因素(如油价波动等),构建ARIMA模型结合神经网络,预测未来三个月的航班需求趋势。结果显示,夏季欧洲航线需求将增长25%,而冬季国内短途可能下降10%。基于此,公司提前调整航班调度:增加热门航线班次,优化机型配置,并实施动态定价策略——需求高峰时上调票价15%,低谷时推出折扣吸引乘客。同时,通过特征工程纳入天气和经济指标,提高模型准确率达85%。这一预测不仅减少了空座率20%,提升了收入15%,还避免了资源浪费,帮助公司在竞争中预判市场变化,制定灵活决策。该案例展示了预测技术如何从历史数据中预判未来,支持企业优化运营和风险管理。04驱动商业决策的技术体系商业数据分析技术体系描述性分析技术分布形态集中趋势离散程度测度描述性统计量的定义描述性统计量描述性统计量是用来描述一组数据基本特征的统计指标,直观明了的呈现数据的集中趋势、离散程度以及分布形态。关于集中趋势,常见的指标有众数、中位数、平均数、加权平均数等。关于离散程度测度,常见的指标有方差和标准差、变异系数。关于分布形态,常见的指标有偏度、峰度。数据可视化的定义数据可视化指的是将复杂的数据转换成图表、图形、地图等可视化的形式,让人们能够更直观、快速地理解数据背后的信息。描述性分析技术常见的可视化处理方法散点图可以显示两个变量之间的线性关系或非线性关系,气泡图可以在散点图的基础上增加一个变量,用气泡的大小表示第三个变量。双变量可视化常用的工具箱线图不仅可以显示数据分布,还可以识别异常值,小提琴图则结合了箱线图和核密度估计的优点,更直观地展示数据的分布。单变量可视化常用的工具多变量可视化常用的工具平行坐标图、树图。预测性分析技术文本挖掘文本挖掘结合了NLP、机器学习和深度学习等多种技术手段,处理和分析文本数据;随着互联网的发展,文本信息量呈爆炸式增长。数据挖掘数据挖掘是从大量数据中提取出隐含的、未知且有价值的信息的过程;涵盖了分类、聚类、关联规则、回归和人工神经网络等多种算法。在全球流媒体巨头Netflix,数据科学家运用预测性分析技术,对海量用户数据进行数据挖掘和文本挖掘,以预判观影趋势。使用聚类算法,将用户行为(如观看历史、暂停时长)分组,识别相似群体;关联规则挖掘揭示“观看科幻剧的用户常搭配惊悚片”;回归模型预测订阅续订率,考虑季节因素。同时,通过文本挖掘的NLP和深度学习(如LSTM模型),分析用户评论和社交反馈,提取情感倾向(如“剧情悬念强”),结合Transformer架构进行情感分类,预测新剧集受欢迎度。结果显示,个性化推荐准确率提升30%,用户留存率增加15%。基于此,Netflix提前投资热门题材内容,如AI主题剧集,避免库存浪费。该案例展示了预测性分析如何从历史数据和文本中挖掘模式,支持内容策略决策,优化用户体验和商业增长。案例:Netflix的用户观影偏好预测与内容推荐3.理清关系,根据因果做决策规范性分析技术规范性分析技术是数据分析的高级阶段,不仅揭示了过去的数据模式和当前的状态,更重要的是提供了指导未来的行动方案规范性分析技术仿真是指利用计算机或其他技术手段模拟现实世界或虚构世界的方法;包括连续系统仿真、离散事件仿真、混合仿真等,适用于不同的仿真场景和需求。决策模型是指将决策问题转化为一种数学或逻辑关系表达的模型;包括决策变量、决策准则、约束条件和目标函数等要素,为决策者提供最佳决策方案。优化是一类用于寻找问题最优解的数学方法和计算技术;分为无约束优化和有约束优化,广泛应用于机器学习、运筹学、工程学和经济学等领域。优化A决策模型B仿真专家系统是一种基于知识的系统,通过模拟人类专家在特定领域内的决策能力,解决复杂问题;由知识库、知识获取模块、人机交互界面等组成。C专家系统D在全球电商巨头亚马逊的智能仓库,规范性分析技术被用于提升运营效率。数据分析师首先构建决策模型,定义决策变量(如机器人路径和库存水平)、约束条件(如仓库空间和时间限制)和目标函数(最小化配送时间、最大化吞吐量)。通过优化算法(如线性规划),从可行解中找到最优机器人路径,避免碰撞并缩短拣货时间。同时,运用仿真技术模拟高峰期订单涌入场景,利用离散事件仿真预测瓶颈(如货架拥堵),并调整布局。专家系统整合知识库(If-Then规则,如“若库存低于阈值,则优先补货”),通过推理机实时指导库存分配,解释器提供决策解释。结果,仓库效率提升25%,配送延迟减少30%,库存成本降低15%。该案例展示了规范性分析如何从数学模型到实际行动,帮助企业最大化效益并最小化风险。案例:亚马逊仓库机器人路径优化与库存决策3.理清关系,根据因果做决策商业数据挖掘以解决业务问题为中心,业务问题决定数据分析技术的选择;业务人员与数据分析人员需紧密合作,确保分析结果对业务有价值。业务问题导向数据分析是一个迭代的过程,需要根据业务的变化和新的数据不断调整分析模型和策略,以确保分析结果的准确性和实用性。数据分析迭代商业需求决定数据分析技术选择THANKS感谢观看第四章业务引领的商业数据挖掘过程目录CATALOGUE课前导读商业数据挖掘过程中的数据思维设置靶子,明确所要解决的业务问题分解问题,构建问题对应的业务指标体系准备数据,收集和理解问题所需的数据分析数据,找到业务问题的数据答案回到业务,确定分析结果的商业解释呈现结果,基于数据分析过程形成商业报告01PART课前导读课前导读现象:作业的“多用一稿”与知识融合在人民大学商学院读博士期间,讲授《博弈论与信息经济学》的刘老师鼓励用一份作业交给不同课程,但需融合其他学科知识,以多元视角解决问题。这反映了学习中常见问题:技术工具(如数据分析)往往孤立,无法直接应用于业务。这种现象常见于商业数据挖掘:技术中性,但若不融合业务知识,分析结果脱离实际,无法产生影响力。你是否有过类似经历?为什么业务知识与数据分析技术需要融合?课前导读融合业务知识,提升数据分析的实用性数据分析技术是工具,具有行业中性;融合业务知识,能让分析更接地气,解决实际问题。如在商业数据挖掘中,先理解行业背景,再用技术导向问题分析,避免抽象学习,确保成果有影响力。课前导读在研究中的应用:现象驱动的交叉探索周老师研究智慧养老/医疗,将新兴现象概念化、变量化、测量化,构建新理论,解释实践并指导政策。如分析老年人互联网使用差异,用变量测量概念,解释结果转化为政策建议,促进业务与技术的深度融合。课前导读在教学中的实践:业务导向的学习在本科课堂增加企业案例,引导学生观察现象、提出问题、设计分析方案,形成报告,实现业务与技术的结合。通过实际场景激发兴趣,提升学习效果;分享经验:加强融合,更好掌握商业数据挖掘的核心,推动问题导向分析。本章要点主要阐述商业数据挖掘过程的每个环节,数据思维在每个环节的应用;商业数据挖掘报告的撰写;重点剖析了商业数据挖掘每个步骤的核心要点以及用到的核心数据思维。核心内容能够根据商业数据挖掘流程完成数据分析工作;理解数据思维在商业数据挖掘流程中的应用;围绕业务问题设计完整的商业数据挖掘项目;利用数据思维和业务知识将业务问题抽象为业务指标体系;完成数据分析与建模工作;能够撰写一份商业数据挖掘报告。学习目标商业数据挖掘的过程;数据思维在商业数据挖掘过程中的应用;商业数据挖掘报告撰写。本章重点商业数据挖掘的过程;数据思维在商业数据挖掘过程中的应用。本章难点02PART商业数据挖掘过程中的数据思维系统思维可以帮助我们从整体角度把握业务流程,明确企业业务系统包含的各个要素、分析要素之间的因果关系、考虑要素之间的反馈机制,识别业务流程中的瓶颈环节和关键问题。

商业数据挖掘过程中的数据思维商业数据挖掘过程并无定式,但流传最广、影响最大的当属CRISP-DM(Cross-IndustryStandardProcessforDataMining,跨行业标准数据挖掘流程)。该过程是由一个行业性特别小组提出的,小组成员包括欧洲委员会及数据仓库供货商NCR、德国汽车航天公司Daimler-Chrysler、统计分析软件供货商SPSS、等几家在数据挖掘应用上有经验的公司。目前使用的CRISP-DM模型为该小组于2000年提出的跨行业标准数据挖掘流程。基于CRISP-DM及作者团队的教学与项目实践经验,我们将商业数据挖掘过程划分为以下6个步骤,梳理了每个阶段可能用到的核心数据思维(见下图)。2009年,IBM收购了SPSS,在商务智能等领域进行了系统规划,形成了著名的IBMSPSS系列软件;借助IBM强大的战略咨询能力和影响力,助推CRISP-DM成为了全世界最经典、最流行的数据挖掘实践范式。商业数据挖掘过程商业数据挖掘过程并无定式,但流传最广、影响最大的当属CRISP-DM(Cross-IndustryStandardProcessforDataMining,跨行业标准数据挖掘流程)。基于CRISP-DM及作者团队的教学与项目实践经验,我们将商业数据挖掘过程划分为以上6个步骤,梳理了每个阶段可能用到的核心数据思维。03PART步骤1:设置靶子,明确所要解决的业务问题收入问题关注客户与产品,分析新用户增长、老用户复购率及其原因,涉及营销渠道、产品质量、售后服务及竞争对手,需业务知识引导识别问题,制定策略。成本问题风险问题分析业务存在的问题聚焦直接成本与流程效率,ABC成本分析识别高成本环节,优化排序;流程图分析找瓶颈、冗余与耗时环节,针对性优化,提升效率。识别风险需关注客户流失、产品价值匹配、外观及质量,流程合规性,及潜在不当应用或漏洞,全面评估风险点,确保业务稳健发展。确定数据分析的目标遵循SMART原则,确保目标具体、可衡量、可实现、相关且有时限,为数据分析提供明确方向。目标设定原则从总体到部门,再到数据分析目标,层层分解,确保目标一致且与业务战略紧密相连。数据分析及其目标需迭代,随着分析深入,问题认识可能变化,目标需灵活调整,确保始终符合业务需求。目标层级结构基于假设(如用户流失因产品功能不足)设定分析目标(如分析用户对产品功能的满意度),指导数据收集与分析方法。假设驱动目标01020403目标动态调整系统思维可以帮助我们从整体角度把握业务流程,明确企业业务系统包含的各个要素、分析要素之间的因果关系、考虑要素之间的反馈机制,识别业务流程中的瓶颈环节和关键问题。案例:星巴克门店运营问题分析与优化星巴克一家门店销售额下滑,分析师梳理业务流程,分解为采购、冲泡、销售环节,审查KPI发现客单价降15%。访谈员工确认痛点:高峰期排队长、产品创新不足。收入分析显示老用户复购率降10%,因竞品新品吸引力强。成本方面,ABC分析揭示冲泡环节人工成本占40%,效率低。流程图优化后引入自动化设备,降低冗余。风险分析识别高流失客户(两周未消费),并检查产品设计是否冒犯文化。最终,优化菜单、排队系统并加强合规培训,销售额增20%,成本降12%,风险减。该案例展示业务问题分析如何从背景到优化,支持决策。04PART步骤2:分解问题,构建问题对应的业务指标体系问题拆解与定位简单设定笼统目标不足够,需拆解成具体问题,使问题更清晰,有助于发现潜在影响因素,进而制定出更有针对性的解决方案。深入分析找关键点通过对这些问题的深入探讨,逐步缩小范围,明确问题关键点,以制定有效解决方案,促进销售额的增长。电商销售问题分析电子商务企业面临销售额增长缓慢时,可进一步细分为新用户获取、营销效果、老用户复购率及原因等多个具体问题。业务问题复杂性在商业环境中,业务问题常常是复杂且多维度的,如销售额增长乏力可能涉及市场营销、产品特性、客户满意度等多个方面。分解问题的重要性商业模式画布商业模式画布由亚历山大·奥斯特瓦德博士和伊夫·皮尼厄教授共同发明,通过结构化的方式呈现商业模式的各个核心组成部分,从而帮助企业更好地理解其如何创造价值、传递价值和获取价值。商业模式画布将商业模式划分为9个构造块。构建业务指标体系构建业务指标体系海盗指标(PirateMetrics)由戴夫·麦克卢尔(DaveMcClure)提出,也被称为AARRR框架,是一种用于分析和优化用户生命周期的模型。该框架包含五个关键指标,即获取用户、提高活跃度、提高留存率、获取营收收入和自传播。运营目的具体功能相关指标(或数据)获取用户通过可能的手段(包含免费或收费)博取潜在用户的眼球与注意力流量、提及量、搜索结果、用户获取成本、点开率提高活跃度将获取的“过客”式访客转化为产品的真正参与者注册人数、注册量、新手教程完成量、至少用过一次产品的人数、订阅量提高留存率说服用户再次光临,反复使用,表现出粘性行为用户参与度、距上次登录的时间、日/月活跃使用量、流失率获取营收商业活动的产出(不同的商业模式看重不同的产出,如,购买量、广告点击量、内容生产量等等)客户终生价值、转化率(免费到付费)、平均购物车大小、广告点入营收自传播已有用户对潜在用户的病毒式传播及口碑传播邀请发送量、病毒式传播系数、病毒传播周期业务指标体系的构建需逻辑思维指导,建立问题到指标的逻辑链条,确保指标定义准确、关系清晰。逻辑思维重要性逻辑思维构建指标网络,每个指标反映问题不同侧面,指导数据分析方向,发现根源,为数据分析提供指导。指标网络构建从问题到指标的逻辑链条在一家在线教育平台,用户留存率持续下降,影响收入增长。分析师运用逻辑思维构建指标体系:首先定义核心问题“为什么用户中途放弃课程”,建立逻辑链条。从新用户获取入手,考察“注册转化率”(渠道来源占比)和“首次登录时长”(用户质量指标),发现付费课程渠道用户质量高,但免费试听用户流失快。接着分析老用户复购,结合“课程完成率”与“满意度评分”(NPS),探究原因:如内容难度过高导致完成率仅40%,售后互动差影响复购率降15%。进一步关联“学习时段分布”与“弃课节点”,揭示高峰期技术故障是关键痛点。基于此,平台优化课程分级、加强客服响应,并监控复合指标“终身价值”(LTV),留存率提升25%,收入增18%。该案例展示了逻辑思维如何从问题到指标链条,支持精准决策。案例:在线教育平台的用户留存指标体系构建从问题到指标的逻辑链条05PART步骤3:准备数据,收集和理解问题所需的数据数据收集01公开数据集公开数据集也是不容忽视的重要资源;政府机构、学术机构等公开发布的数据集,如人口数据、经济数据等,为我们提供了宏观层面的背景信息,有助于我们更全面地理解企业所处的市场环境和发展趋势。03企业内部数据库企业内部数据库,如CRM系统、销售数据、财务数据等,是企业数据的核心宝藏;这些数据不仅详细记录了企业的日常运营活动,还能揭示出企业在市场竞争中的优势和短板,为企业的战略决策提供了有力的内部支撑。02互联网数据抓取通过编写爬虫程序,还可以从互联网上抓取所需数据,如新闻、产品评论等,形成更全面的数据来源渠道;关于爬虫程序、网络数据获取与管理,可以参考本书的线上配套资料,此处不再展开。04外部数据提供商外部数据提供商则为我们打开了了解外部市场环境的大门;通过购买来自第三方的数据,如市场调研数据、行业报告和社交媒体数据等,我们能够更加深入地洞察市场动态、竞争对手的策略以及消费者的需求变化,为企业的市场定位和产品优化提供宝贵的参考。缺失值处理缺失值指的是数据集中未能完整记录的部分;对于缺失值的处理,可以采取多种策略,如删除含缺失值的记录、估算填充或复杂算法预测补充,以恢复数据完整性。重复数据处理重复数据指的是在数据集中重复出现的记录或字段,会导致数据冗余,影响分析结果的准确性;对此,需要识别并删除这些重复数据,确保数据集的简洁性和有效性。异常值处理异常值指的是那些明显偏离正常数据分布范围的值;对于异常值,可以采取多种策略,如删除显著影响分析的结果、填补替换或高级算法检测修正,确保数据准确性。数据转换数据转换也是数据清洗中的一个重要步骤,涉及将原始数据转换为适合分析的格式;如,将文本型数据转换为数值型或类别型数据,以便更好地挖掘数据的价值。数据清洗标签的形式多样标签的形式多样,可以是类别标签,用于标识数据的分类属性;也可以是数值标签,用于量化数据的特征;还可以是时间标签,用于记录数据的时间属性。标签定义需谨慎标签体系的作用数据标签体系定义标签时需要格外谨慎,确保标签的含义明确、取值范围合理,明确标签之间的关系;标签的含义必须清晰无误,避免歧义和误解,以确保数据准确性。数据标签体系可验证数据准确性,提高数据质量;简化数据分析,支持数据分析过程;构建机器学习模型,提高模型性能;评估模型准确性,优化模型。在一家电商平台,用户转化率低,团队需准备数据优化推荐系统。首先,通过数据收集从内部CRM数据库获取浏览记录和购买历史;外部购买市场调研报告分析竞争对手;利用公开数据集(如Kaggle用户行为数据)补充宏观趋势;编写爬虫抓取产品评论,形成综合数据集。数据清洗阶段,处理缺失值(如用中位数填充未记录的年龄);删除异常值(如极端浏览时长);去除重复订单记录;转换文本评论为数值情感分数,确保数据质量。构建数据标签体系,定义类别标签(如“高活跃用户”/“低活跃用户”)、数值标签(如“浏览时长”)、时间标签(如“最后登录日期”),明确标签关系(如活跃度与转化率的关联)。标签用于验证数据准确性,并作为输入训练机器学习模型。最终,模型准确率达85%,推荐点击率提升20%,转化率增15%。该案例展示了数据准备如何从收集到标签,支持精准决策。案例:电商平台的用户行为数据准备与个性化推荐步骤3:准备数据,收集和理解问题所需的数据06PART步骤4:分析数据,找到业务问题的数据答案选择数据分析技术的“原则”选择数据分析技术需注重适用性,根据问题特性选择最合适的算法,如回归分析、时间序列分析等,并通过发散思维尝试多算法比较,采用收敛思维确定最终选择,确保分析有效性和针对性。适用性01数据建模与分析追求模型能够准确、高效地工作,选择技术时需评估其在历史数据上的表现,确保能够提供高精度预测或分类结果,为业务决策提供可靠支持。准确性02建模过程中,效率是重要考量,尤其面对大规模数据时,需确保模型训练与预测速度满足业务需求,选择技术时,需评估其在大规模数据集上的表现,确保在合理时间内提供结果。效率03选择技术时,可解释性是一个重要考量;好的模型不仅便于理解其决策过程,增加人们对结果的信任度,还能在出现问题时快速定位并采取相应的措施。可解释性易

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论