管理研究方法：理论、前沿与操作（第2版）课件第11章大数据文本分析法

上传人：q*** IP属地：山东上传时间：2026-04-27 格式：PPTX 页数：56 大小：4.07MB 积分：15 举报 版权申诉

已阅读5页，还剩51页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第十一章：大数据文本分析讲课人：XXX目录CONTENTS1234大数据文本分析概述大数据文本分析流程大数据文本分析实际操作和软件示例大数据文本分析在研究中的应用大数据文本分析概述01一、大数据时代文本数据的价值大数据文本信息特征：4V高容量(volume)、多样性(variety)、高速度(velocity)和价值型(value)。2022年全球大数据文本储量将达61.2ZB（泽字节，代表的是十万亿亿字节）文本数据作为人类思想、情感、观点及态度的基本载体之一，包含丰富且复杂的信息。以自然语言处理(NaturalLanguageProcessing；NLP)为核心的计算机文本分析技术(ComputationalTextAnalysis)的发展为契机，在管理实践及研究中展开大数据文本的分析成为可能。能够充分认识到大数据时代文本数据的价值，并掌握相应的方法对文本大数据展开挖掘和利用，不仅可以指导企业实践，也可以丰富管理学、心理学、组织学和社会学等领域的现有理论，增进我们对于个体和群体的认知及决策的理解。二、大数据文本分析方法的分类及原理基于对语言的理解层次(即是否关注文本的语义信息),现在常用的大数据文本分析方法可分为两类：基于词频和基于语义主流文本分析方法及分类二、大数据文本分析方法的分类及原理(一)基于词频聚焦于“词”(word)这一最小的文本单位，通过对文本中词语的使用“频率”展开量化统计，揭示语言使用与上述特征之间的关系，从而达到理解文本的目的。操作简单、门槛低、(二)基于语义（较好的准确度与灵活性）主题模型

通过当前文本中词组之间的内在属性和联系,将词组自动分成预先设定好数量的K个类别(即“主题”)，并由研究者自行概括、提炼得到每一类词组所反映的主题内涵。词嵌入

把高维空间嵌入一个维数低得多的连续向量空间的技术，可以通过语义生成向量，避免稀疏矩阵带来的“维数灾难”。大数据文本分析流程02大数据文本分析流程大数据文本分析的四项基本流程

大数据文本分析流程(一)文本收集用户生成文本(user-generatedtext)

用户动态、消费者评论等营销人员生成文本(marketer-generatedtext)

广告文案、众筹平台信息等大数据文本文本数据的获取途径：由官方机构或个人初步整理并公开的文本数据库，如Github综合网站等。借助“爬虫”程序收集文本数据。

大数据文本分析流程(二)文本预处理目的：对所收集的原始文本数据进行清洗和整理，并进一步转化为后续文本分析工具能够识别和处理的规范化格式。文本预处理步骤文本清洗在规范化格式基础上移除与内容无关的标点符号、特殊字符、图片等。文本分词将长文本单位(文档或段落)拆分成“词”这一最小语义单位。去除停用词去掉缺乏实际含义的功能词，如冠词、人名和固定格式的词汇等。文本规范化将文本词汇转化为标准形式，包含检查拼写、提取词干和词义还原。(三)文本特征学习词汇(实体)特征(entityextraction)主题特征(topicextraction)关系特征(relationextraction)词汇(实体)特征(entityextraction)

词汇的含义及使用习惯反映了个体心理或社会集体文化等信息，能够反映众多实体概念的特征。将文档拆解为词汇或词组的列表形式后，通过计算特定类别范畴的词汇数量及其在文本中的占比能够为研究人员提供“创作内容”(写什么)和“语言风格”(怎么写)两大特征线索.主题特征(topicextraction)

指文本中的部分词汇集合能够表达某项共同的主题或相同的构念,有助于我们理解大数据文本的潜在结构。主题特征由主题分布和主题词列表来共同描述。

大数据文本分析流程

大数据文本分析流程(三)文本特征学习主题模型工作原理和结果示意图

大数据文本分析流程关系特征(relationextraction)特定词的相似使用以及词的共现分布能刻画词语、文档和目标主体之间的关系特征。通过不同主体的语言使用规范,可以刻画语言风格的相似特征,进而推断主体之间的关系质量、社会地位甚至文化适应(enculturation)现象。(三)文本特征学习“词嵌入”技术对词汇的向量表征结果(三维)示意

大数据文本分析流程(四)效度分析构念效度构建目标变量需要确保变量的度量方法能准确反映构念的特征。结果效度确定大数据文本分析结果是否有效，通常有两种：与真实的调查数据或实验结论对比和与其他成熟的研究方法对比。因果效度对于文本数据中的其他噪声干扰(confoundingbias)引发的内生性问题应根据研究目标进行控制。大数据文本分析实际操作和软件示例

03（一）软件安装前往Anaconda官方网站()选取并下载对应版本；完成下载后，启动安装程序，按照指示步骤进行勾选与点击；完成安装，启动Anaconda-Navigator以检验安装是否成功；Anaconda-Navigator主页面找到JupyterNotebook。一、Python与自然语言处理（二）自然语言库模块：指包含Python定义和语句的程序文件，是规模较小的代码；包：可用来组织模块并提供一个命名层次，是若干模块的集合；库：指完成一定功能的代码集合，由诸多函数、模块和包组成，可供用户直接调用。Python包含标准库（直接import）+第三方库（安装后import）一、Python与自然语言处理（二）自然语言库结巴（jieba）分词SnowNLPHanLPLTP语言技术平台StanfordNLPGensimSklearn一、Python与自然语言处理（二）自然语言库结巴（jieba）分词SnowNLPHanLPLTP语言技术平台StanfordNLPGensimSklearn一、Python与自然语言处理（一）中文语料预处理第一步，数据导入第二步，语料清洗二、文本处理及软件实操（一）中文语料预处理第三步，中文分词第四步，停用词去除二、文本处理及软件实操（二）中文文本表示——开源词向量介绍中文词向量语料库（ChineseWordVectors）腾讯AILab中文词向量百度AI开放平台二、文本处理及软件实操（二）中文文本表示——词向量使用示例词向量数据加载词向量应用二、文本处理及软件实操（三）文本信息提取词典法词典的选择与构建词频统计词语权重的选择主题模型整合文档数据并进行预处理准备Dcoument-Term（文档-词条）矩阵创建LDA模型对象并训练文本分类文本分类简介文本分类的技术与实现二、文本处理及软件实操（1）词典的选择与构建中文常用情绪词典：大连理工大学中文情感词汇：解决多类别情感分类、一般的倾向性分析的问题台湾大学NTUSD简体中文情感词典：基于文本情感二元划分方法，通常作为一种基础知识中文语义知识库：知网（HowNet）：应用于语义分析、语料库语义标注以及意义排歧等其他资源：清华大学李军中文褒贬义词典1.词典法（2）词频统计第一步，读取并输出词典数据输出前10行了解大致结构1.词典法（2）词频统计第二步，正负情感分析依据词典中各个词语的情感分类规则：分为“乐”、“好”、“怒”、“哀”、“惧”、“恶”、“惊”7大类，以及“PA”、“PE”、“NB”、“NJ”等21小类。首先把词语纳入各个情感小类，然后将其通过情感大类归为积极或消极情感词，以对文本进行正负情感分析1.词典法（2）词频统计第三步，定义词频统计函数统计并输出文本对象的长度及其积极情感词语数量、消极情感词语数量以及原词典所划分的7大类别情感词语数量1.词典法（2）词频统计第四步，输出结果运用定义的词频统计函数对指定文本进行分析1.词典法（3）词语权重的设定等权重假定文本中每个词语的重要程度相同词频-逆文档(TF-IDF)加权同时考虑词语在文本中出现的次数(频率)和多少文档包含该词语这两个维度，对在文本中频繁出现但并没有实际含义的词语赋予较少的权重、而给予有重要含义但出现次数较少的词语较大权重对应变量加权借用文本中词语与对应变量（例如，市场收益率、波动率指数等）的关系来确定词语的权重利用第三方工具包Sklearn，jieba（结巴中文分词）以及Gensim等可实现TF-IDF算法1.词典法第一步，整合文档数据并进行预处理2.主题模型第二步，准备Dcoument-Term（文档-词条）矩阵2.主题模型第三步，创建LDA模型对象并训练2.主题模型（1）文本分类简介文本分类的定义是一个典型的监督学习任务：人工标注文档类别，利用分类语料训练模型，通过模型预测文档类别。文本分类的基本过程文本预处理清洗文本、分词及去除停用词等文本表示主要有空间向量模型、布尔模型、概率检索模型等文本分类的特征选择和提取从向量空间中抽取最有效、最具代表性的词汇作为文档的特征向量训练分类器运用分类技术，如支持向量机、决策树、神经网络等算法进行分类分类结果评价依据衡量分类器性能的指标判断分类器好坏3.文本分类3.文本分类（2）文本分类的技术与实现朴素贝叶斯分类最近邻居分类支持向量机分类一种机器学习算法，它通过在样本空间中找到一个超平面，将不同类别的样本分开，同时使得两个点集到此平面的最小距离最大，两个点集中的边缘点到此平面的距离最大，从而确定一个稳健的决策边界。支持向量机(SVM)具有通用性强以及有效占用内存的优势。第一步，使用内置数据集加载来加载新闻组集合；第二步，将文本内容转化成数值形式的特征向量，从文本文件中提取特征；借助sklearn库实现支持向量机(SVM)算法第三步，训练支持向量机(SVM)分类器，预测某一帖子所属类别借助sklearn库实现支持向量机(SVM)算法大数据文本分析在研究中的应用04（一）基于已有成熟词典Dodds等(2011)收集了上世纪六十年代至本世纪初期间的流行歌曲的歌词、2005年至2009年的博客文本和历届美国总统的演讲发言，并将语料划分为不等时段，通过ANEW情感词典进行分析，以衡量美国社会“幸福感”的变化。Obschonka等(2017)着眼于106位企业家的社交媒体文本，并利用LIWC词典对“大五人格”、“成就导向”、“社交风格”的词汇定义构建了“创业精神”的综合指标。Boyd等(2020)则使用词典中的“虚词”和“认知处理”类词汇（如“think”,“believe”,“cause”），分析了科幻小说、电影脚本、学术文章和法院意见等多类型语料的叙事结构。通过比较文章各个板块对上述两类词汇的使用频率，他们发现“背景-情节-高潮”的基本叙述方式，继而探讨了叙述结构与文本受欢迎度（评分、引用等指标）的潜在关系。（二）开发词典定义词汇特征Paetzold和Specia(2016)建立了MRC心理语言学词库，并整理了85000多项英文词汇的“具像性”评分。Zhou等学者(2018)分析了市面上各种软件迭代的描述文本和产品对应版本的用户评论。并用TF-IDF技术从评论提取了一系列关键词来组成市场用户的需求（词典），实现了对企业“需求响应水平(customeragility)”指标的测量，进而探究了变量的“前因”和“后果”。一、基于词汇特征的大数据文本分析研究Narang(2022)利用LDA主题模型抽取了12000多条线上课程论坛讨论中的两类关键词，分别代表“表达身份”和“表达创意”的主题。He(2021)利用贝叶斯文本分类器提取出真假评论下最具代表性的词汇内容。为提高人工构建词典的可靠性。Mckenny(2013)等学者总结了构建词典的一般流程以及验证方法。人工构建目标构念词典的基本过程和评估方法（一）用于隐含结构/关键内容的挖掘Wang等(2015)分析了“JournalofConsumerResearch(消费者研究)”学术期刊创立以来在研究方向上的演变轨迹。作者收集了1974~2014年间1875篇文章的摘要，并利用LDA模型挖掘出16个研究主题。（二）用于文化产品分析Berger和Pakard(2018)收集了2014～2016年间在美国公告牌(Billboard)上排行前50名的歌曲歌词，该语料包含了七种歌曲流派的1879首歌及其排行数据，分析了什么样的歌曲更容易受欢迎。Ryoo(2020)收集了2013～2017年间上映的993部电影的影评文本，并利用主题模型从含有剧透标签的评论中提取23个与情节相关的主题，验证了剧透对电影销售的积极影响。（三）用于政策效果评估Puranam等(2017)结合“双重差分”的因果分析方法，先分析了当地九千多家连锁餐馆的线上评论在2004年至2012年内的主题变化，又另外分析了当地自营餐馆的线上评论在此期间的主题变化，探讨了2008年纽约市要求连锁经营的餐厅需标注食物热量的政策对广大消费者的饮食健康认识是否存在实质影响。二、基于主题特征的大数据文本分析研究（四）用于人格心理分析Park(2015)认为心理咨询文本、线上交流论坛和社交媒体动态是分析个体情绪状态、心理健康的极佳资料，还可以了解创作者画像并预测个体的行为倾向。Netzer等(2019)利用主题特征来预测个人的贷款违约行为，并在某集资网站上的12万条贷款申请文本和违约数据上进行验证。作者发现包含“家庭”、“艰辛”、“未来”等主题的申请标志更高的违约率。Toubia等(2019)从电影简介里提取了反映于电影作品内的96个人格心理相关的主题，并基于这些特征预测了观众的观看偏好、票房收入。（五）用于商业交易预测Chen等(2021)考察了共享经济平台上商家与用户间的双向选择机制。基于该模型，作者爬取了Airbnb租赁平台上截止2016年的用户信息、租房信息和双边评论，随之提取了来自商家和用户各自评论下的主题结构。结合房屋租赁的历史结果，结果表明共同的主题内容能预测线上交易的成功率。（一）跨文本的词汇使用相似性中的文本关系线索Ireland和Pennebaker(2010)基于对话文本中的词汇使用习惯来构建创作者双方的语言风格匹配(LanguageStyleMatch;LSM)变量，并用于人物关系以及人格特质的分析。Danescu-Niculescu-Mizil等(2012)分析了24万条来自编辑社的谈话记录和美国法院的辩论文本。通过对比双方谈话轮之间的词汇表达，作者发现语言协调现象与个体的权力差异存在关联，地位势力相对低的人会更主动地学习别人的语言风格。Kovacs和Kleinbaum(2020)基于语言风格相似性的度量方法构建了社交关系网络的形成路径。（二）文本内词汇的共现模式中的文本关系线索（“词嵌入”技术的使用）Caliskan等(2016)利用GloVe词嵌入模型研究了人们对诸如“科学-男性”vs.“艺术-女性”的内隐联想，并发现基于网络大型语料的分析结果与其它方法产生高度且一致的结论。Garg等(2018)为探讨美国社会的刻板印象，收集了1900～1990年间的纽约时报、谷歌新闻、谷歌图书三大语料库。在使用词嵌入技术获得词向量表征的基础上，他们分别测量了“男性”与“女性”、“白人”与“少数裔群”与“能力”和多种职业的语义距离关系。结果发现，美国社会的性别和种族偏见随民权运动有所改善。三、基于关系特征的大数据文本分析研究Boghrati和Berger(2020)利用Word2Vec技术度量了1965年至2018年近60年的流行歌曲歌词中的厌女(misogyny)现象。（三）基于词的嵌入特征的多种主体关系刻画Rheault和Cochrane(2019)收集了一个多世纪以来各国的议会会议记录，并分别计算了美国民主党、共和党与“自由-保守”、“北部州-南部州”两项意识形态维度的相对距离，以此揭示党派间的政治关系。Berger等(2016)将“词嵌入”思想用于学术文章里引证文献的表征上，通过这些文献的上下文特征构建了学术界诸多研究学者和引证文章间的关系网络。Wei(2021)分析了众筹平台上同类项目之间的内容相似度，发现把控模仿与创新间之的平衡对新的众筹项目结果有影响。众筹项目的内容相似性网络示意Wang等(2021)收集了亚马逊平台上多个品牌的73万条评论，从中识别了市场的具体属性感知(engineered-attributes)，随之利用“词嵌入”从一众属性的内部层级关系中抽象出七大元属性(meta-attributes)。结合评论的情感线索，可以对各品牌进行市场的定位评估。Toubia等(2021)利用“词嵌入”创新性地度量了“叙事性”概念。作者对文本段落的向量化表征。在计算了相邻文本段落间的语义距离基础上，度量了叙事节奏快慢、涉及的内容主题范围、叙述方式是否迂回的三种特征。进一步在大规模的电影脚本、电视节目剧本、学术文章语料上分别探索了三种叙述特征与文化产品的成功性的关系，发现受欢迎的故事的展开方式存在显著差异。Xu等(2020)用相似的思路研究了互联网环境下的“信息茧房”问题。她们获取了10万手机用户的线上浏览行为数据，并利用Doc2Vec的方法将用户的浏览内容表征为向量空间中的“点”，最后串联起每个用户在不同时间节点的活动轨迹。网络用户的线上活动空间及浏览轨迹（一）方法选择Carlson和Burbano（2025）在研究Kickstarter项目中“是否具有社会效益”这一抽象构念时，发现人工编码不仅成本高，而且在跨行业文本中存在一致性问题，他们通过LLM的零样本分类方式标注70,000余个项目文本，并将其用于后续的筹资成功率分析。研究表明，LLM在理解“社会影响”“公共利益”等隐含语义特征方面显著优于关键词法。在市场营销领域，Sarstedt等（2024）探讨“硅基样本（siliconsamples）”作为问卷替代者的可行性，通过让GPT-4模拟消费者对广告刺激的态度反应，发现模型生成的开放式回答在情绪特征与主题分布上与真实消费者高度接近，从而展示LLM在情感类构念编码中的潜力。（二）模型选择与稳定性Ziems等（2024）在分析25个社会科学任务时比较了13个主流模型，包括GPT-4、Claude与Llama2。他们发现模型之间的差异会系统影响研究结果。Choi、Menon与Tabakovic（2021）在研究企业多元化文本分类任务时发现，模型的稳定性直接影响企业战略类型的识别精度。四、在人工智能背景下的大数据文本分析：LLM的方法变革（三）提示工程提示工程的设计深刻影响模型对构念的理解方式。Wei等（2022）通过少样本示例提升模型对创新性的判断精度，表明提示中的参照样例能够帮助模型形成更稳定的语义边界。Reisenbichler、Reutterer与Schweidel（2025）在搜索广告内容生成中发现，通用LLM在缺乏上下文指令时表现有限，而基于关键词体系、LandingPage内容和广告风格构建的结构化提示能够显著提升输出质量。（四）成本与规模评估Carlson和Burbano（2025）指出，不同提示形式（如思维链提示）在Token消耗上的差异可能在大样本下造成数倍成本差异，因此在早期设计阶段进行成本预测十分必要。Netzer等（2019）采用“分层初筛+精细模型”的方式降低总体调用次数，展示了混合策略在控制成本的同时保持标注质量的有效性。（五）验证与稳健性检验Carlson和Burbano（2025）发现，不同提示产生的“社会效益”标签在后续统计分析中可能导致回归系数方向反转，说明验证不仅需要比较准确率，还需检验变量与结果之间的结构关系。胡楠、薛付婧与王昊楠（2021）在构建“管理者短视主义”文本指标时，通过人工编码与模型输出的交叉比对，对变量的构念效度与结果效度进行了系统检验，并利用多种统计模型进行稳健性分析，体现了跨方法一致性对于因果推论的重要性。以领先NLP技术构建AI数字疗法体系，聆心智能致力于解开更多“心结”到社会重视。但精神科医生和心理咨询师却存在巨大缺口，导致大部分需要专业心理帮助的人“求助无门”。如今，随着AI心理技术的出现，心理医生短缺的现状有望迎来转变。“我和女朋友分手了，心情不好。”“分手一定很难过，那你现在有什么想说的或者想做的吗？”以上对话就来自于寻求心理帮助的用户与一款名为emohaa的AI情绪对话机器人，这段看似简单的对话包含了探索、共情、安抚、提供建议等心理咨询过程。2020年下半年开始，受到“疫情导致大众心理压力上升”的逻辑催化，心理健康赛道的节奏有了明显的加快。同时，由于精神心理医疗资源以及心理咨询服务供给侧的高度紧缺，人工服务的解决思路并没有完全解决问题，因此行业便开始看向AI。2021年，数字疗法及AI心理赛道获得频繁融资，成为风口。国内人工智能-自然语言处理领域专家、清华大学计算机科学与技术系副教授黄民烈2021年创办人工智能心理健康企业“聆心智能”，通过建立先进的AI数字疗法体系，为临床患者和广大心理亚健康人群提供高质量、低成本、个性化、全天候的情绪支持、心理咨询和干预方案，为用户提供更科学、高效的精神健康服务。上面提到的emohaaAI情绪对话机器人就是由聆心智能自主研发而成的。除emohaa之外，公司还开发了心理咨询服务线上平台聆心悠然、AI数字疗法App聆忧，为不同需求层次的用户提供服务。黄民烈教授表示：“最新的流行病学调查显示，精神障碍人群大约占到整个人群的16~17%。精神健康是我们面对的核心议题，但我国仅有不足五万的专业心理咨询师从事心理咨询行业的专兼职工作，精神科医生更是少之又少。这中间巨大的供需差距可以通过人工智能技术和相应的产品来补充。”实践案例然而，当前国内外心理领域AI对话机器人及数字化干预疗法的玩家主要以CBT（CognitiveBehaviouralTherapy认知行为疗法）为范式，原因在于CBT拥有高度结构化的特征，天然存在数字化的可能性。但是如果只有CBT数字化疗程，AI就是一个硬邦邦、冷冰冰的对话机器，当用户对CBT疗程话术感到不适应、或者不适合CBT疗法时，AI心理机器人通常需要搭配其他解决方案或者情绪话术为用户提供更好的使用体验。聆心智能致力于突破当前AI心理行业仅以CBT数字化疗程为主的现状，促进机器人对用户情绪状态的区分和识别，并且针对用户的每种状态给予丰富的回应策略，比如表达支持、赞同、情绪映射、复述、自我暴露和及时反馈等策略，达到情绪支持。其中，自然语言处理在聆心智能所提供方案的不同节点都起到了关键作用。比如，通过自然语言对话系统能够对用户不同层级的需求予以满足，包括但不限于情绪、陪伴、给予建议等等。在辅助诊疗方面，通过自然语言处理相关技术，将用户的输入信息处理为符合精神心理诊断体系的计算机符号表达，并且将该表达与医学专业诊断之间的关联和映射为理解用户输入提供底层架构上的支持。最后，在数字疗法-数字药的开发方面，自然语言处理一方面作为理解用户需求的最基本工具，结合与其需求相契合的循证算法模型，为用户提供医学上最有用的数字疗法解决方案；另一方面，自然语言处理技术本身在生成模型上就带有了情感支持的能力，因此本身也会作为数字疗法的一个组成部分，目前，这是市场上所独有的技术。实践案例利用大型语言模型提升移动广告投放精度，Adjust推出智能创意分析与投放优化方案移动互联网时代，消费者每天被动接触广告素材的数量动辄上百条，其中相当比例与自身需求无关，甚至影响使用体验。过去，广告投放往往依赖粗放的用户分层与人工经验制作创意，导致用户看到“毫不相关”的广告极为普遍。例如，一位只想查看天气的用户，却被算法反复推送游戏广告；一位已经购买某类产品的用户仍会持续收到相同商品的促销信息。消费者对于“广告疲劳”的抱怨不断增加，也使广告主为此付出更高的预算成本却收效不佳。在这样的背景下，Adjust借助大型语言模型（LLM）构建了一套“智能广告创意分析与投放优化系统”，尝试让广告真正“理解用户”，而不是简单“广播式投放”。该系统从消费者视角出发，通过深入分析广告文本内容如何影响用户感受，帮助品牌制作更贴近用户语境、更具说服力的广告文案。首先，系统会采集历史广告素材与真实曝光结果，利用LLM对文本进行语义拆解。例如，在评估一条“手游广告文案”时，模型不仅识别其中的关键词（如“冒险”“奖励”“限时挑战”），还会理解广告的情绪色彩、叙事风格与潜在说服逻辑。随后，将这些语言特征与真实CTR（点击率）、CVR（转化率）进行关联，判断哪些语义元素更能引发用户兴趣。以游戏行业为例，模型发现用户更容易被“短时反馈”“奖励体验”类词语吸引，而电商广告中，“真实评价”“快速配送”则更能建立信任感。实践案例在处理内容生成时，LLM会根据用户所在地区、语言偏好以及浏览情境生成不同“个性化版本”的文案。例如，同一款护肤产品，面对不同文化背景的消费者时，模型会自动调整表达方式：对部分用户强调“成分安全”，对另一些用户突出“皮肤状态改善”，甚至会根据平台风格生成更“口语化”或更“专业化”的表述。这种个性化能力让广告不再是一成不变的模板，而是根据消费者的需求实时改写，提升广告的“相关性感知”。在投放阶段，LLM还帮助广告主进行更精细的预算分配。例如，当系统检测到某广告组出现点击疲软时，模型会分析可能的语义原因（如表述过度夸张、缺乏具体价值点等），并自动建议更适合当前用户状态的创意版本。对于预算紧张的广告主，系统甚至可以预测某些文案可能带来更高CPC（成本每点击）风险，提示品牌在“曝光”“吸引力”“成本”之间做更精细的权衡。用户的感受因此发生了变化。许多用户反馈，在安装新应用后看到的广告变少了，但看到的那些内容却更“懂自己”。整体来看，该案例展示了LLM在广告行业从“内容分析—创意生成—个性化投放—预算优化”全流程中的应用价值。它不仅帮助广告主减少无效曝光，也让广告更贴近消费者的真实需求，为移动广告行业迈向“内容智能化”提供了一个切实可行的示范。实践案例结构化数据(StructuredData)：结构化数据是指格式整齐且高度组织化的数据，它既可以被存入表格和电子表格，也可以较为轻松便捷地被研究者使用。非结构化数据(UnstructuredData)：非结构化数据是指无法被归类于某一预先设定的数据框架，因此无法被存放于传统数据库的数据。文本和音频、视频等多媒体数据是两类最常见的非结构化数据。计算文本分析(ComputationalTextAnalysis，CTA)：计算文本分析又称量化文本分析、自动化文本分析、文本挖掘等，旨在充分利用自然语言处理技术和机器学习方法

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

管理研究方法：理论、前沿与操作（第2版）课件 第11章 大数据文本分析法

文档简介

温馨提示

最新文档

评论

相关文档

管理研究方法：理论、前沿与操作（第2版）课件第11章大数据文本分析法