管理研究方法:理论、前沿与操作(第2版)课件 第11、12章 大数据文本分析法、社会网络分析法_第1页
管理研究方法:理论、前沿与操作(第2版)课件 第11、12章 大数据文本分析法、社会网络分析法_第2页
管理研究方法:理论、前沿与操作(第2版)课件 第11、12章 大数据文本分析法、社会网络分析法_第3页
管理研究方法:理论、前沿与操作(第2版)课件 第11、12章 大数据文本分析法、社会网络分析法_第4页
管理研究方法:理论、前沿与操作(第2版)课件 第11、12章 大数据文本分析法、社会网络分析法_第5页
已阅读5页,还剩175页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第十一章:大数据文本分析讲课人:XXX目录CONTENTS1234大数据文本分析概述大数据文本分析流程大数据文本分析实际操作和软件示例大数据文本分析在研究中的应用大数据文本分析概述01一、大数据时代文本数据的价值大数据文本信息特征:4V高容量(volume)、多样性(variety)、高速度(velocity)和价值型(value)。2022年全球大数据文本储量将达61.2ZB(泽字节,代表的是十万亿亿字节)文本数据作为人类思想、情感、观点及态度的基本载体之一,包含丰富且复杂的信息。以自然语言处理(NaturalLanguageProcessing;NLP)为核心的计算机文本分析技术(ComputationalTextAnalysis)的发展为契机,在管理实践及研究中展开大数据文本的分析成为可能。能够充分认识到大数据时代文本数据的价值,并掌握相应的方法对文本大数据展开挖掘和利用,不仅可以指导企业实践,也可以丰富管理学、心理学、组织学和社会学等领域的现有理论,增进我们对于个体和群体的认知及决策的理解。二、大数据文本分析方法的分类及原理基于对语言的理解层次(即是否关注文本的语义信息),现在常用的大数据文本分析方法可分为两类:基于词频和基于语义主流文本分析方法及分类二、大数据文本分析方法的分类及原理(一)基于词频聚焦于“词”(word)这一最小的文本单位,通过对文本中词语的使用“频率”展开量化统计,揭示语言使用与上述特征之间的关系,从而达到理解文本的目的。操作简单、门槛低、(二)基于语义(较好的准确度与灵活性)主题模型

通过当前文本中词组之间的内在属性和联系,将词组自动分成预先设定好数量的K个类别(即“主题”),并由研究者自行概括、提炼得到每一类词组所反映的主题内涵。词嵌入

把高维空间嵌入一个维数低得多的连续向量空间的技术,可以通过语义生成向量,避免稀疏矩阵带来的“维数灾难”。大数据文本分析流程02大数据文本分析流程大数据文本分析的四项基本流程

大数据文本分析流程(一)文本收集用户生成文本(user-generatedtext)

用户动态、消费者评论等营销人员生成文本(marketer-generatedtext)

广告文案、众筹平台信息等大数据文本文本数据的获取途径:由官方机构或个人初步整理并公开的文本数据库,如Github综合网站等。借助“爬虫”程序收集文本数据。

大数据文本分析流程(二)文本预处理目的:对所收集的原始文本数据进行清洗和整理,并进一步转化为后续文本分析工具能够识别和处理的规范化格式。文本预处理步骤文本清洗在规范化格式基础上移除与内容无关的标点符号、特殊字符、图片等。文本分词将长文本单位(文档或段落)拆分成“词”这一最小语义单位。去除停用词去掉缺乏实际含义的功能词,如冠词、人名和固定格式的词汇等。文本规范化将文本词汇转化为标准形式,包含检查拼写、提取词干和词义还原。(三)文本特征学习词汇(实体)特征(entityextraction)主题特征(topicextraction)关系特征(relationextraction)词汇(实体)特征(entityextraction)

词汇的含义及使用习惯反映了个体心理或社会集体文化等信息,能够反映众多实体概念的特征。将文档拆解为词汇或词组的列表形式后,通过计算特定类别范畴的词汇数量及其在文本中的占比能够为研究人员提供“创作内容”(写什么)和“语言风格”(怎么写)两大特征线索.主题特征(topicextraction)

指文本中的部分词汇集合能够表达某项共同的主题或相同的构念,有助于我们理解大数据文本的潜在结构。主题特征由主题分布和主题词列表来共同描述。

大数据文本分析流程

大数据文本分析流程(三)文本特征学习主题模型工作原理和结果示意图

大数据文本分析流程关系特征(relationextraction)特定词的相似使用以及词的共现分布能刻画词语、文档和目标主体之间的关系特征。通过不同主体的语言使用规范,可以刻画语言风格的相似特征,进而推断主体之间的关系质量、社会地位甚至文化适应(enculturation)现象。(三)文本特征学习“词嵌入”技术对词汇的向量表征结果(三维)示意

大数据文本分析流程(四)效度分析构念效度构建目标变量需要确保变量的度量方法能准确反映构念的特征。结果效度确定大数据文本分析结果是否有效,通常有两种:与真实的调查数据或实验结论对比和与其他成熟的研究方法对比。因果效度对于文本数据中的其他噪声干扰(confoundingbias)引发的内生性问题应根据研究目标进行控制。大数据文本分析实际操作和软件示例

03(一)软件安装前往Anaconda官方网站()选取并下载对应版本;完成下载后,启动安装程序,按照指示步骤进行勾选与点击;完成安装,启动Anaconda-Navigator以检验安装是否成功;Anaconda-Navigator主页面找到JupyterNotebook。一、Python与自然语言处理(二)自然语言库模块:指包含Python定义和语句的程序文件,是规模较小的代码;包:可用来组织模块并提供一个命名层次,是若干模块的集合;库:指完成一定功能的代码集合,由诸多函数、模块和包组成,可供用户直接调用。Python包含标准库(直接import)+第三方库(安装后import)一、Python与自然语言处理(二)自然语言库结巴(jieba)分词SnowNLPHanLPLTP语言技术平台StanfordNLPGensimSklearn一、Python与自然语言处理(二)自然语言库结巴(jieba)分词SnowNLPHanLPLTP语言技术平台StanfordNLPGensimSklearn一、Python与自然语言处理(一)中文语料预处理第一步,数据导入第二步,语料清洗二、文本处理及软件实操(一)中文语料预处理第三步,中文分词第四步,停用词去除二、文本处理及软件实操(二)中文文本表示——开源词向量介绍中文词向量语料库(ChineseWordVectors)腾讯AILab中文词向量百度AI开放平台二、文本处理及软件实操(二)中文文本表示——词向量使用示例词向量数据加载词向量应用二、文本处理及软件实操(三)文本信息提取词典法词典的选择与构建词频统计词语权重的选择主题模型整合文档数据并进行预处理准备Dcoument-Term(文档-词条)矩阵创建LDA模型对象并训练文本分类文本分类简介文本分类的技术与实现二、文本处理及软件实操(1)词典的选择与构建中文常用情绪词典:大连理工大学中文情感词汇:解决多类别情感分类、一般的倾向性分析的问题台湾大学NTUSD简体中文情感词典:基于文本情感二元划分方法,通常作为一种基础知识中文语义知识库:知网(HowNet):应用于语义分析、语料库语义标注以及意义排歧等其他资源:清华大学李军中文褒贬义词典1.词典法(2)词频统计第一步,读取并输出词典数据输出前10行了解大致结构1.词典法(2)词频统计第二步,正负情感分析依据词典中各个词语的情感分类规则:分为“乐”、“好”、“怒”、“哀”、“惧”、“恶”、“惊”7大类,以及“PA”、“PE”、“NB”、“NJ”等21小类。首先把词语纳入各个情感小类,然后将其通过情感大类归为积极或消极情感词,以对文本进行正负情感分析1.词典法(2)词频统计第三步,定义词频统计函数统计并输出文本对象的长度及其积极情感词语数量、消极情感词语数量以及原词典所划分的7大类别情感词语数量1.词典法(2)词频统计第四步,输出结果运用定义的词频统计函数对指定文本进行分析1.词典法(3)词语权重的设定等权重假定文本中每个词语的重要程度相同词频-逆文档(TF-IDF)加权同时考虑词语在文本中出现的次数(频率)和多少文档包含该词语这两个维度,对在文本中频繁出现但并没有实际含义的词语赋予较少的权重、而给予有重要含义但出现次数较少的词语较大权重对应变量加权借用文本中词语与对应变量(例如,市场收益率、波动率指数等)的关系来确定词语的权重利用第三方工具包Sklearn,jieba(结巴中文分词)以及Gensim等可实现TF-IDF算法1.词典法第一步,整合文档数据并进行预处理2.主题模型第二步,准备Dcoument-Term(文档-词条)矩阵2.主题模型第三步,创建LDA模型对象并训练2.主题模型(1)文本分类简介文本分类的定义是一个典型的监督学习任务:人工标注文档类别,利用分类语料训练模型,通过模型预测文档类别。文本分类的基本过程文本预处理清洗文本、分词及去除停用词等文本表示主要有空间向量模型、布尔模型、概率检索模型等文本分类的特征选择和提取从向量空间中抽取最有效、最具代表性的词汇作为文档的特征向量训练分类器运用分类技术,如支持向量机、决策树、神经网络等算法进行分类分类结果评价依据衡量分类器性能的指标判断分类器好坏3.文本分类3.文本分类(2)文本分类的技术与实现朴素贝叶斯分类最近邻居分类支持向量机分类一种机器学习算法,它通过在样本空间中找到一个超平面,将不同类别的样本分开,同时使得两个点集到此平面的最小距离最大,两个点集中的边缘点到此平面的距离最大,从而确定一个稳健的决策边界。支持向量机(SVM)具有通用性强以及有效占用内存的优势。第一步,使用内置数据集加载来加载新闻组集合;第二步,将文本内容转化成数值形式的特征向量,从文本文件中提取特征;借助sklearn库实现支持向量机(SVM)算法第三步,训练支持向量机(SVM)分类器,预测某一帖子所属类别借助sklearn库实现支持向量机(SVM)算法大数据文本分析在研究中的应用04(一)基于已有成熟词典Dodds等(2011)收集了上世纪六十年代至本世纪初期间的流行歌曲的歌词、2005年至2009年的博客文本和历届美国总统的演讲发言,并将语料划分为不等时段,通过ANEW情感词典进行分析,以衡量美国社会“幸福感”的变化。Obschonka等(2017)着眼于106位企业家的社交媒体文本,并利用LIWC词典对“大五人格”、“成就导向”、“社交风格”的词汇定义构建了“创业精神”的综合指标。Boyd等(2020)则使用词典中的“虚词”和“认知处理”类词汇(如“think”,“believe”,“cause”),分析了科幻小说、电影脚本、学术文章和法院意见等多类型语料的叙事结构。通过比较文章各个板块对上述两类词汇的使用频率,他们发现“背景-情节-高潮”的基本叙述方式,继而探讨了叙述结构与文本受欢迎度(评分、引用等指标)的潜在关系。(二)开发词典定义词汇特征Paetzold和Specia(2016)建立了MRC心理语言学词库,并整理了85000多项英文词汇的“具像性”评分。Zhou等学者(2018)分析了市面上各种软件迭代的描述文本和产品对应版本的用户评论。并用TF-IDF技术从评论提取了一系列关键词来组成市场用户的需求(词典),实现了对企业“需求响应水平(customeragility)”指标的测量,进而探究了变量的“前因”和“后果”。一、基于词汇特征的大数据文本分析研究Narang(2022)利用LDA主题模型抽取了12000多条线上课程论坛讨论中的两类关键词,分别代表“表达身份”和“表达创意”的主题。He(2021)利用贝叶斯文本分类器提取出真假评论下最具代表性的词汇内容。为提高人工构建词典的可靠性。Mckenny(2013)等学者总结了构建词典的一般流程以及验证方法。人工构建目标构念词典的基本过程和评估方法(一)用于隐含结构/关键内容的挖掘Wang等(2015)分析了“JournalofConsumerResearch(消费者研究)”学术期刊创立以来在研究方向上的演变轨迹。作者收集了1974~2014年间1875篇文章的摘要,并利用LDA模型挖掘出16个研究主题。(二)用于文化产品分析Berger和Pakard(2018)收集了2014~2016年间在美国公告牌(Billboard)上排行前50名的歌曲歌词,该语料包含了七种歌曲流派的1879首歌及其排行数据,分析了什么样的歌曲更容易受欢迎。Ryoo(2020)收集了2013~2017年间上映的993部电影的影评文本,并利用主题模型从含有剧透标签的评论中提取23个与情节相关的主题,验证了剧透对电影销售的积极影响。(三)用于政策效果评估Puranam等(2017)结合“双重差分”的因果分析方法,先分析了当地九千多家连锁餐馆的线上评论在2004年至2012年内的主题变化,又另外分析了当地自营餐馆的线上评论在此期间的主题变化,探讨了2008年纽约市要求连锁经营的餐厅需标注食物热量的政策对广大消费者的饮食健康认识是否存在实质影响。二、基于主题特征的大数据文本分析研究(四)用于人格心理分析Park(2015)认为心理咨询文本、线上交流论坛和社交媒体动态是分析个体情绪状态、心理健康的极佳资料,还可以了解创作者画像并预测个体的行为倾向。Netzer等(2019)利用主题特征来预测个人的贷款违约行为,并在某集资网站上的12万条贷款申请文本和违约数据上进行验证。作者发现包含“家庭”、“艰辛”、“未来”等主题的申请标志更高的违约率。Toubia等(2019)从电影简介里提取了反映于电影作品内的96个人格心理相关的主题,并基于这些特征预测了观众的观看偏好、票房收入。(五)用于商业交易预测Chen等(2021)考察了共享经济平台上商家与用户间的双向选择机制。基于该模型,作者爬取了Airbnb租赁平台上截止2016年的用户信息、租房信息和双边评论,随之提取了来自商家和用户各自评论下的主题结构。结合房屋租赁的历史结果,结果表明共同的主题内容能预测线上交易的成功率。(一)跨文本的词汇使用相似性中的文本关系线索Ireland和Pennebaker(2010)基于对话文本中的词汇使用习惯来构建创作者双方的语言风格匹配(LanguageStyleMatch;LSM)变量,并用于人物关系以及人格特质的分析。Danescu-Niculescu-Mizil等(2012)分析了24万条来自编辑社的谈话记录和美国法院的辩论文本。通过对比双方谈话轮之间的词汇表达,作者发现语言协调现象与个体的权力差异存在关联,地位势力相对低的人会更主动地学习别人的语言风格。Kovacs和Kleinbaum(2020)基于语言风格相似性的度量方法构建了社交关系网络的形成路径。(二)文本内词汇的共现模式中的文本关系线索(“词嵌入”技术的使用)Caliskan等(2016)利用GloVe词嵌入模型研究了人们对诸如“科学-男性”vs.“艺术-女性”的内隐联想,并发现基于网络大型语料的分析结果与其它方法产生高度且一致的结论。Garg等(2018)为探讨美国社会的刻板印象,收集了1900~1990年间的纽约时报、谷歌新闻、谷歌图书三大语料库。在使用词嵌入技术获得词向量表征的基础上,他们分别测量了“男性”与“女性”、“白人”与“少数裔群”与“能力”和多种职业的语义距离关系。结果发现,美国社会的性别和种族偏见随民权运动有所改善。三、基于关系特征的大数据文本分析研究Boghrati和Berger(2020)利用Word2Vec技术度量了1965年至2018年近60年的流行歌曲歌词中的厌女(misogyny)现象。(三)基于词的嵌入特征的多种主体关系刻画Rheault和Cochrane(2019)收集了一个多世纪以来各国的议会会议记录,并分别计算了美国民主党、共和党与“自由-保守”、“北部州-南部州”两项意识形态维度的相对距离,以此揭示党派间的政治关系。Berger等(2016)将“词嵌入”思想用于学术文章里引证文献的表征上,通过这些文献的上下文特征构建了学术界诸多研究学者和引证文章间的关系网络。Wei(2021)分析了众筹平台上同类项目之间的内容相似度,发现把控模仿与创新间之的平衡对新的众筹项目结果有影响。众筹项目的内容相似性网络示意Wang等(2021)收集了亚马逊平台上多个品牌的73万条评论,从中识别了市场的具体属性感知(engineered-attributes),随之利用“词嵌入”从一众属性的内部层级关系中抽象出七大元属性(meta-attributes)。结合评论的情感线索,可以对各品牌进行市场的定位评估。Toubia等(2021)利用“词嵌入”创新性地度量了“叙事性”概念。作者对文本段落的向量化表征。在计算了相邻文本段落间的语义距离基础上,度量了叙事节奏快慢、涉及的内容主题范围、叙述方式是否迂回的三种特征。进一步在大规模的电影脚本、电视节目剧本、学术文章语料上分别探索了三种叙述特征与文化产品的成功性的关系,发现受欢迎的故事的展开方式存在显著差异。Xu等(2020)用相似的思路研究了互联网环境下的“信息茧房”问题。她们获取了10万手机用户的线上浏览行为数据,并利用Doc2Vec的方法将用户的浏览内容表征为向量空间中的“点”,最后串联起每个用户在不同时间节点的活动轨迹。网络用户的线上活动空间及浏览轨迹(一)方法选择Carlson和Burbano(2025)在研究Kickstarter项目中“是否具有社会效益”这一抽象构念时,发现人工编码不仅成本高,而且在跨行业文本中存在一致性问题,他们通过LLM的零样本分类方式标注70,000余个项目文本,并将其用于后续的筹资成功率分析。研究表明,LLM在理解“社会影响”“公共利益”等隐含语义特征方面显著优于关键词法。在市场营销领域,Sarstedt等(2024)探讨“硅基样本(siliconsamples)”作为问卷替代者的可行性,通过让GPT-4模拟消费者对广告刺激的态度反应,发现模型生成的开放式回答在情绪特征与主题分布上与真实消费者高度接近,从而展示LLM在情感类构念编码中的潜力。(二)模型选择与稳定性Ziems等(2024)在分析25个社会科学任务时比较了13个主流模型,包括GPT-4、Claude与Llama2。他们发现模型之间的差异会系统影响研究结果。Choi、Menon与Tabakovic(2021)在研究企业多元化文本分类任务时发现,模型的稳定性直接影响企业战略类型的识别精度。四、在人工智能背景下的大数据文本分析:LLM的方法变革(三)提示工程提示工程的设计深刻影响模型对构念的理解方式。Wei等(2022)通过少样本示例提升模型对创新性的判断精度,表明提示中的参照样例能够帮助模型形成更稳定的语义边界。Reisenbichler、Reutterer与Schweidel(2025)在搜索广告内容生成中发现,通用LLM在缺乏上下文指令时表现有限,而基于关键词体系、LandingPage内容和广告风格构建的结构化提示能够显著提升输出质量。(四)成本与规模评估Carlson和Burbano(2025)指出,不同提示形式(如思维链提示)在Token消耗上的差异可能在大样本下造成数倍成本差异,因此在早期设计阶段进行成本预测十分必要。Netzer等(2019)采用“分层初筛+精细模型”的方式降低总体调用次数,展示了混合策略在控制成本的同时保持标注质量的有效性。(五)验证与稳健性检验Carlson和Burbano(2025)发现,不同提示产生的“社会效益”标签在后续统计分析中可能导致回归系数方向反转,说明验证不仅需要比较准确率,还需检验变量与结果之间的结构关系。胡楠、薛付婧与王昊楠(2021)在构建“管理者短视主义”文本指标时,通过人工编码与模型输出的交叉比对,对变量的构念效度与结果效度进行了系统检验,并利用多种统计模型进行稳健性分析,体现了跨方法一致性对于因果推论的重要性。以领先NLP技术构建AI数字疗法体系,聆心智能致力于解开更多“心结”到社会重视。但精神科医生和心理咨询师却存在巨大缺口,导致大部分需要专业心理帮助的人“求助无门”。如今,随着AI心理技术的出现,心理医生短缺的现状有望迎来转变。“我和女朋友分手了,心情不好。”“分手一定很难过,那你现在有什么想说的或者想做的吗?”以上对话就来自于寻求心理帮助的用户与一款名为emohaa的AI情绪对话机器人,这段看似简单的对话包含了探索、共情、安抚、提供建议等心理咨询过程。2020年下半年开始,受到“疫情导致大众心理压力上升”的逻辑催化,心理健康赛道的节奏有了明显的加快。同时,由于精神心理医疗资源以及心理咨询服务供给侧的高度紧缺,人工服务的解决思路并没有完全解决问题,因此行业便开始看向AI。2021年,数字疗法及AI心理赛道获得频繁融资,成为风口。国内人工智能-自然语言处理领域专家、清华大学计算机科学与技术系副教授黄民烈2021年创办人工智能心理健康企业“聆心智能”,通过建立先进的AI数字疗法体系,为临床患者和广大心理亚健康人群提供高质量、低成本、个性化、全天候的情绪支持、心理咨询和干预方案,为用户提供更科学、高效的精神健康服务。上面提到的emohaaAI情绪对话机器人就是由聆心智能自主研发而成的。除emohaa之外,公司还开发了心理咨询服务线上平台聆心悠然、AI数字疗法App聆忧,为不同需求层次的用户提供服务。黄民烈教授表示:“最新的流行病学调查显示,精神障碍人群大约占到整个人群的16~17%。精神健康是我们面对的核心议题,但我国仅有不足五万的专业心理咨询师从事心理咨询行业的专兼职工作,精神科医生更是少之又少。这中间巨大的供需差距可以通过人工智能技术和相应的产品来补充。”实践案例然而,当前国内外心理领域AI对话机器人及数字化干预疗法的玩家主要以CBT(CognitiveBehaviouralTherapy认知行为疗法)为范式,原因在于CBT拥有高度结构化的特征,天然存在数字化的可能性。但是如果只有CBT数字化疗程,AI就是一个硬邦邦、冷冰冰的对话机器,当用户对CBT疗程话术感到不适应、或者不适合CBT疗法时,AI心理机器人通常需要搭配其他解决方案或者情绪话术为用户提供更好的使用体验。聆心智能致力于突破当前AI心理行业仅以CBT数字化疗程为主的现状,促进机器人对用户情绪状态的区分和识别,并且针对用户的每种状态给予丰富的回应策略,比如表达支持、赞同、情绪映射、复述、自我暴露和及时反馈等策略,达到情绪支持。其中,自然语言处理在聆心智能所提供方案的不同节点都起到了关键作用。比如,通过自然语言对话系统能够对用户不同层级的需求予以满足,包括但不限于情绪、陪伴、给予建议等等。在辅助诊疗方面,通过自然语言处理相关技术,将用户的输入信息处理为符合精神心理诊断体系的计算机符号表达,并且将该表达与医学专业诊断之间的关联和映射为理解用户输入提供底层架构上的支持。最后,在数字疗法-数字药的开发方面,自然语言处理一方面作为理解用户需求的最基本工具,结合与其需求相契合的循证算法模型,为用户提供医学上最有用的数字疗法解决方案;另一方面,自然语言处理技术本身在生成模型上就带有了情感支持的能力,因此本身也会作为数字疗法的一个组成部分,目前,这是市场上所独有的技术。实践案例利用大型语言模型提升移动广告投放精度,Adjust推出智能创意分析与投放优化方案移动互联网时代,消费者每天被动接触广告素材的数量动辄上百条,其中相当比例与自身需求无关,甚至影响使用体验。过去,广告投放往往依赖粗放的用户分层与人工经验制作创意,导致用户看到“毫不相关”的广告极为普遍。例如,一位只想查看天气的用户,却被算法反复推送游戏广告;一位已经购买某类产品的用户仍会持续收到相同商品的促销信息。消费者对于“广告疲劳”的抱怨不断增加,也使广告主为此付出更高的预算成本却收效不佳。在这样的背景下,Adjust借助大型语言模型(LLM)构建了一套“智能广告创意分析与投放优化系统”,尝试让广告真正“理解用户”,而不是简单“广播式投放”。该系统从消费者视角出发,通过深入分析广告文本内容如何影响用户感受,帮助品牌制作更贴近用户语境、更具说服力的广告文案。首先,系统会采集历史广告素材与真实曝光结果,利用LLM对文本进行语义拆解。例如,在评估一条“手游广告文案”时,模型不仅识别其中的关键词(如“冒险”“奖励”“限时挑战”),还会理解广告的情绪色彩、叙事风格与潜在说服逻辑。随后,将这些语言特征与真实CTR(点击率)、CVR(转化率)进行关联,判断哪些语义元素更能引发用户兴趣。以游戏行业为例,模型发现用户更容易被“短时反馈”“奖励体验”类词语吸引,而电商广告中,“真实评价”“快速配送”则更能建立信任感。实践案例在处理内容生成时,LLM会根据用户所在地区、语言偏好以及浏览情境生成不同“个性化版本”的文案。例如,同一款护肤产品,面对不同文化背景的消费者时,模型会自动调整表达方式:对部分用户强调“成分安全”,对另一些用户突出“皮肤状态改善”,甚至会根据平台风格生成更“口语化”或更“专业化”的表述。这种个性化能力让广告不再是一成不变的模板,而是根据消费者的需求实时改写,提升广告的“相关性感知”。在投放阶段,LLM还帮助广告主进行更精细的预算分配。例如,当系统检测到某广告组出现点击疲软时,模型会分析可能的语义原因(如表述过度夸张、缺乏具体价值点等),并自动建议更适合当前用户状态的创意版本。对于预算紧张的广告主,系统甚至可以预测某些文案可能带来更高CPC(成本每点击)风险,提示品牌在“曝光”“吸引力”“成本”之间做更精细的权衡。用户的感受因此发生了变化。许多用户反馈,在安装新应用后看到的广告变少了,但看到的那些内容却更“懂自己”。整体来看,该案例展示了LLM在广告行业从“内容分析—创意生成—个性化投放—预算优化”全流程中的应用价值。它不仅帮助广告主减少无效曝光,也让广告更贴近消费者的真实需求,为移动广告行业迈向“内容智能化”提供了一个切实可行的示范。实践案例结构化数据(StructuredData):结构化数据是指格式整齐且高度组织化的数据,它既可以被存入表格和电子表格,也可以较为轻松便捷地被研究者使用。非结构化数据(UnstructuredData):非结构化数据是指无法被归类于某一预先设定的数据框架,因此无法被存放于传统数据库的数据。文本和音频、视频等多媒体数据是两类最常见的非结构化数据。计算文本分析(ComputationalTextAnalysis,CTA):计算文本分析又称量化文本分析、自动化文本分析、文本挖掘等,旨在充分利用自然语言处理技术和机器学习方法对文本数据展开研究。自然语言处理(NaturalLanguageProcessing,NLP):自然语言处理作为机器学习和语言学相结合的领域,关注于讨论如何处理及应用自然语言等问题。目前其主要的研究领域包括文本理解、情感分析、文本分类、信息检索与抽取、文本生成、对话问答系统与机器人、命名实体识别、摘要生成、机器翻译、语音识别与合成等。关键术语主题模型(TopicModel):主题模型是一类自然语言处理中用来在文本集合中发现抽象主题的统计模型。潜性狄利克雷分配模型(LatentDirichletAllocation,LDA)是最常见的主题模型,其他主题模型往往是在LDA的基础上改进的。词嵌入(WordEmbeddings):词嵌入是一类自然语言处理中用来实现表征学习的技术。从概念上而言,它是指把一个维数为所有词的总数的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组都被映射为实数域上的向量。关键术语1.什么是大数据文本分析,谈一谈大数据文本分析对于管理研究的价值。2.主流文本分析方法有哪些,结合各个方法的基本思想分析其优势和劣势。3.大数据文本分析的流程是什么,学习使用文本分析工具。4.管理研究如何应用大数据文本分析方法的,研读并梳理相关文献。5.列举大数据文本分析的商业实践案例。讨论题[1]李航.统计学习方法.北京:清华大学出版社,2019.[2]曾剑平.互联网大数据处理技术与应用.北京:清华大学出版社,2017.[3]Aggarwal,C.C.Machinelearningfortext.Cham:Springer,2018.[4]Berger,J.,Humphreys,A.,Ludwig,S.,Moe,W.W.,Netzer,O.,andSchweidel,D.A.UnitingtheTribes:UsingTextforMarketingInsight.JournalofMarketing,2020,84(1):1–25.[5]Humphreys,A.,andWangR.Automatedtextanalysisforconsumerresearch.JournalofConsumerResearch,2018,44(6):1274-1306.[6]Sikström,S.,andGarcia,D.Statisticalsemantics:Methodsandapplications.SpringerNature,2020.[7]Zhai,C.,andMassung,S.Textdatamanagementandanalysis:apracticalintroductiontoinformationretrievalandtextmining.Morgan&Claypool,2016.推荐阅读材料谢谢第12章:社会网络分析法讲课人:目录CONTENTS1234社会网络分析概述社会网络分析的主要步骤社会网络分析实际操作和软件示例社会网络分析在研究中的应用社会网络分析概述011.1社会网络的内涵社会网络(Socialnetwork):一组行动者(actors)及一组连接行动者的关系纽带(ties)的集合1以节点代表行动者:行动者(即网络成员)可以是网络中的任何社会单位或实体,例如个体、群体、组织或者国家。以节点之间的连线代表关系纽带:关系纽带通常被概念化为一组社会关系,代表网络成员之间的特定联系1BrassDJ,ButterfieldKDandSkaggsBC.Relationshipsandunethicalbehavior:Asocialnetworkperspective.AcademyofManagementReview,1998,23(1):14-31.1.1社会网络的内涵爵士乐队的协作网络示例图21边的长短不代表关系频率或远近亲疏(即无权网络),社会关系强度可以通过构建加权网络表示2GleiserP,DanonL.Listofedgesofthenetworkofjazzmusicians.AdvancesinComplexSystems,2003,6:565198支爵士乐队的协作网络1每个节点代表一支爵士乐队每条边表示两个乐队之间的协作关系,即两个乐队至少有一个共同的音乐家。1.1社会网络的内涵1MarinA,WellmanB.Socialnetworkanalysis:Anintroduction//TheSAGEHandbookofSocialNetworkAnalysis,SAGEpublications,2011:11-25.社会网络分析socialnetworkanalysis:一种观察社会行动者之间的关系及关系模式的范式1,重点是对社会行动者所构成的关系网络的可视化、测量和分析。

1.2社会网络分析的概念界定社会网络分析定义为一种社会科学范式,是由一系列普遍采用的方法、多个理论和实质性经验研究所构成,能够指导研究者收集和组织社会行为数据并开展分析。

社会网络分析定义为一种社会科学范式1,是由一系列普遍采用的方法、多个理论和实质性经验研究所构成,能够指导研究者收集和组织社会行为数据并开展分析。定量社会网络分析是社会网络研究的主流2,但社会网络分析还应关注定性方法,挖掘网络的“故事”和“文化”,通过叙述的方式(访谈、对话分析、文件分析和参与者观察等),建构社会现实3121ScottJ,CarringtonPJ.TheSAGEHandbookofSocialNetworkAnalysis.SAGEpublications,2011.2FreemanL.Thedevelopmentofsocialnetworkanalysis.AstudyintheSociologyofScience,2004,1(687):159-167.3FuhseJ,MützelS.Tacklingconnections,structure,andmeaninginnetworks:quantitativeandqualitativemethodsinsociologicalnetworkresearch.Quality&Quantity,2011,45(5):1067-1089.1.2社会网络分析的概念界定社会网络分析定义为一种社会科学范式,是由一系列普遍采用的方法、多个理论和实质性经验研究所构成,能够指导研究者收集和组织社会行为数据并开展分析。

社会网络分析可“静”可“动”,早期社会网络研究更多关注网络的意义而非成因,且纵向数据收集难度高,动态研究在网络研究中较少出现。未来探究网络形成和演变的社会网络动态研究将成为趋势。社会网络分析不能得到“放之四海而皆准”的结论,社会网络不能脱离情境而存在,解读社会网络分析结果必须紧密结合网络的情境。341.3社会网络分析的用途探究网络成因社会结构是行动者之间联系和交互的产物,社会网络分析可以探究网络的形成和演变的原因用途理解网络影响网络结构及其属性创造了行动的机会和限制条件,社会网络分析可以帮助解答什么样的社会网络会导致特定的结果

社会网络分析的主要步骤022社会网络分析的主要步骤问题提出数据收集社会网络构建明确社会网络分析指标结果解读2.1

问题提出表现差异社会同质连接主义关注社会联系如何解释不同行动者的表现,强调社会关系为网络中的个人提供的行动机会和可能性强调联系的结构或配置,忽略联系的内容,专注联系的模式,通过行动者的网络位置来解释社会现象

关注社会联系如何解释不同行动者的态度、信仰和实践的相似性关系纽带被视为信息和知识等资源流动的渠道,将行动者的成功归因于由其角色的联系所带来的资源,通过关系的性质和质量来解释社会现象社会网络研究视角结构主义

2.1

问题提出结构资本问题环境塑造问题资源访问问题社会传播问题结构主义连接主义社会同质表现差异特定的关系结构如何影响行动者的行为表现?何种网络条件会催生不道德行为?网络环境如何对成员施加同质性影响?社会联系如何塑造用户社交媒体网络的形成和特征?行动者如何访问网络并从中受益?在知识共享网络中,项目团队如何从业务部门获得更多的知识?资源如何通过网络传播对行动者产生同质性影响?情绪如何沿着社会网络进行传播?四类社会网络研究问题11BorgattiSP,FosterPC.Thenetworkparadigminorganizationalresearch:Areviewandtypology.JournalofManagement,2003,29(6):991-1013.2.2数据收集Clickheretoaddyourtext.Clickheretoaddyourtext.Clickheretoaddyourtext.Clickheretoaddyourtext.Clickheretoaddyourtext.Clickheretoaddyourtext.Clickheretoaddyourtext.Clickheretoaddyourtext.Clickheretoaddyourtext.Clickheretoaddyourtext.Clickheretoaddyourtext.Clickheretoaddyourtext.Clickheretoaddyourtext.Clickheretoaddyourtext.Clickheretoaddyourtext.(一)社会网络应该包含哪些行动者?位置法:正式团队的成员作为参与人声望法:有声望的信息提供者划定参与人限定网络成员的属性01指定社会关系类型02参与特定事件关系法:由行动者提名与其有特定关系的其他行动者作为参与人03事件法:定义事件,选择与事件相关的个体作为参与人常见的网络研究范围界定方法11LaumannEO,MarsdenPVandPrenskyD.Theboundaryspecificationprobleminnetworkanalysis.ResearchMethodsinSocialNetworkAnalysis,1989,61-87.2.2数据收集Clickheretoaddyourtext.Clickheretoaddyourtext.Clickheretoaddyourtext.Clickheretoaddyourtext.Clickheretoaddyourtext.Clickheretoaddyourtext.Clickheretoaddyourtext.Clickheretoaddyourtext.Clickheretoaddyourtext.Clickheretoaddyourtext.Clickheretoaddyourtext.Clickheretoaddyourtext.Clickheretoaddyourtext.Clickheretoaddyourtext.Clickheretoaddyourtext.(二)如何收集社会网络数据?常见的社会网络数据收集方法向受访者询问与之相关联的人员信息【某段时间】你通常与谁一起【做某件事】?他的【基本信息】你知道吗?你和这个人关系怎样?还有其他人吗?【联系人1】知道【联系人2】吗?询问受访者特定社会关系的联系人信息在你的亲戚、朋友、熟人中,有从事【某种】工作的人吗?你和这个人关系怎样?询问具备某种资源或能力的联系人信息你知道谁【具备某种资源或能力】吗?你和这个人关系怎样?提名法定位法资源生成法2.2数据收集(二)如何收集社会网络数据?““测验-再测验”法对受访者两次作答的名册匹配,比较两者不一致的程度,可与受访者进行确认和纠错基于Jaccard系数的信度计算两次提名中同时提及的人数,除以两次提名中不重复的总人数多来源数据对比基于互惠率的效度计算可以计算联系双方都提及该联系的比率表示关系题项的效度数据质量保障方法多来源数据对比通过多来源的数据比较数据的不一致程度收集客观网络数据,避免主观数据偏差2.3社会网络构建(一)图示法社会网络的分类:关系是否具有方向性:有向网络vs.无向网络关系是否体现强度差异:加权网络vs.无权网络社会网络的图示法表示示例源顶点目标顶点权重AB4AC3CD2DB1DE1EA12.3社会网络构建

对应的邻接矩阵边列表2.4明确社会网络分析指标节点级分析对节点所处的网络位置的分析网络级分析对社会网络整体结构及特征的分析2.4.1节点级分析

度每一个节点直接相连的边数有向图:考虑边的方向,分为入度和出度加权图:与该节点关联的边的权重之和各点度数:A:9B:10C:9D:25E:32.4.1节点级分析

最短路径长度两点之间边数最少的路径加权图:成本型网络中最短路径长度等于权重之和的最小值,效率型网络中最短路径长度等于权重倒数之和的最小值两点间的最短路径长度:d(A,B)=1d(A,C)=1d(A,D)=(A,C)+(C,D)=2d(B,A)=(B,C)+(C,D)+(D,A)=3,d(B,C)=1,d(B,D)=(B,C)+(C,D)=2,d(C,A)=(C,D)+(D,A)=2,d(C,B)=(C,D)+(D,A)+(A,B)=3,d(C,D)=1,d(D,A)=1,d(D,B)=(D,A)+(A,B)=2,d(D,C)=(D,A)+(A,C)=22.4.1节点级分析

局部集聚系数三元组开放三元组:三点之间有两条关系连接闭合三元组:三点之间有三条关系连接三元闭包推理1(朋友的朋友也倾向于成为朋友)对于开放三元组BAC,BA和CA关系存在,就有形成新的关系BC的趋势1OpsahlT.Triadicclosureintwo-modenetworks:Redefiningtheglobalandlocalclusteringcoefficients.SocialNetworks,2013,35(2):159-167.2.4.1节点级分析

局部集聚系数局部集聚系数(localclusteringcoefficient)是测量无向网络图中三元闭包现象的关键指标(即朋友的朋友也是朋友的程度),量化了一个节点附近的集聚程度节点i的局部集聚系数Ci的计算方式为以i为核心的闭合三元组的数量与所有三元组数量的比值注:aij表示节点i和j之间的连线是否存在,取值为0表示连线不存在,取值为1表示连线存在,表示节点i所在的闭合三元组总数,ki是节点i连接的邻居节点的数量,表示i的邻居节点之间所有可能的连线组合,即与i形成的三元组总数2.4.1节点级分析

局部集聚系数局部集聚系数示例11OpsahlT,PanzarasaP.Clusteringinweightednetworks.Socialnetworks,2009,31(2):155-163.各点的局部集聚系数:节点D、F仅有1个邻居节点,不存在局部集聚系数A和C的所有三元组都是闭合三元组,CA=1,CC=1节点B有4个邻居节点,所有的三元组包括:ABC,ABD,ABE,CBD,CBE,DBE,其中闭合三元组只有ABC,因此CB=1/6≈0.17节点E的邻居节点B、F之间没有连线,因此CE=02.4.1节点级分析

中心度(centrality)通过分析网络中的关系分布、数量和距离,度量社会行动者占据网络中心地位的程度,对网络节点的“权力”进行量化分析常见的节点中心度指标度中心度中介中心度接近中心度特征向量中心度2.4.1节点级分析

中心度(centrality)度中心度(degreecentrality)对节点所拥有的关系数量的简单计数,反映了一个人在网络中社会关系的多少度中心度越高,社会关系越多,往往代表这个人占据了更重要的网络位置,即他在网络中的嵌入度和参与度越高、社会资本越多、更容易发展新的社会关系和网络。节点i的绝对度中心度可表示为:节点i的相对度中心度可表示为:2.4.1节点级分析

中心度(centrality)度中心度(degreecentrality)

2.4.1节点级分析

中心度(centrality)中介中心度(betweennesscentrality)发现在网络中充当“桥梁”位置的节点,即在社会网络中控制或中介其他社会网络成员的信息流的位置。中介中心度越高,行动者控制或中介成员间信息流的能力越大,其他成员越依赖该行动者传递信息。2.4.1节点级分析

中心度(centrality)中介中心度(betweennesscentrality)节点i的绝对中介中心度:遍历所有节点组合,对每一对节点计算经过节点i的最短路径数量占这对节点所有最短路径数量的比例,再把所有节点组合的比例相加节点i的相对中介中心度:注:gjk是节点j到节点k的最短路径的数量,gjk(i)是由j到k的最短路径中经过i的最短路径数量,则(j,k)之间的最短路径数量中经过i的最短路径数量所占比例为2.4.1节点级分析

中心度(centrality)中介中心度(betweennesscentrality)

2.4.1节点级分析

中心度(centrality)接近中心度(closenesscentrality)度量网络中的节点距离其他所有节点的远近程度接近中心度越高,代表行动者距离其他行动者越近,说明该行动者占据了通信效率更高的中心位置,在获取信息方面可选的信息来源和路径很多,独立性更高。2.4.1节点级分析

中心度(centrality)接近中心度(closenesscentrality)节点i的绝对接近中心度:一个节点到网络中其他所有节点的最短路径长度之和的倒数节点i的相对接近中心度:2.4.1节点级分析

中心度(centrality)接近中心度(closenesscentrality)

2.4.1节点级分析

中心度(centrality)特征向量中心度(eigenvectorcentrality)在衡量行动者重要性的时候,将其关联之人的重要性纳入考量特征向量中心度越高,代表行动者所拥有的社会关系越重要2.4.1节点级分析

中心度(centrality)特征向量中心度(eigenvectorcentrality)基本原理令假设节点i的中心度的值是相邻节点的中心度之和,即:

,邻接矩阵为

2.4.1节点级分析

中心度(centrality)特征向量中心度(eigenvectorcentrality)jki

ijkijkA=

2.4.1节点级分析

结构对等与相似性如果网络的两个顶点共享相同的社会关系,则它们在结构上是对等的(structuralequivalence)结构对等程度越高,行动者的社会位置越接近。结构对等的程度可以通过量化节点之间的相似性程度(或差异程度)来反映Jaccard相似度皮尔逊相关系数欧几里得距离余弦相似度2.4.1节点级分析

结构对等与相似性Jaccard相似度(Jaccardsimilarity)两节点的共有邻居和邻居总数的比值

2.4.1节点级分析

结构对等与相似性余弦相似度(Cosinesimilarity)计算两个向量夹角的余弦值来评估相似性夹角为0度,余弦值为1,代表两个向量完全相似;夹角为90度,余弦值为0,代表两个向量完全不相似B、E的余弦相似度:AB=(1,0,1,1,0,0),AE=(0,0,0,1,0,1)2.4.1节点级分析

结构对等与相似性皮尔逊相关系数(Pearsoncorrelation)计算i和j的邻接向量之间的线性相关性计算公式为两者的协方差与标准差乘积的比值:B、E的皮尔逊相关系数:AB=(1,0,1,1,0,0),AE=(0,0,0,1,0,1)代入上式,得到2.4.1节点级分析

结构对等与相似性欧几里得距离(Euclideandistance,简称欧式距离)度量节点之间邻域的差异性程度,反映了不相似的程度B、E的欧式距离:AB=(1,0,1,1,0,0),AE=(0,0,0,1,0,1)2.4.2网络级分析

平均度(averagedegree)反映网络中是否有很多连接良好的节点平均度越高,表示整个网络中平均每个行动者的社会关系越多,连接程度越高所有节点的总度数与总节点数的比值无向图的总度数为2m,平均度为2m/n有向图中,总出度=总入度=m,平均入度=平均出度=m/n加权图中计算平均加权度,即所有节点关联边的权重之和与总节点数的比值

2.4.2网络级分析

密度(density)

2.4.2网络级分析

平均路径长度和网络直径

1MilgramS.Thesmallworldproblem.PsychologyToday,1967,2(1):60-67.两点间的最短路径长度:d(A,B)=1,d(A,C)=1,d(A,D)=2,d(B,A)=3,d(B,C)=1,d(B,D)=2,d(C,A)=2,d(C,B)=3,d(C,D)=1,d(D,A)=1,d(D,B)=2,d(D,C)=22.4.2网络级分析

平均路径长度和网络直径网络直径(diameter)是网络图中的的最短路径长度的最大值,代表网络中两个最远的行动者之间的最短距离,反映网络的紧凑性网络直径小所能反映的信息更可靠,节点数多的大图的紧凑性更有意义网络直径:3两点间的最短路径长度:d(A,B)=1,d(A,C)=1,d(A,D)=2,d(B,A)=3,d(B,C)=1,d(B,D)=2,d(C,A)=2,d(C,B)=3,d(C,D)=1,d(D,A)=1,d(D,B)=2,d(D,C)=22.4.2网络级分析

全局集聚系数和平均集聚系数全局和平均集聚系数是对图的整体集聚程度进行评估,是评估网络传递性(即网络中朋友的朋友也是朋友的程度)的重要指标,反映了网络凝聚力全局集聚系数(globalclusteringcoefficient):整体图中闭合三元组的丰富度

2.4.2网络级分析

全局集聚系数和平均集聚系数平均集聚系数(averageclusteringcoefficient):图中所有点的局部集聚系数的平均值局部集聚系数示例11OpsahlT,PanzarasaP.Clusteringinweightednetworks.Socialnetworks,2009,31(2):155-163.

2.4.2网络级分析

中心势度量整体网络权力分布情况的中心性分析指标衡量在网络中心度方面最占优势的行动者与其他行动者的差异程度。度中心势Diagram2Diagram3Diagram2Diagram3接近中心势中介中心势常见的中心势指标2.4.2网络级分析

中心势度中心势度量在社会关系数量方面,最有优势的行动者与其他行动者的差异程度度中心势越大,表明网络中心节点在社会关系数量上的优势越强,网络中存在在社会关系数量方面占据主导地位的行动者

2.4.2网络级分析

中心势中介中心势度量在通信中介作用方面,最有优势的行动者与其他行动者的差异程度中介中心势越大,表明网络中心节点在中介他人通信路径方面的优势越强,网络中存在在中介他人通信路径方面占据主导地位的行动者

2.4.2网络级分析

中心势接近中心势度量在与其他行动者的接近程度(通信效率)方面,最有优势的行动者与其他行动者的差异程度接近中心势越大,表明网络中心节点(相比其他节点)更靠近网络的其他成员,网络中存在在接近程度(通信效率)方面占据主导地位的行动者

2.4.2网络级分析

凝聚子群凝聚子群:行动者的子集,子集内部的行动者之间存在相对稳固的、直接的、强烈的、频繁的或积极的联系1社会力量可以通过子群体成员内部的凝聚力运作,高度凝聚力可增强群体目标的达成,促进群体规范、增强成员自信心、影响工作效率21WassermanS,FaustKSocialnetworkanalysis:Methodsandapplications.CambridgeUniversityPress,1994.

2刘军.整体网分析:UCINET软件实用指南(第三版).上海:上海人民出版社,2019.k-宗派k-丛k-核派系k-派系2.4.2网络级分析

凝聚子群派系(clique)任意两个成员之间的关系都是相互的(互惠关系),是凝聚力很高的子群如果一个完备子图至少包含3个顶点以上,并且是“最大”的(maximal),即再多一个相邻顶点就会改变完备性,就称该子图的顶点集是一个派系派系示意图(3、4、5、6点)2.4.2网络级分析

凝聚子群k-派系(k-clique)子群任意两个成员之间的距离不超过给定值k(中间途经的其他成员不限于群体内部成员)k

值越小,群体凝聚力越强严格定义的派系是1-派系1-派系:

{B,C,D}2-派系:从F点出发,{F,A,B,E,D}是2-派系从C点出发,{C,B,A,D,E}是2派系,但A、E必须经由派系以外的点F才能达到最短路径长度23-派系:{F,A,B,E,D,C}2.4.2网络级分析

凝聚子群k-宗派(k-clan)子群网络直径小于等于k的k-派系子群任意两个成员之间的距离不超过给定值k(中间途经的其他成员必须是群体内部成员)k

值越小,群体凝聚力越强所有的k-宗派都是k-派系,但不是所有的k-派系都是k-宗派2-宗派:从F点出发,{F,A,B,E,D}是2-宗派从C点出发,{C,B,A,D,E}不是2-宗派,因为由这些点构成的子图(去掉F点及其相关联的边的图)的直径为32.4.2网络级分析

凝聚子群k-丛(k-plex)子群中每个成员最多不与k个成员连接的凝聚子群可以利用最小度数反推:子群中每个成员的组内联系数量不低于(子群成员数-k)k

值越小,群体凝聚力越强

2.4.2网络级分析

凝聚子群k-核(k-core)子群中每个成员的组内联系数量不低于k,即每个点在子图中的度数至少为kk值越大,群体凝聚力越强k-核可采用递归“剪枝”的过程获得0-核1-核2-核3-核2.4.2网络级分析

社区检测找到内聚的子网络结构,组内成员之间有密集的连接,组间只有稀疏的连接,是一种“内紧外松”的结构Girvan-Newman算法、Louvain算法社区结构示意图1

1NewmanME.Modularityandcommunitystructureinnetworks.ProceedingsoftheNationalAcademyofSciences,2006,103(23):8577-85822.4.2网络级分析

社区检测Girvan-Newman算法边介数(edgebetweenness):每对节点组合的最短路径中经过该边的最短路径所占比例之和。边介数高的边处于很多点对的最短路径中,往往是连接不同社区的桥梁算法主要思路:将这些介于不同社区之间的边删除,以将社区分离开算法主要步骤:计算所有边的边介数,将边介数最高的边删除,重复上述过程直至没有边可删除或者达到自定义的终止条件,最终可获得多个相互分离的网络组件(社区)2.4.2网络级分析

社区检测Girvan-Newman算法第一轮计算,边DE或DF的边介数最高,均为10,删掉其中之一,假设删除DE以边DE为例,遍历所有节点组合计算边介数的过程如下:AB节点之间最短路径不经过DE,最短路径经过边DE所占比例为0,同理,AC,AD,AF,BC,BD,BF,CD,CF,DF,EF,EG,EH,EI,FG,FH,FI,GH,GI,HI节点组合均如此;AE节点之间最短路径只有一条A→D→E,必经边DE,最短路径经过边DE所占比例为1,同理,BE,CE,DE节点组合均如此;AG节点之间最短路径有2条,A→D→E→G或A→D→F→G,经过边DE所占比例为1/2;同理,AH,AI,CG,CH,CI,DG,DH,DI节点组合均如此;BG节点之间的最短路径有4条:B→A→D→E→G或B→A→D→F→G或B→C→D→E→G或B→C→D→F→G,经过边DE有2条最短路径,所占比例为1/2,同理,BH,BI节点组合均如此;边DE的边介数为:1*4+1/2*12=10第二轮计算:边DF边介数达到最大值20,可将其删除第二轮计算:边GI边介数达到最大值4,可删除。最终获得3个网络组件:{A,B,C,D}、{E,F,G,H}和{I}2.4.2网络级分析

社区检测Louvain算法如果分区内部的边数明显多于期望的边数,或者分区之间的边数明显少于期望的边数,那么分区的划分就是有意义的。模块度(modularity):计算了同一分区节点之间的实际边数与期望边数的差值之和(归一化结果),模块度越大,分区划分越有意义。

2.4.2网络级分析

社区检测Louvain算法设定每个节点为一个社区,对于每个节点,都考虑将其从自身社区中移除,移入邻居节点所处的不同社区中,计算移动后的模块度收益,最终将其移入可以使模块度收益增加最多的社区,重复这一过程,直至不能增加模块度收益。Louvain算法示例图11BlondelVD,GuillaumeJ-L,LambiotteRandLefebvreE.Fastunfoldingofcommunitiesinlargenetworks.JournalofStatisticalMechanics:TheoryandExperiment,2008,10:P10008.2.4.2网络级分析

核心—边缘结构如果网络不能细分为排他性的、有凝聚力的子群体,要区分该群体内节点之间连接的疏密程度,可以开展核心—边缘结构分析,将该群体划分为核心区域和边缘区域具有核心—边缘结构的网络图11BorgattiSP,EverettMG.Modelsofcore/peripherystructures.SocialNetworks,1999,21(4):375-395.2.4.2网络级分析

核心

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论