管理基础研究及其方法 9_第1页
管理基础研究及其方法 9_第2页
管理基础研究及其方法 9_第3页
管理基础研究及其方法 9_第4页
管理基础研究及其方法 9_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

管理研究设计与方法(第3版)RESEARCHDESIGNANDMATHDOLOGYINMANAGEMENT第1篇

管理研究概述第1章

管理研究概述第2章理论框架与研究假设第3章

管理研究的范式第2篇

管理研究设计第4章

测量量表、问卷设计及调研实施第5章

基于二手数据的研究设计:来源、分析与应用第6章实验研究设计第7章

文本分析与计算机辅助文本分析第3篇

管理研究方法第8章

相关分析和线性回归分析方法第9章

中介效应及其检验操作第10章

调节效应及其检验操作第11章

非线性问题及其检验操作第12章

内生性问题及其控制第4篇

管理研究前言方法第13章

社会网络分析方法及其操作第14章

神经科学研究及其应用第15章

人工智能时代管理研究方法与应用第15章人工智能时代管理研究方法与应用CONTENTS01人工智能在管理学研究中的应用实例解读1大数据与数据挖掘实例解读2020304PART01人工智能在管理学研究中的应用人工智能在管理学研究中的应用PART01人工智能概述人工智能是指经过训练可执行与人类智能相关任务的工具,通过解释和学习外部数据,并利用学习内容灵活地适应设定要求以实现特定目标,包含数据、算法和算力三要素(NewOxfordDictionary,2019)。现有研究大多从方法维度、功能维度和表现形式三方面对人工智能进行了分类探讨人工智能在管理学研究中的应用PART01人工智能在研究中的应用第一,在变量测量方面,部分研究学者利用机器学习这一工具来测量相关构念。例如,Mansouri&Momtaz(2022)探究了初创企业的环境、社会和治理属性(ESGproperties)与财务绩效之间的关系,为了更准确的测量ESG属性,作者根据Python代码和机器学习算法,创建了一个网页的应用程序,该程序从文本内容中自动计算出初创企业的环境、社会和治理(ESG)属性得分。第二,在事件预测方面,Koumbarakis&Volery(2023)使用机器学习的方法来预测新业务孕育的前五年公司诞生(firmbirth)和公司放弃(firmabandonment)的可能性,并比较了传统的逻辑回归与多种机器学习在预测方面的表现,同样发现极端梯度提升树的预测整体性能最佳。人工智能在管理学研究中的应用PART01人工智能在研究中的应用第三,在因果推断方面,计量经济学与机器学习结合得越来越紧密,机器学习可以弥补计量经济学的不足,目前在会计财务研究领域,采用机器学习进行因果推断的研究日益增加。Rehse等(2019)使用机器学习中广泛使用的后向双选LASSO(Post-Double-SelectionLASSO)算法,通过美国股权不动产投资信托数据、每日交易数据和日内交易数据研究不确定性如何影响市场流动性。此方法能够消除对协变量主观选择的担忧,并提供了市场流动性受到不确定性不利影响的证据。第四,在理论构建方面,王聪等(2023)基于CEO大型文本语料库及任职期间的个人与公司数据,采用机器学习方法提取与CEO解聘相关的因素,并对CEO解聘这一现象进行预测。研究证实了个体异质性在CEO解聘领域研究的重要性,并为建立整合理论提供了基础。PART02大数据与数据挖掘“大数据”的典型特征大数据有4个基本特征:数据规模(volume)大、数据类型(variety)多样、数据处理速度(velocity)快、数据价值(value)密度低,即所谓的4V特性。大数据的概念与“海量数据”不同,后者只强调数据的量,而大数据不仅用来描述大量的数据,还更进一步指出数据的复杂形式、数据的快速时间特性以及对数据的分析、处理等专业化处理,最终获得有价值信息的能力。大数据与数据挖掘PART02数据挖掘的核心技术数据挖掘技术历经了数十年的发展,其中包括数理统计、人工智能和机器学习。近20年来,随着人工智能技术的逐步成熟,它们在数据挖掘中得到了充分的应用。这些成熟的技术,加上高性能的关系数据库引擎以及广泛的数据集成,使得数据挖掘技术在当今的数据库环境中进入了实用的阶段。数据挖掘使用的核心技术主要有6种,包括数理统计、最近邻、关联规则、神经元网络、决策树、遗传算法。大数据与数据挖掘PART02数据挖掘的核心技术PART021.数理统计数理统计(statistic)在商业应用中有着广泛的应用,而且是支持数据挖掘的最有效经典技术之一,能应用在包括预测、分类和发现等各种数据挖掘分析中。常用的预测方法是线性回归和非线性回归,其基本思想是创建的模型能匹配预测属性中的值。将大数据分析与数理统计学相结合,通过数理统计思想优化后的大数据分析,要优于单纯依靠大数据技术分析所得的结果,能有效提高预测的精准度。数据挖掘的核心技术PART022.最近邻最近邻(nearestneighbor)是一种基本的分类与回归方法,是数据挖掘技术中最简单的技术之一。最近邻是在历史数据库中寻找有相似预测值的记录,并使用未分类记录中最接近的记录值作为预测值,即在一个确定的距离度量和一个搜索空间内寻找与给定查询项距离最小的元素。最近邻技术是最容易使用和理解的技术之一,因为它是以与人们思维相似的方式处理、监测最接近的匹配样本。数据挖掘的核心技术PART023.关联规则关联规则(associationrule)是数据挖掘的一种主要形式,而且它也是与大多数人想象的数据挖掘过程最相似的一种数据挖掘形式。关联规则是挖掘是在大量数据中挖掘数据项之间的关联关系。规则发现是一项规模庞大的工作,数据库中所有可能的联系和模式都会被系统地抽取出来,然后再估算它们的正确性和重要性。在该系统中,规则本身是“如果……那么……”的简单形式。例如,如果客户购买了饼干,他同时购买奶酪的可能性为90%。数据挖掘的核心技术PART024.神经元网络神经元网络(neuralnetwork)是从人工智能领域发展起来,在计算机上运行的实现模式识别和机器学习算法的计算程序,通过对大量历史数据库的计算建立预测模型。神经元网络是通过模拟人类大脑的神经元网络来处理信息的一种网络结构,其网络参数也是通过对样本数据的充分学习而构建的,故其属于机器学习方法的一种。与其他技术不同,神经元网络是自动进行训练和建模的,它看上去更像一个黑箱,用户无须也无法知道它是如何工作的,也没有一组公式能描述建立的模型。数据挖掘的核心技术PART025.决策树决策树方法最早产生于20世纪60年代,是以实例为基础的归纳学习算法,通常用来形成分类器和预测模型,可以对未知数据进行分类或预测、数据预处理和数据挖掘等。决策树既可以应用于分类问题,也可以应用于回归问题,分别称为分类树和回归树。它通常包括两部分:树的每个分支都是一个分类问题,树叶是带有分类的数据分割。决策树还可以为其他算法提供数据预处理。数据挖掘的核心技术PART026.遗传算法遗传算法(geneticalgorithm)是一种基于进化的理论,通过模拟自然进化过程,采用包括遗传结合、遗传变异以及自然选择等设计方法,解决最优化问题的计算模型。通过模仿自然选择和繁殖的过程,遗传算法可以为涉及搜索,优化和学习的各种问题提供高质量的解决方案。可以克服传统搜索和优化算法遇到的一些障碍,尤其是对于具有大量参数和复杂数学表示形式的问题。随着对于遗传算法研究的不断深入完善,遗传算法被应用到越来越广泛的领域。PART03实例解读1实例解读1PART03如何从海量的互联网在线数据中,快速﹑高效地发现用户感兴趣的数据,一直是搜索引擎关注的问题。网络爬虫(webcrawler)又名网络蜘蛛(webspider),是一种自动抓取互联网数据的程序。根据其抓取规则的不同,可以分为通用网络爬虫与聚焦网络爬虫。Yahoo、Google、百度等搜索引擎均采用通用爬虫技术抓取、检索、存储互联网上的网页数据。通用爬虫的目的是尽可能多且高效地抓取互联网上的各种网页数据,并进行存储与检索。随着大数据时代的到来,大量的公司与数据从业人员,越来越重视开放的海量互联网数据中蕴含的商业和科研价值,聚焦爬虫技术,近几年被越来越多的公司和个人所重视。实例解读1PART03通用网络爬虫通用网络爬虫(universalwebcrawler),从一个或若干个初始网页的URL开始,获得初始网页上的URL列表;在抓取网页的过程中,不断从当前页面上抽取新的URL放入待爬行队列,进而通过URL访问并下载该页面,直到满足爬虫系统的停止条件为止。实例解读1PART03聚焦网络爬虫聚焦网络爬虫(focusedwebcrawler),从一个与主题高度相关的URL开始,根据一定的网页分析算法剔除与主题无关的URL,保留与主题相关的URL,并将其放入待抓取的URL列表中;然后根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到满足爬虫系统的停止条件。聚焦爬虫的爬行过程是目标主题驱动的、有选择性地爬行。它根据既定的目标主题,有选择性地访问互联网上的相关资源,搜集所需要的信息。实例解读1PART03聚焦爬虫的基本原理网络爬虫的根本目的是爬取目标网页的内容,对于网络爬虫的程序开发人员来说在编写爬虫程序之前首先需要明确两点:第一,浏览器收到的这些内容是以什么样的数据形式存在的。第二,浏览器以什么样的方式加载这些网页内容。只有明确这两点之后,才能确定爬虫的编写逻辑与数据的提取方法。实例解读1PART03网页内容的存在形式目前,爬虫程序抓取的绝大部分网页的数据可以分为:HTML源码数据、XML数据与JSON格式的数据。HTML(超文本标记语言)是构成网页文档的主要语言。HTML组成的描述性文本,说明了文字、图形、动画、声音、表格、链接等在网页中的显示方式。网页HTML源码实例解读1PART03网页内容的存在形式XML(可扩展标记语言)也是一种类似于HTML的标记语言。但与HTML不同的是,XML是用来描述数据的,XML的标记不是在XML中预定义的,而是由开发者自己定义的标记。XML是HTML的有益补充。动态加载XMI数据代码段实例解读1PART03网页内容的存在形式与XML格式类似,JSON(JavaScriptObjectNotation)也是一种将网页数据与表现形式进行分离的解决方案。JSON是一种更加轻量级的数据交换格式,它采用完全独立于编程语言的文本格式来存储和表示数据。JSON格式的数据不需要开发人员自定义标签,其格式类似于Python的字典结构,只需要将键与值一一对应即可。实例解读1PART03浏览器加载网页内容的方式要了解目前爬虫程序所爬取的网页内容的加载方式,首先需要了解Web技术的发展。在Web技术诞生之初,基于HTML+URL+HTTP的Web架构就应运而生,即使经过近30年的发展,目前我们看到的Web网页仍然是基于这样的基本架构。、为了使网页在浏览器端有更丰富的显示效果,在HTML基础上引入了CSS和JavaScript技术。随着网页内容的日益丰富,网页的数据量也越来越大。最初的浏览器一次性加载网页内容的方式显得有点力不从心。而Ajax使得浏览器与服务器只要进行少量的数据交换,就能实现网页异步更新。实例解读1PART03带CSS和JavaScript的HTML实例解读1PART03网页内容的存在形式目前爬虫程序在抓取网页内容时,也将主要面对三种不同的网页内容加载方式。HTML+CSS。这种情况下,爬虫程序只要获取HTML源码数据,就能够提取所有在网页上显示的内容。JavaScript动态加载。对于以JavaScript方式加载的内容爬虫程序需要分析JavaScript代码,找到返回数据的URL地址及数据返回的参数与方式。Ajax异步请求。与爬取JavaScript的内容类似,这也需要开发人员首先分析Ajax的异步请求,找到返回数据的URL地址及数据返回的参数与方式。实例解读1PART03requests库简介requests是Python的一个第三方库,用于处理HTTP请求。通过requests模块,可以很方便地向网络服务器发送请求并获取响应数据。requests库拥有简单易用的应用程序接口(API),是Python中最常用的HTTP库之一。实例解读1PART03使用requests库制作爬虫的基本步骤1.使用Python导入requests库2.发送请求并获取响应3.解析响应内容实例解读1PART03使用requests库制作爬虫的具体流程1.确定目标网站并分析网站结构:使用浏览器的开发者工具或者抓包工具进行分析,获取到需要爬取的信息的URL和对应的请求参数。2.模拟请求并获取响应:使用requests库发送请求并获取响应。实例解读1PART03使用requests库制作爬虫的具体流程下面是一个获取网页标题的示例代码:输出结果为:实例解读1PART03微博文本爬取抓取目标用户微博主页的所有微博链接地址与微博文本内容:1.获取目标用户的uid,自己的Cookie与用户字符串;2.通过requests库访问URL,获取网页的HTML源码,并将获取的HTML源码对象由字节类型转换成字符串类型;3.通过XPath表达式,由字符串类型的HTML源码对象匹配出所有链接地址和所需的文本内容等;4.将获取的数据保存到Excel或者其他格式的文件中,以供后续分析和使用。实例解读1PART031.获取目标用户的uid打开网址,搜索我们要找的人,如“新浪新闻”,然后进入其主页;如图所示的网址最后的数字“2028810631”即为“新浪新闻”的uid。对于多个用户的uid,可通过爬虫进行获取。实例解读1PART032.获取自己的CookieCookie是一种保存在客户端(即用户的浏览器)中的简单文本文件。在爬取微博文本内容时,使用Cookie的主要目的是验证用户的身份和获取用户的相关信息,模拟登录状态。用Chrome浏览器打开/signin/login,登录自己的微博账号后点击键盘F12按钮打开Chrome开发者工具,点击“Network”按钮,再点击浏览器左上角的“刷新”按钮,点击左侧后即可看到Cookie。将Cookie复制保存下来。实例解读1PART032.获取自己的Cookie实例解读1PART033.获取浏览器的用户字符串按上述获取Cookie的操作,我们即可在Cookie的下方Use-Agent一行中获得Mozilla开头的用户字符串。实例解读1PART034.开始编写爬虫代码在开始编写代码前,需要将所需的requests、time、lxml、pandas库进行导入。实例解读1PART034.开始编写爬虫代码这段代码定义了一个Python字典,其中包含了HTTP请求的一些头部信息(headers)。需要将我们获取的用户字符串以及Cookie输入进去代替代码中对应位置的数字。实例解读1PART034.开始编写爬虫代码获取指定微博账号发布的微博数量总条数。使用Python的requests库发送GET请求获取目标网页的内容,然后使用lxml库解析HTML,从中获取特定元素中的文本内容。代码示例仅展示到这里,完整代码操作请参考书本内容。PART04实例解读2实例解读PART03大数据挖掘实例解读基于量化模型的数据挖掘实例解读量化模型的时代背景随着大数据时代到来,管理学研究者发现量化模型在解释和预测社会现象方面具有强大优势。计算社会科学等新兴学科应运而生。TOMSociety理论组织模型协会(TOMSociety)于2010年在詹姆士·马奇指导下成立,致力于推广量化理论模型,为学者提供交流平台,培养年轻研究者。实例解读PART04什么是机制模型?认知系统模拟大脑复杂的认知过程团队互动描述团队中的互动和学习组织系统刻画组织运作的详细过程社会网络揭示网络中的互动机制机制模型用于精准描述系统运作的详细过程,借助计算机算力揭示管理学现象背后的作用机制和原理。与统计模型不同,它们聚焦于过程的精确仿真。实例解读PART04模型评价的核心原则评价模型优劣的基本原则是衡量模型预测与实际观测值之间的差异。差异越小,模型预测能力越强。模型预测往往受自由参数影响。例如在风险决策中,每个个体的风险偏好程度不同,需要给这个维度的取值一定自由度。模型评价依赖于对自由参数的准确估计。实例解读PART04最大似然值法参数估计在取值范围内找到让模型预测与现实最接近的参数值似然最大化使实际观测值在模型假设下发生的概率达到最大模型比较通过比较最大似然值评估不同模型的预测能力局限性:最大似然值法缺乏对模型复杂度的考虑。AIC和BIC等指标通过自由参数数量进行修正,但仍有不足。实例解读PART04硬币工厂案例某工厂生产两种硬币:A硬币正面概率70%B硬币正面概率60%现有一枚硬币投掷3次,2次正面,1次背面。判断是哪种硬币?计算过程A硬币:L(70%)=0.72×0.31=0.147B硬币:L(60%)=0.62×0.41=0.144结论:由于L(70%)>L(60%),最大似然值法判断该硬币是A硬币。这个简单例子展示了参数估计的基本逻辑。实例解读PART04贝叶斯方法的优势智能考虑复杂度不仅看自由参数数量,更严谨地衡量模型的实际复杂程度边缘似然计算考虑所有可能参数值,用似然值平均代表模型拟合程度贝叶斯因子通过边缘似然比例判断模型优劣。BF>10表示强证据支持实例解读PART04贝叶斯方法的技术突破历史困境绝大多数情况下边缘似然值无法算术求解,这在历史上给贝叶斯方法推广带来巨大困难。MCMC算法上世纪六七十年代,马尔可夫链-蒙特卡罗算法横空出世,为贝叶斯方法打开新局面。如今该算法已非常成熟,研究者可在统计软件中直接使用。实例解读PART04交叉验证法1数据分割将数据分为训练集和测试集2参数估计基于训练集估计自由参数3样本外预测

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论