版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第1章大数据、学科交叉与会计研究:机遇与挑战RawAccountingNumbers1974-2014共30年206,026家公司1171家舞弊共28项财务指标14项绩效比率DetectingAccountingFraudinPubliclyTradedU.S.FirmsUsingaMachineLearningApproach(JAR,2019)原始会计数据(RawAccountingNumbers)集成式学习(EnsembleLearning)支持向量机(SVM)Logit回归Vs.Vs.舞弊预测(FraudDetection)DetectingAccountingFraudinPubliclyTradedU.S.FirmsUsingaMachineLearningApproach(JAR,2019)CONTENTS目录1大数据时代会计研究的转型2会计研究中的大数据应用现状3会计研究中的大数据实现4机遇与挑战大数据时代会计研究的转型Part1每一个领域拥有大量信息化的数据,大部分人文社会科学具有自然科学的特征——King(2014)Python,Java语言的出现,降低了非计算机专业获取大数据门槛大数据引入会计研究1研究思路1近20年国内外会计学研究大数据应用趋势近20年国内会计学研究中的大数据应用及相关刊文趋势近20年国外会计学研究中的大数据应用及相关刊文趋势1会计研究中的大数据应用现状Part21数据输入2数据分析数据输入Part2.11数据库与数据接口2网络爬虫数据库:指现成“按照数据结构来组织、存储和管理数据的仓库”。在研究中即指那些现成的,已经过整理的数据集。如:CSMAR。数据接口:应用程序接口(API,ApplicationProgrammingInterface),是一些预先定义的接口(如函数、HTTP接口)。如:GoogleTrends、百度指数。数据库与数据接口2.1俞庆进和张兵采用百度指数检验了投资者关注度与创业板股票市场表现的相关性,发现(1)投资者的有限关注能给股票带来正向的价格压力,而这种压力会很快发生反转;(2)非交易日的投资者关注将显著影响下一交易日股票集合竞价时的价格跳跃(俞庆进和张兵,2012)。方法:选择百度指数的用户关注度作为投资者关注度的代理变量。贡献:后续研究发现投资者关注度与当期的股票收益正相关,而媒体关注度对当期股票收益负相关(刘锋等,2014);并检验了独立董事的社会声誉激励效应(罗进辉,2014)。数据库与数据接口——百度指数2.1网络爬虫(WebSpider)。会计学研究中的网络爬虫,分为:通用网络爬虫聚焦网络爬虫增量式网络爬虫深层网络爬虫实际的网络爬虫系统通常是几种爬虫技术的结合网络爬虫2.1王秋菲等爬虫技术采集被审单位外部的公共数据,该信息可以成为揭示公司财务舞弊行为的重要审计证据。方法:综合运用通用网络爬虫、聚焦爬虫、增量式网络爬虫、深层网络爬虫从政策环境、行业环境、经营环境、关联方交易等方面对亚太实业2009—2016年的互联网数据进行挖掘。贡献:研究媒体对企业环境违规事件的报道如何通过影响股市情绪进而影响股东财富(Xuetal,2014)。网络爬虫2.1数据分析Part2.21文本分析2网络分析3机器学习文本分析2.2文本分析法是一种以研究人类传播的信息内容为主的社会科学研究方法对文献内容“量”的分析,找出能反映文献内容的一定本质方面又易于计数的特征,克服定性的主观性和不确定性缺陷文本分析2.2关键词识别:研究中经常使用关键词出现的次数或者占总词数的比例来构建变量;现有研究也通过关键词定位特征信息,用于进一步分析。文本情感分类:利用自然语言处理和文本挖掘技术,对带有情感色彩的主观性文本进行分析、处理和抽取的过程。情感极性通常分为两类(正面、反面)或三类(正面、反面和中立)。文本相似度:文本相似度的主要思想是通过提取文本特征计算不同文本之间所包含信息的相似程度。在会计学领域的研究中,大部分研究是对于年报MD&A部分的文本进行比较。文本可读性:文本可读性也是国内外会计学研究关注的一大热点问题。现有的文献通过文件大小、文本长度、词汇复杂度等方面考虑,并建立FOG、LIX、RIX、ARI、SMOG等指标进行比较。出于自利动机,管理者会操纵年报文本信息复杂性;文本信息复杂性操纵对数字信息操纵有替代作用,且管理层持股及公司内、外部治理均会影响文本信息复杂性操纵;通过操纵年报文本信息复杂性,管理者能够获取更高超额薪酬,并提高公司市场估值(王克敏等,2018)
。方法:从文本逻辑和字词复杂性两个角度,结合逆接成分词语、会计术语词汇、《现代汉语次常用词典》,设计了3个变量(逆接成分密度、会计术语密度、次常用字密度)考察中文年报文本信息复杂性。贡献:中文可读性指标可用于研究分析师信息解读(丘心颖等,2016)
、借贷成本(王克敏等,2018)等问题。文本分析——文本可读性2.2网络分析法在社会计量学中,社会不只是散在个体的简单集合,还应包括个体所拥有的各种社会、经济或文化纽带。社会网络分析作为分析社会关系的技术,用来研究人际关系。社会网络是由作为节点的社会行动者及作为线的关系构成的集合。2.2网络分析法2.2中心度分析:通过高度概括的指标测度节点在网络中的位置。节点网络位置的优势意味着节点可能通过这些关系更快或更有效地获取或传播更多或更稀有的信息,从而影响其行为。凝聚子群分析:社会网络中存在关系密切的节点群,被称为凝聚子群,对于凝聚子群的探察以及检验其是否具有其他社会属性的过程成为凝聚子群分析。可视化:运用图像直观展示抽象的社会网络及其分析结果,该技术的基本原则之一是节点之间的距离应该尽可能地反映出节点之间联系的强度或数量。El-Khatib等(2015)、Khatib(2012)、Chuluun等(2017)、Kuang和Lee(2017)、Chahine等(2019)分别以代表董事网络中的位置,研究企业网络位置对企业合并绩效、公司舞弊、社会责任等方面的影响。方法:基于董事交叉任职、同质性等因素计算构建程度中心度、接近中心度、中介中心度以及特征向量中心度等网络特征指标。贡献:作为社会网络量化分析最直接方法,审计所任职、投资者投资行为等会计学研究问题的上得到了广泛应用。网络分析法——中心度分析2.2网络分析法——可视化2.2《基于社会网络分析的金融科技系统用户管理风险审计方法研究》的分析结果示例(陈伟等,2019)机器学习利用数学、人工智能工具赋予计算机系统自动“学习”数据、“识别”模式、并做出预测或决策的能力。几种定义:一门人工智能的科学,研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能对能通过经验自动改进的计算机算法的研究用数据或以往的经验,优化计算机程序的性能标准2.2机器学习——机器学习机器学习可以分为三个主要类别:监督学习(Supervisedlearning)无监督学习(Unsupervisedlearning)强化学习(Reinforcementlearning)已有会计研究主要使用了前两种。2.2定义:通过已有的训练样本去训练得到一个最优模型,再利用这个模型将所有的输入映射为相应的输出,对输出进行简单的判断从而实现预测和分类的目的。监督学习的训练样本中是同时包含有特征和标签信息。典型问题回归问题(Regression):输入变量与输出变量均为连续变量的预测问题分类问题(Classification):输出变量为有限个离散变量的预测问题。机器学习——监督学习2.2Miller(1977)使用朴素贝叶斯算法研究投资者情绪,散户投资者的情绪受先前股价的影响,但对单个公司未来收益并没有显著的预测作用。方法:使用雅虎论坛上91家公司超过3200万条消息的数据集,根据朴素贝叶斯分类将文本消息贴上“购买”或“出售”的标签,并使用训练数据集估计概率。贡献:朴素贝叶斯分类器还可以用于构建投资者分歧指数(段江娇等,2017)、计量分析师情绪(Huangetal,2014)、计量管理层语调(Lietal,2019)。机器学习——监督学习2.2概念:训练样本的标记信息未知,目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律为进一步的数据分析提供基础,无监督学习任务中研究最多、应用最广的是聚类。聚类目的在于把相似的东西聚在一起,主要通过计算样本间和群体间距离得到机器学习——无监督学习2.2杨晓兰等利用计算机文本挖掘技术提取网络发帖所体现的情绪倾向,构建投资者情绪指标,发现在积极情绪和消极情绪下本地关注对股票交易量有正向影响,且积极情绪的影响程度更大(杨晓兰等,2016)
方法:以投资者在东方财富网股吧针对创业板上市公司发表的90多万条帖子为研究对象,计算机通过学习训练数据集的结果建立起自己的分类模型,使用数据挖掘开源包Weka进行模型验证贡献:K均值聚类分析法可帮助审计师评估团体寿命保险金额(Thiprungsri,2019)机器学习——K均值聚类分析2.2会计研究中的大数据实现Part3文本分析——关键词识别3识别公司年报中确定性和不确定性词汇高管个人信息表(fromCSMAR)Excel制表转化蜘蛛网络格式蜘蛛矩阵格式(Notepad)网络分析——操作流程3网络分析——Pajek构建网络3网络分析——Gephi可视化3文本情感分分类—基于百度Paddle机器学习框架'sentiment_label':1,'sentiment_key':'positive','positive_probs':0.9666,'negative_probs':0.0334}]3"众里寻他千百度,蓦然回首,那人却在灯火阑珊处""来生再做财务人,不如自挂东南枝"[{'sentiment_label':0,'sentiment_key':'negative','positive_probs':0.1808,'negative_probs':0.8192}][{'sentiment_label':1,'sentiment_key':'positive','p
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026散装干果市场消费行为及品牌竞争分析研究报告
- 2026散装宠物食品线上线下渠道融合发展趋势预测报告
- 2026散装化工中间体市场现状及竞争策略分析报告
- 2026散装冷冻食品市场供需状况及未来发展前景分析研究报告
- 2026散装乳制品行业市场现状供需失衡及投资前景研究报告
- 2026工业视觉检测软件算法优化与行业定制化需求匹配度报告
- 2025年中南大学湘雅三医院编外人员招聘5人备考题库及一套答案详解
- 2026工业元宇宙应用场景拓展与商业模式创新报告
- 郑州旅游职业学院《中级西班牙语》2024-2025学年第二学期期末试卷
- 重庆传媒职业学院《泛函分析双语》2024-2025学年第二学期期末试卷
- 剧本杀知识教学课件
- 2026中央网信办所属部分在京事业单位招聘3人笔试备考题库及答案解析
- 长江证券中观行业分析报告
- 超星尔雅学习通《大学生国家安全教育(中国人民警察大学)》章节测试含答案
- GB/T 36132-2025绿色工厂评价通则
- 活动策划助理笔试面试技巧含答案
- 2026年烟台工程职业技术学院单招职业适应性测试题库带答案详解
- 《民航服务手语》项目3地面服务手语(下)
- 中国人民银行面试真题100题及答案解析
- 2026年张家界航空工业职业技术学院单招职业技能测试模拟测试卷附答案
- 2026年江西单招城市轨道交通运营管理题库含答案
评论
0/150
提交评论