版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
人工智能在审计领域的应用审查2数据分析周期3提问获取数据转换数据分析数据目前的研究结果12345阅读材料4讨论“人工智能在审计领域的研究思路”(会计新兴技术期刊):作者们提出了哪些研究问题?人工智能在审计领域面临哪些挑战?您打算如何解决这些问题?标准在新技术的采用过程中发挥着怎样的作用?人工智能颠覆这个行业的可能性有多大?你同意吗?“人工智能比你想象的更难”(《纽约时报》):作者们对人工智能发展面临的挑战有何看法?你认为实地会发生什么?5人工智能在审计中的应用?6阶段传统工艺人工智能赋能流程预先规划审计师审查客户所在的行业;审计师审查客户的组织结构、运营方式以及会计和财务系统。人工智能收集并分析大数据(外生数据);与客户的组织结构、运营方式以及会计和财务系统相关的数据被输入到人工智能系统中。承包审计师根据对客户风险的评估编制业务约定书;审计师和客户签署合同人工智能利用风险等级评估结果(来自第一阶段)计算审计费用和所需工时;人工智能分析合同数据库并生成合同;审计师和客户签署合同。了解内部控制并识别风险因素理解文件(流程图、问卷、叙述、流程演示);审计师汇总这些信息并运用自身判断来识别风险因素;理解内部控制,以确定实质性测试的范围、性质和时间安排。将流程图、问卷答案和叙述性文本输入人工智能系统,并利用图像识别和文本挖掘技术进行分析;使用无人机进行实地勘察,然后利用人工智能分析生成的视频;运用可视化和模式识别技术识别风险因素;人工智能汇总所有这些数据,以识别欺诈和非法行为的风险因素。控制风险评估审查客户的内部控制政策和程序;对每个属性进行风险评估;控制措施测试;风险重新评估;控制措施文件测试持续控制监控系统持续检查控制措施;人工智能运行流程挖掘以验证集成电路的正确实施;自动生成日志以确保其完整性。实质性测试定期抽样测试,其性质、范围和时间取决于内部控制测试;对交易样本细节的测试;对(特定时间点的)余额细节的测试;分析程序持续数据质量保证确保数据和证据的质量;人工智能检查数据来源;对100%人群的交易细节进行持续测试;对余额细节进行持续测试(始终如此);持续进行模式识别、异常值检测、基准测试和可视化。证据评估审计师必须评估已收集审计证据的充分性、清晰度和可接受性;据此,审计师可以收集更多审计证据,或者解除审计业务。这成为前一阶段的一部分审计报告审计师汇总以往信息并出具报告;报告分为以下几类:无保留意见、有保留意见、不利意见等。人工智能使用预测模型来评估已识别的各种风险;审计报告可以是连续的(例如,评级为1-00),而不是分类的(无保留意见、有保留意见、不利意见等)。资料来源:“人工智能在审计领域的研究思路”(《会计新兴技术杂志》)模型开发7模型开发过程8需求评估数据分析与整合数据准备模型选择模型评估模型部署持续评估1234567需求评估我们要回答什么问题?预测模型将如何使用?我们试图预测什么?我们有哪些数据?我们可以获取哪些数据?哪些数据可以帮助我们做出准确的预测?9数据分析与整合预测模型的准确性取决于用于构建模型的数据和衍生变量的质量。模型开发可能需要整合来自多个数据源的数据。数据库应用程序文件开放数据社交媒体数据质量评估对于发现潜在缺陷和了解模型的局限性至关重要。10输入垃圾,输出垃圾!黄金进,黄金出!数据准备模型通常依赖于从源数据中推导出或计算出新的变量或“特征”,以捕捉因变量的变化。指数和对数将模型的函数形式从线性
变为非线性。创建新变量或“特征工程”的其他方法包括:虚拟变量互动日期时间值聚合频率关键词标记11x
样品转换二次项12
简单的线性模型无法解释边际效应递减的现象。二次项会产生曲线而不是直线。虚拟变量13
z是一个虚拟变量,代表观测值的状态。简单的线性模型无法捕捉不同观测值对应的独立过程。
互动14
z是一个虚拟变量,表示观测值的类别。简单的线性模型无法捕捉不同观测值对应的独立过程。……其中xz是两个不同变量x和z的乘积。趋势和季节性15趋势和季节性月度时间序列图显示随时间推移而增加,并呈现规律性波动。
趋势词每个月的虚拟变量线性模型反映了趋势和月度效应。模型选择模型选择涉及方法论和实践方面的考虑。这是回归分析还是分类分析?我们有的是单期数据还是多期数据?可解释性有多重要?我们有多少数据?如何处理缺失值?实施过程中可能存在哪些局限性?16模型评估我们还从统计学和商业角度评估模型。自变量(X)的统计显著性如何?分配给自变量的权重是否合理?对于回归分析:预测值与实际值之间的总体误差是多少?这些误差是否表明模型存在系统性问题?用于分类:假阳性率和假阴性率分别是多少?假阳性或假阴性的代价是什么?合适的阈值是多少?17模型评估——回归模型结果包括每个变量的估计系数的符号和大小。较低的p值表明自变量具有统计学意义。R平方值是衡量模型拟合优度的指标,它基于实际值和预测值之间的差异。调整后的R平方值对统计上不显著的变量施加了惩罚
。18p值系数调整后的R平方模型评估——分类分类模型评估的常用起点是混淆矩阵,它将模型预测结果与实际结果进行比较。确定合适的分类阈值通常取决于假阳性和假阴性的成本。19混淆矩阵:欺诈检测未发生欺诈行为。确实发生了欺诈行为。模型预测欺诈行为假阳性
(I型错误)真阳性模型预测不会出现欺诈行为真阴性假阴性
(第二类错误)确实发生了欺诈行为。未发生欺诈行为。临界点?假阳性假阴性预测值的分布训练集、验证集和测试集评估样本外性能可以防止过拟合,并表明模型是否能对新数据进行有效预测。将样本数据拆分为训练集、验证集和测试集,而不是使用完整数据集训练模型。训练集:估计模型并检查模型统计数据验证集:生成预测值并评估候选模型的性能,以发现改进机会。测试集:生成预测值并报告最终模型性能考虑使用多次数据分割进行交叉验证。20模型部署与持续评估一旦利益相关者批准了令人满意的模型,该模型即可部署:已在可访问生产数据的环境中实施前端管理和/或报告关于潜在改进和模型更新的建议模型还可以自动使用新数据进行重新训练。模型开发和部署本质上是一个迭代过程,新数据可能导致:变量权重的变化变量显著性的变化推导新变量的机会提高或降低模型性能21讨论“盈利操纵的检测”(贝尼什):你如何看待论文中描述的盈余管理模式?他试图回答什么问题?他使用了哪些数据?因变量是什么?自变量是什么?他选择了哪种型号的模型?该模型的性能如何?22线性回归23线性回归–lm()论点公式:用波浪号(~)分隔因变量和自变量来定义模型的符号描述数据:用于回归分析的数据框subset:可选向量,用于指定是否使用观测值的子集进行拟合过程。na.action:一个用于指示如何处理NA值的函数输出系数:公式中输入项的系数向量残差:数值向量,表示每个数据点的残差fitted.values:数值向量,表示每个数据点的拟合均值df.residual:表示残差自由度24线性模型输出summary()显示线性模型的结果25p值表示统计学意义。调整后的R平方值表明了拟合优度。单变量模型多元模型这些结果经过“美化打印”,但summary()函数的返回值包含许多其他统计信息。线性模型输出(续)str()函数会显示summary()和lm()函数返回的对象的完整列表结构。主要统计数据包括:系数t统计量p值R平方调整后的R平方自由度26线性模型输出(续)其他功能从模型中提取统计信息:resid():返回残差fitted.values():返回训练数据的预测值AIC():赤池信息准则(拟合优度)predict()将模型应用于新数据27练习1从.RData加载葡萄酒和棒球数据
文件。使用不同的自变量组合,构建一系列预测葡萄酒质量评分的模型。找出最佳模型。准备好描述所选模型的整体质量、变量和局限性。28数值函数可以使用各种函数来转换数值:圆形的()^或**(指数)日志()sqrt()绝对值()规模()与列一起使用的条件运算符会返回一个新的逻辑向量,该逻辑向量可以进一步使用eger()转换为二进制向量:29文本功能nchar():接受一个字符向量,并返回该向量的长度。substr():按位置提取或替换子字符串toupper()/tolower():将所有字符转换为大写或小写30paste():将向量两两连接,或将向量合并成单个字符串。生成新列转换或合并数据框中的现有列,并将值赋给新的列名。31使用summary()、table()和其他统计函数来分析新列:采样sample()函数可以创建一个索引,用于从向量中采样元素或从数据框中采样行。x:待选元素的向量或一个正整数;如果给定一个整数,则取值范围为1到该整数。尺寸:可供选择的商品数量替换:是否应进行有放回抽样?32sample()函数还可以用于将数据框拆分为训练数据集和验证数据集。单独的函数set.seed()可以实现可重复采样。练习2棒球数据框拆分为包含75%行的训练集和包含剩余25%行的验证集。使用不同的自变量组合(包括新生成的列),构建一系列模型来预测棒球运动员的薪资。找出最佳模型。准备好描述所选模型的整体质量、变量和局限性。33逻辑回归34逻辑回归–glm()论点:公式:待定义模型的符号描述数据:用于回归分析的数据框family:要使用的函数(非线性变换),例如逻辑回归中的“binomial”输出:系数:公式中输入项的系数向量残差:数值向量,表示每个数据点的残差fitted.values:数值向量,表示每个数据点的拟合均值。aic:返回模型的AIC值35glm家族论证逻辑模型输出由于逻辑回归的模型方程已经过转换,
`predict()`函数需要一个额外的参数来返回拟合值或响应值。
值36逻辑回归评估预测值代表事件发生的概率,因此模型的整体质量取决于以下各项指标的数值:真阳性和假阳性真阴性和假阴性37逻辑回归评估(续)接收者操作特征(ROC)曲线显示了不同阈值下的假阳性率与真阳性率之间的关系。曲线下面积(AUC)是指随机正事件的预测值高于随机负事件的概率。38ROC曲线AUC=0.96TP和TN之间的最佳权衡逻辑回归评估(续)ROCR软件包能够使用中间函数创建ROC曲线。预言()表现()39练习3将葡萄酒数据框拆分为包含75%行的训练集和包含剩余25%行的验证集。使用不同的自变量组合,构建一系列逻辑回归模型,将葡萄酒分类为红葡萄酒或白葡萄酒。找出最佳模型。准备好描述所选模型的整体质量、变量和局限性。40概括41获取数据42任务描述拉数据访问连接到数据源setwd()list.files()导入数据将数据读入分析环境读取表格()readLines()readxl加载()数据分析审查数据维度和汇总统计数据str()dim(),nrow(),ncol()概括()独特的()数据质量评估找出数据中对后续分析构成挑战的方面is.na()数据模拟根据分析需求生成数据样本()转换数据43任务描述拉清理数据解决数据质量问题以促进分析gsub()tolower(),toupper()弦乐更改数据类型将值转换为适合分析的格式as.character()、as.numeric()等。数据筛选根据指定条件创建记录和特征子集条件运算符Sqldf导出数据从原有功能中创建新功能赋值运算符Sqldf数据缩放将具有不同值域的特征放在同一尺度上,同时保持相对值不变。规模()转换数据44任务描述拉抽样数据基于概率分布创建记录子集样本()数据汇总根据另一个特征的不同值,返回一个特征的统计信息或值。总计的()sqldf重塑数据更改值是否在不同的记录或不同的特征中表示。重塑()连接数据并置合并数据集rbind()cbind()合并数据具有公共标识符的记录来合并数据集合并()sqldf分析数据45任务描述拉总结分析计算感兴趣特征的代表性统计数据概括
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 房地产项目可行性分析报告的目的是什么
- 钢铁是怎样炼成的习题答案
- 职业规划模拟剧指南
- 工程力学就业方向
- 2025年广西壮族自治区来宾市初二地生会考考试题库(含答案)
- 2025年湖南省长沙市初二地理生物会考真题试卷(+答案)
- 2025年湖南娄底市初二学业水平地理生物会考考试真题及答案
- 2025年广东省肇庆市八年级地生会考题库及答案
- AI产品核心卖点解析
- 压疮的伤口护理最佳实践
- 2025年全国普通高校招生全国统一考试数学试卷(新高考Ⅰ卷)含答案
- 哈尔滨2025年哈尔滨“丁香人才周”(春季)延寿县事业单位引才招聘笔试历年参考题库附带答案详解
- 工程项目绩效管理
- 特种作业培训合同模板8篇
- 购销合同退换货协议
- 2024联易融线上用印软件使用手册
- 中医药膳食疗的养生作用
- 房屋安全鉴定服务投标方案(技术标)
- 2024年二级注册结构工程师专业考试试题及答案(上午卷)
- 典范英语7全文(1-18)
- (一模)石家庄市2025年高三年级教学质量检测(一)物理试卷(含标准答案)
评论
0/150
提交评论