采购欺诈分析相关技术调研_第1页
采购欺诈分析相关技术调研_第2页
采购欺诈分析相关技术调研_第3页
采购欺诈分析相关技术调研_第4页
采购欺诈分析相关技术调研_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、目录采购欺诈分析相关技术调研 . .21. 相关技术 .31.1神经网络算法 .31.1.1简介 .31.1.2神经网络 .31.1.2人工神经网络 .41.1.2BP 神经网络模型 .61.1.4项目应用 .错误!未定义书签。1.2随机森林 .错误!未定义书签。1.1.1随机森林 .121.1.2训练算法 .错误!未定义书签。1.1.2洞察 .错误!未定义书签。1.1.4结论 .错误!未定义书签。1.2决策树.91.2.1简介 .91.2.2组成 .91.2.3画法 .91.2.4决策树的剪枝 .101.2.5决策树的应用 .111采购欺诈分析相关技术调研摘要 :采购指通过交换获取物料和服务

2、的购买行为,为企业经营在合适的时间、地点、价格获取质量、 数量合适的资源。本文在调研采购欺诈分析现状,以及对相关技术算法进行探讨,展望了防欺诈研究方向及其面临的挑战。21. 相关技术1.1 神经网络算法1.1.1 简介逻辑性的思维是指根据逻辑规则进行推理的过程;它先将信息化成概念,并用符号表示,然后, 根据符号运算按串行模式进行逻辑推理;这一过程可以写成串行的指令,让计算机执行。然而, 直观性的思维是将分布式存储的信息综合起来,结果是忽然间产生想法或解决问题的办法。 这种思维方式的根本之点在于以下两点:1. 信息是通过神经元上的兴奋模式分布储在网络上; 2. 信息处理是通过神经元之间同时相互作

3、用的动态过程来完成的。1.1.2 神经网络思维学普遍认为,人类大脑的思维分为抽象(逻辑) 思维、形象(直观) 思维和灵感 (顿悟)思维三种基本方式。人工神经网络就是模拟人思维的第二种方式。 这是一个非线性动力学系统, 其特色在于信息的分布式存储和并行协同处理。 虽然单个神经元的结构极其简单, 功能有限, 但大量神经元构成的网络系统所能实现的行为却是极其丰富多彩的。神经网络的研究内容相当广泛,反映了多学科交叉技术领域的特点。主要的研究工作集中在以下几个方面:( 1)生物原型研究。从生理学、心理学、解剖学、脑科学、病理学等生物科学方面研究神经细胞、神经网络、神经系统的生物原型结构及其功能机理。(

4、2)建立理论模型。根据生物原型的研究,建立神经元、神经网络的理论模型。其中包括概念模型、知识模型、物理化学模型、数学模型等。( 3)网络模型与算法研究。在理论模型研究的基础上构作具体的神经网络模型,以实现计算机模拟或准备制作硬件, 包括网络学习算法的研究。 这方面的工作也称为技术模型研究。3( 4)人工神经网络应用系统。在网络模型与算法研究的基础上,利用人工神经网络组成实际的应用系统, 例如,完成某种信号处理或模式识别的功能、 构造专家系统、 制成机器人等等。纵观当代新兴科学技术的发展历史,人类在征服宇宙空间、 基本粒子, 生命起源等科学技术领域的进程中历经了崎岖不平的道路。 我们也会看到,

5、探索人脑功能和神经网络的研究将伴随着重重困难的克服而日新月异。1.1.2 人工神经网络人工神经网络(ArtificialNeuralNetworks, ANN)系统是20 世纪 40 年代后出现的。它是由众多的神经元可调的连接权值连接而成,具有大规模并行处理、分布式信息存储、良好的自组织自学习能力等特点。BP( BackPropagation)算法又称为误差反向传播算法,是人工神经网络中的一种监督式的学习算法。BP 神经网络算法在理论上可以逼近任意函数,基本的结构由非线性变化单元组成,具有很强的非线性映射能力。而且网络的中间层数、各层的处理单元数及网络的学习系数等参数可根据具体情况设定,灵活性

6、很大, 在优化、 信号处理与模式识别、智能控制、故障诊断等许多领域都有着广泛的应用前景。工作原理人工神经网络是由大量的简单基本元件神经元相互联接而成的自适应非线性动态系统。每个神经元的结构和功能比较简单,但大量神经元组合产生的系统行为却非常复杂。人工神经网络反映了人脑功能的若干基本特性, 但并非生物系统的逼真描述, 只是某种模仿、简化和抽象。与数字计算机比较, 人工神经网络在构成原理和功能特点等方面更加接近人脑, 它不是按给定的程序一步一步地执行运算, 而是能够自身适应环境、 总结规律、完成某种运算、识别或过程控制。人工神经网络首先要以一定的学习准则进行学习,然后才能工作。 现以人工神经网络对

7、于写“ A”、“ B”两个字母的识别为例进行说明,规定当“A”输入网络时,应该输出“1”,而当输入为“ B”时,输出为“0”。所以网络学习的准则应该是:如果网络作出错误的的判决,则通过网络的学习,应使得网络减少下次犯同样错误的可能性。首先,给网络的各连接权值赋予(0 ,1) 区间内的随机值,将“ A”所对应的图象模式输入给网络,网络将输入模式加权求和、与门限比较、再进行非线性运算,得到网络的输出。在此情况下,网络输出为“1”和“ 0”的概率各为50%,也就4是说是完全随机的。这时如果输出为“1” ( 结果正确 ) ,则使连接权值增大,以便使网络再次遇到“ A”模式输入时,仍然能作出正确的判断。

8、如果输出为“0” ( 即结果错误 ) ,则把网络连接权值朝着减小综合输入加权值的方向调整,其目的在于使网络下次再遇到“A”模式输入时,减小犯同样错误的可能性。如此操作调整,当给网络轮番输入若干个手写字母“A”、“ B”后,经过网络按以上学习方法进行若干次学习后, 网络判断的正确率将大大提高。这说明网络对这两个模式的学习已经获得了成功,它已将这两个模式分布地记忆在网络的各个连接权值上。当网络再次遇到其中任何一个模式时,能够作出迅速、准确的判断和识别。一般说来,网络中所含的神经元个数越多,则它能记忆、识别的模式也就越多。特点( 1)普通计算机的功能取决于程序中给出的知识和能力。显然,对于智能活动要

9、通过总结编制程序将十分困难。人工神经网络也具有初步的自适应与自组织能力。在学习或训练过程中改变突触权重值,以适应周围环境的要求。 同一网络因学习方式及内容不同可具有不同的功能。人工神经网络是一个具有学习能力的系统,可以发展知识,以致超过设计者原有的知识水平。通常,它的学习训练方式可分为两种,一种是有监督或称有导师的学习,这时利用给定的样本标准进行分类或模仿;另一种是无监督学习或称无为导师学习,这时,只规定学习方式或某些规则,则具体的学习内容随系统所处环境(即输入信号情况)而异, 系统可以自动发现环境特征和规律性,具有更近似人脑的功能。( 2)泛化能力泛化能力指对没有训练过的样本,有很好的预测能

10、力和控制能力。特别是, 当存在一些有噪声的样本,网络具备很好的预测能力。(3) 非线性映射能力当对系统对于设计人员来说,很透彻或者很清楚时,则一般利用数值分析,偏微分方程等数学工具建立精确的数学模型,但当对系统很复杂,或者系统未知,系统信息量很少时,建立精确的数学模型很困难时,神经网络的非线性映射能力则表现出优势,因为它不需要对系统进行透彻的了解,但是同时能达到输入与输出的映射关系,这就大大简化设计的难度。(4) 高度并行性5并行性具有一定的争议性。承认具有并行性理由:神经网络是根据人的大脑而抽象出来的数学模型, 由于人可以同时做一些事,所以从功能的模拟角度上看,神经网络也应具备很强的并行性。

11、下面将人工神经网络与通用的计算机工作特点来对比一下:若从速度的角度出发,人脑神经元之间传递信息的速度要远低于计算机,前者为毫秒量级,而后者的频率往往可达几百兆赫。但是, 由于人脑是一个大规模并行与串行组合处理系统,因而, 在许多问题上可以作出快速判断、决策和处理,其速度则远高于串行结构的普通计算机。人工神经网络的基本结构模仿人脑,具有并行处理特征,可以大大提高工作速度。人脑存贮信息的特点为利用突触效能的变化来调整存贮内容,也即信息存贮在神经元之间连接强度的分布上,存贮区与计算机区合为一体。虽然人脑每日有大量神经细胞死亡(平均每小时约一千个),但不影响大脑的正常思维活动。普通计算机是具有相互独立

12、的存贮器和运算器,知识存贮与数据运算互不相关,只有通过人编出的程序使之沟通,这种沟通不能超越程序编制者的预想。元器件的局部损坏及程序中的微小错误都可能引起严重的失常。1.1.3 BP神经网络模型BP网络能学习和存贮大量的输入- 输出模式映射关系,而无需事前揭示描述这种映射关系的数学方程。 它的学习规则是使用最速下降法,通过反向传播来不断调整网络的权值和阈值,使网络的误差平方和最小。BP 神经网络模型拓扑结构包括输入层(input )、隐层(hidelayer)和输出层 (outputlayer)。BP神经网络算法是在BP 神经网络现有算法的基础上提出的, 是通过任意选定一组权值,将给定的目标输

13、出直接作为线性方程的代数和来建立线性方程组,解得待求权,不存在传统方法的局部极小及收敛速度慢的问题,且更易理解。1.1.3.1传统的 BP算法简述BP 算法是一种有监督式的学习算法,其主要思想是:输入学习样本,使用反向传播算法对网络的权值和偏差进行反复的调整训练,使输出的向量与期望向量尽可能地接近,当网络输出层的误差平方和小于指定的误差时训练完成,保存网络的权值和偏差。具体步骤如下:( 1)初始化,随机给定各连接权w,v及阀值 i , rt 。( 2)由给定的输入输出模式对计算隐层、输出层各单元输出bj=f ( wijai- j ) ct=f ( vjtbj rt )式中: bj 为隐层第j

14、个神经元实际输出;ct 为输出层第t 个神经元的实际输出;wij为输入层至隐层的连接权;vjt为隐层至输出层的连接权。6dtk= (ytk ct ) ct ( 1ct ) ejk= dtvjtbj( 1bj )式中: dtk 出 的校正 差;ejk 的校正 差。( 3) 算新的 接 及 , 算公式如下:vjt ( n+1) =vjt ( n) +?琢 dtkbjwij( n+1)=wij ( n) +?茁 ejkaikrt ( n+1) =rt (n) +?琢 dtk j (n+1) =j ( n) +?茁 ejk式中: ?琢, ?茁 学 系数(0?琢 1, 0?茁 1)。( 4) 取下一个

15、入模式 返回第2 步反复 直到网 出 差达到要求 束 。 的 BP 算法, 上是把一 本 入/ 出 化 一个非 性 化 ,并通 梯度下降算法,利用迭代运算求解 的一种学 方法,但其收 速度慢且容易陷入局部极小, 此提出了一种新的算法,即高斯消元法。1.1.3.2改进的 BP网络算法改 算法概述此前有人提出:任意 定一 自由 ,通 函数建立 性方程 ,解得待求 。本文在此基 上将 定的目 出直接作 性方程等式代数和来建立 性方程 ,不再通 函数求逆来 算神 元的 出, 化了运算步 。没有采用 差反 原理,因此用此法 出来的神 网 果与 算法是等效的。其基本思想是: 由所 的 入、 出模式 通 作

16、用于神 网 来建立 性方程 ,运用高斯消元法解 性方程 来求得未知 ,而未采用 BP网 的非 性函数 差反 的思想。改 算法的具体步 定的 本模式 ,随机 定一 自由 ,作 出 和 含 之 固定 ,通 函数 算 的 出,再将 出 与 的 作 待求量,直接将目 出作 等式的右 建立方程 来求解。 定 如下符号( 1): x( p) 入 的 入矢量;y( p) 入 入 x( p) 出 的 出矢量;t ( p)目 出矢量;n,m,r 分 入 、 和 出 神 元个数; W 与 入 的 矩 ;V 出 与 的 矩 。具体步 如下:( 1)随机 定 和 入 神 元的初始 wij 。( 2)由 定的 本 入x

17、i ( p) 算出 的 出aj ( p)。 方便起 将 1网 中的 写入 接 中去,令: j=wnj , x( n) = 1, :aj ( p) =f ( wijxi( p)( j=1 , 2 m1)。7( 3) 算 出 与 的 vjr 。以 出 的第 r 个神 元 象,由 定的 出目 tr ( p)作 等式的多 式 建立方程,用 性方程 表示 :a0( 1) v1r+a1 ( 1) v2r+ +am( 1) vmr=tr ( 1)a0( 2) v1r+a1 ( 2)v2r+ +am( 2)vmr=tr ( 2) a0( p) v1r+a1 ( p)v2r+ +am( p) vmr=tr (

18、p) 写 : Av=T 了使 方程 有唯一解,方程矩 A 非奇异矩 ,其秩等于其增广矩 的秩,即:r ( A) =r (A B),且方程的个数等于未知数的个数,故取m=p,此 方程 的唯一解 :Vr=v0r , v2r , vmr ( r=0 , 1, 2m 1)( 4)重复第三步就可以求出 出 m个神 元的 ,以求的 出 的 矩 加上随机固定的 与 入 的 就等于神 网 最后 的 矩 。1.1.3.3计算机运算实例 以神 网 最 的XOR 用 VC 程运算 行比 (取神 网 构 2 4 1型), 算法和改 BP 算法的 差(取 量因子=0 0015,步 =1653)81.2 决策树1.2.1

19、 简介项目风险, 判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。 在机器学习中, 决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。Entropy= 系统的凌乱程度,使用算法 ID3,C4.5 和 C5.0 生成树算法使用熵。这一度量是基于信息学理论中熵的概念。决策树是一种树形结构, 其中每个内部节点表示一个属性上的测试, 每个分支代表一个测试输出,每个叶节点代表一种类别。分类树 (决策树)是一种十分常用的分类方法。他是一种监管学习,所谓监管学习就是给定一堆样本, 每个样本都有一组属性和一个类别,这些类别是事

20、先确定的,那么通过学习得到一个分类器, 这个分类器能够对新出现的对象给出正确的分类。 这样的机器学习就被称之为监督学习。1.2.2 组成决策点, 是对几种可能方案的选择,即最后选择的最佳方案。如果决策属于多级决策,则决策树的中间可以有多个决策点,以决策树根部的决策点为最终决策方案。状态节点,代表备选方案的经济效果(期望值),通过各状态节点的经济效果的对比, 按照一定的决策标准就可以选出最佳方案。由状态节点引出的分支称为概率枝,概率枝的数目表示可能出现的自然状态数目每个分枝上要注明该状态出现的概率。结果节点,将每个方案在各种自然状态下取得的损益值标注于结果节点的右端。1.2.3 画法机器学习中,

21、 决策树是一个预测模型;他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出,若欲有复数输出, 可以建立独立的决策树以处理不同输出。数据挖掘中决策树是一种经常要用到的技术,可以用于分析数据,同样也可以用来作预测。9从数据 生决策 的机器学 技 叫做决策 学 , 通俗 就是决策 。一个决策 包含三种 型的 点:决策 点:通常用矩形框来表示机会 点:通常用 圈来表示 点:通常用三角形来表示决策 学 也是 料探勘中一个普通的方法。在 里, 每个决策 都表述了

22、一种 型 构,它由它的分支来 型的 象依靠属性 行分 。每个决策 可以依靠 源数据 的分割 行数据 。 个 程可以 式的 行修剪。 当不能再 行分割或一个 独的 可以被 用于某一分支 , 程就完成了。 另外,随机森林分 器将 多决策 合起来以提升分 的正确率。决策 同 也可以依靠 算条件概率来构造。决策 如果依靠数学的 算方法可以取得更加理想的效果。数据 已如下所示:(x,y)=(x1,x2,x3,xk,y)相关的 量Y 表示我 去理解,分 或者更一般化的 果。其他的 量x1,x2,x3等 是帮助我 达到目的的 量。决策 上是将空 用超平面 行划分的一种方法,每次分割的 候, 都将当前的空 一

23、分 二,比如 下面的决策 :就是将空 划分成下面的 子:101.2.4 决策树的剪枝剪枝是决策树停止分支的方法之一,剪枝有分预先剪枝和后剪枝两种。预先剪枝是在树的生长过程中设定一个指标,当达到该指标时就停止生长,这样做容易产生“视界局限”,就是一旦停止分支, 使得节点 N成为叶节点, 就断绝了其后继节点进行 “好”的分支操作的任何可能性。 不严格的说这些已停止的分支会误导学习算法,导致产生的树不纯度降差最大的地方过分靠近根节点。 后剪枝中树首先要充分生长,直到叶节点都有最小的不纯度值为止,因而可以克服“视界局限”。然后对所有相邻的成对叶节点考虑是否消去它们,如果消去能引起令人满意的不纯度增长,

24、 那么执行消去, 并令它们的公共父节点成为新的叶节点。这种“合并” 叶节点的做法和节点分支的过程恰好相反,经过剪枝后叶节点常常会分布在很宽的层次上,树也变得非平衡。后剪枝技术的优点是克服了“视界局限”效应,而且无需保留部分样本用于交叉验证, 所以可以充分利用全部训练集的信息。但后剪枝的计算量代价比预剪枝方法大得多, 特别是在大样本集中,不过对于小样本的情况,后剪枝方法还是优于预剪枝方法的。1.2.5 决策树的应用某公司承担一段铁路维修任务,现因进入雨季, 需要停工三个月,在停工期间如果搬走机械,需搬运费1800 元,如果将机械留在原处,一种方案是花500 元做防护措施,防止雨水浸泡机械,如不做

25、防护措施,发生雨水浸泡时将损失10000 元,如下暴雨发生洪水时,则不管是否有防护措施,施工机械留在原处都将受到60000 元得损失, 根据资料, 该地区夏季11高水位的发生率是 25%,洪水的发生率是 2%,请问 : 试用决策树法分析该公司施工队要不要搬走施工机械以及要不要做防护措施?1. 绘制决策树,见图。2. 计算期望值。状态点 2 的期望值: 0状态点 3的期望值: (-60000)0.02=-1200( 元 )状态点 4的期望值: (-60000)0.02+(-10000) 0.25 = -3700( 元 )3. 选择损失最小的方案。min(0-1800),(-1200-500),(

26、-3700-0)=-1700(元 )以不搬走施工机械并作好防护措施最为合算。1.2.6 决策树优化随机森林随机森林是一个高度灵活的机器学习方法,拥有广泛的应用前景,从市场营销到医疗保健保险。既可以用来做市场营销模拟的建模,统计客户来源,保留和流失。 也可用来预测疾病的风险和病患者的易感性。12随机森林是一个可做能够回归和分类。它具备处理大数据的特性,而且它有助于估计或变量是非常重要的基础数据建模。1.2.6.1随机决策树我们知道随机森林是其他的模型聚合,但它聚合了什么类型模型?你可能已经从其名称、随机森林聚合分类(或回归)的树中猜到。决策树是由一系列的决策的组合,可用于分类观察数据集。1.2.

27、6.2随机森林算法引入了一个随机森林来自动创建随机决策树群。由于树随机生成的树,大部分的树( 或许 99.9%树) 不会对学习的分类/ 回归问题都有意义。如果观察到长度为45,蓝眼睛,和2 条腿,就被归类为红色。1.2.6.3树的投票所以 10000 个(概率上) 糟糕的模型有TMD什么好的?好吧,这样确实没什么特别的好处。但是随着很多糟糕的决策树被生成,其中也会有很少确实很优秀的决策树。当你要做预测的时候,新的观察到的特征随着决策树自上而下走下来,这样一组观察到13的特征将会被贴上一个预测值/ 标签。一旦森林中的每棵树都给出了预测值/ 标签,所有的预测结果将被归总到一起,所有树的模式投票被返

28、回做为最终的预测结果。简单来说, 99.9%不相关的树做出的预测结果涵盖所有的情况,这些预测结果将会彼此抵消。少数优秀的树的预测结果将会超脱于芸芸“噪音”,做出一个好的预测。1.2.6.4一个映射的例子随机森林在没有精心准备的数据映射的情况下也能学习。以方程f(x) = log(x)为例。制造一些假数据,并且加上一点儿噪音。import numpy as npx = np.random.uniform(1, 100, 1000)y = np.log(x) + np.random.normal(0, .3, 1000)14如果我们建立了一个基本的线性模型通过使用x来预测 y,我们需要作一条直线,

29、算是平分 log (x)函数。而如果我们使用一个随机的森林,它不会更好的逼近log (x)曲线并能够使得它更像实际函数。你也许会说随机森林有点扰乱log(x)函数。不管怎样我都认为这做了一个很好的说明如何随机森林并未绑定于线性约束。1.2.6.3变量选择随机森林最好的用例之一是特征选择。尝试很多决策树变种的一个副产品就是你可以检测每棵树中哪个变量最合适/ 最糟糕。当一棵树使用一个变量,而另一棵不使用这个变量,你就可以从是否包含这个变量来比较价值的减少或增加。优秀的随机森林实现将为你做这些事情,所以你需要做的仅仅是知道去看那个方法或参数。在下述的例子中,我们尝试去指出对于将酒分为红酒或者白酒哪个变量是最重要的。15分类随机森林也很善于分类。它可以被用于为多个可能目标类别做预测,它也可以被校正输出概率。 你需要注意的一件事情是过拟合。随机森林容易产生过拟合,特别是在数据集相对小的时候。当你的模型对于测试集合做出“太好”的预测的时候就应该怀疑一下了。产生过拟合的一个原因是在模型中只使用相关特征。然而只使用相关特征并不总是事先准备好的,使用特征选择(就像前面提到的)可以使其更简单。16回归是的,它也可以做回归。我们已经发现随机森林不像其它算法对分类变量或

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论