版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 基于社区发现和关联规则分析的供应商围串标审计方法探索 程向华 李汉秋 章崎峰 尤震 罗天摘要供应商间围串标行为是困扰企业招标采购工作的难点问题之一,而找到供应商间的紧密关系,则是破解这一难题的关键所在。本文通过社区发现算法和关联规则分析算法,对企业的招标采购数据进行分析,识别其团组社区并获得内部关系结构,从中发现供应商间隐藏的关联关系,为审计人员进行分析提供有效线索。关键词招投标审计 围串标 数据分析一、导言自招标投标采购要求实施及推广以来,供应商围串标在企业采购招标过程中屡见不鲜。对企业
2、采购来说,该行为可能对招标项目质量产生不利影响。对此,常见的内部审计策略是对每个项目进行检查,判断是否存在国家招标投标法实施条例中所列投标文件由同一单位编制、投标文件异常一致、投标保证金从相同账户转出等串通投标情形,或者通过分析供应商之间是否存在股权相关投资、高管交叉任职等直接关系。但传统方式核实工作量大、效率低,且难以发现供应商之间更为隐蔽的私下挂靠或协商组团投标行为。随着电子招采平台的普及与企业信息化程度的提高,更有效率的一种策略是根据供应商投标行为特征,在审计模型中对供应商紧密关系进行识别,找出疑似围串标企业组,进一步分析相关投标项目。现有关联组团研究中,王俊芳、游松庆等采用频繁集项等关
3、联算法对供应商投标数据进行分析,挖掘供应商之间的内部关系。但实际应用中,上述方法仍难以满足围串标行为识别分析的需要:一是简单的关联规则识别疑似围串标团组精准度较低;二是未经分类的供应商投标数据在频繁项集计算中会产生较多冗余数据。本文整合社区发现和关联规则分析算法进行数据挖掘应用,能够有效识别供应团组社区并获得其内部关系结构,对于在合同招投标审计过程中辨识围串标行为具有显著作用。二、主要审计思路及相关算法(一)审计思路首先,利用社区发现算法对招采数据中涉及的供应商进行初步分组。其次,在供应商初步分組中逐个应用关联规则分析寻找组内频繁项集,即经常同时参与某些项目投标的供应商团组,在结果中设置提取规
4、则,进一步提升社区名单的准确性与覆盖面,并获得团组内部的关系结构。最后,应用数据分析提取的供应商团组,反查相关合同标的,确认有关行为及事实。(二)涉及算法介绍1.louvain社区发现算法。louvain算法是一种基于模块度的社区发现算法,通过模块度来衡量一个社区的紧密程度。本例中,供应商视为节点,一起投标的同类供应商视为社区,供应商在寻源单中共同出现次数为权重,次数越多,边权越大。模块度定义函数q如下:其中,aij代表节点i和节点j之间的边权;ki和kj分别代表所有与节点i和节点j相连的边的权重之和;m代表所有的边权之和;ci和cj分别代表节点i和节点j所属的社区;表示克罗内克函数。若一个供
5、应商(节点)加入到某个社区(类别)中会使该社区的模块度有最大程度的增加,则认为该节点属于该社区;若未能使其模块度增加,则该供应商留在原社区中,从而实现对供应商分类的目的。2.apriori关联规则分析算法。apriori算法是通过连接产生候选项及其支持度然后通过剪枝生成频繁项集(疑似供应商团组),并分析频繁项集产生强关联规则。相关指标如下:(1)支持度(support)。支持度代表供应商寻源单中当前供应商组合的频繁程度,如果该组合的支持度大于预设的阈值,则认为该组合为疑似团组(频繁项集)。apriori算法采用反向减枝计算,即“若一个项目集是非频繁项集,则它的所有超集也是非频繁项集”,可以减少
6、遍历运算量。(2)置信度(confidence)。置信度代表在供应商a投标的情况下,供应商c同时出现的概率。(3)提升度(lift)。提升度用于衡量供应商a与c投标的相关性关系:当提升度大于3时,一般认为关联规则有价值;若供应商a与c相互独立,则提升度恰好为1;若提升度小于1,则表示供应商a与c互斥。但实际应用中,该指标易受零事务影响,零事务即与团组无关的供应商投标次数。如总投标次数1000次中,供应商a、c分别参与500次、600次,供应商a、c共同投标次数300次,则lift(ac)为1;若总投标次数为10000次,则lift(ac)变为10。3.kulc度量与不平衡比(ir)。引入不受零
7、事务和事务总数影响的kulc度量与不平衡比(ir),减小因置信度和支持度失效产生的影响。kulc度量值在0-1之间,值越大,供应商之间联系越紧密。但当kulc度量值在0.5左右时,单从kulc度量无法判断当前团组是否有价值。因此,引入不平衡ir比进行参考。当不平衡比接近0时,认为关联关系是平衡的;不平衡比越大,则关联关系越不平衡。若kulc度量值接近0.5并且不平衡比接近0,则认为该关联关系是没有价值的。三、具体审计流程根据上述louvain与apriori算法,内部审计需结合统计学相关知识并根据围标具有寻源单中全部或大部分供应商同属一个团体这一显著特征,通过全局统计和分析各个寻源单内部的关系
8、这两个角度,评估各种团体的出现形式,筛选出可能性较大的目标组合,具体流程见图1。流程的关键步骤如下:一是获取招采数据。从招采系统中获取采购寻源单,主要包括采购单位、项目名称、投标供应商名单、中标人名称、中标金额等字段信息。二是数据清洗、转换。根据实际需要,剔除无效数据,如同一寻源单中重复出现的供应商,并对源数据进行转换,提取出关键数据。三是供应商初步分组。按照同类寻源单各供应商之间边权增加1原则,对全局数据进行统计,遍历全部寻源单条目,形成涵盖全部供应商关系的网络。然后,利用louvain对样本数据进行分类,将关系密切的供应商划分到同一个社区,减少后续apriori的运算时间,提升效率与准确度
9、。四是形成高关联度供应商团组。对分类之后的每一个初步分组,单独运行apriori算法,利用二分法寻找每个社群适用的最小支持度,获得尽可能全面的频繁项集结果,计算出对应的关联关系、kulc度量和不平衡比,并筛选出有价值的频繁项集。五是辅助审计。根据上述频繁项集,反查相关合同标的,通过具体合同分析,排查有关围串标行为。四、方法运用示例(一)社区发现结果通过louvain社区分类算法,将采购寻源单中560家供应商按互相之间同时出现的频繁程度及业务范围划分为9个组别,如建筑建设、通信、工程设计、保险、电器设备等。从结果上看,划分到同一个社区中的供应商业务方向大多一致,划分结果较为精准,见图2、图3。此
10、举可以减少大量零事务,为后续使用apriori时设置最小置信度提供便利。若不对采购寻源单数据进行预先划分,在后续使用apriori时,在设置最小置信度时会遇到困难。因为供应商种类繁杂,导致零事务数量巨大:若设置的最小置信度偏大,則会遗漏大量频繁项集,导致输出的结果覆盖面大幅下降;若设置的最小置信度偏小,则会导致无法及时删去非频繁项集,失去apriori算法的优势,导致计算时间指数性增长。(二)关联规则分析结果一部分提升度大于3的频繁项集的kulc度量在0.5左右,不平衡比接近0。在对该部分结果进行排查之后发现,该部分结果虽然提升度大于3,但并非有价值的供应商团组,见图4。由此可见,单独考虑提升
11、度情况下的结果输出形式并不准确。在引入kulc度量与不平衡比之后,筛选出的供应商团组占比从原来只考虑提升度情况下的73.5%下降到39.7%,大幅减少了输出的数据量,提升了精准度,减少了后续审计疑点排查时间,见图5。以第2组社区团体中的供应商组合abc进行说明。对于供应商abc,其对应的置信度为0.4,提升度为57.4,kulc度量值为0.7,不平衡比为0.6,见图6。该供应商团组提升度极高,kulc度量值偏高,不在红色标注的0.40.6的范围之内,并且不平衡比较大,远超红色标注的0.2的阈值。具备作为疑点的显著特征,并且供应商a有可能是该团组的主导人。将该疑点事务提出,结合该组合中供应商a的
12、中标率与全局情况下供应商a的中标率进行分析,发现该组合中供应商a的中标率明显偏高。该组合极有可能是高度关联团组,并且供应商a有可能是主导人。根据上述分析结果,审计人员进一步查找该团组相关合同,分析确认是否存在招标投标法实施条例所列述的串通投标情形。从结果来看,该方法数据筛选精准度较高、覆盖范围较广,极大地缩短了排查时间,辅助审计的作用较为明显。面对大量的寻源单数据,通过采用louvain分类结合apriori挖掘的方式,能较好地克服寻源单数量庞大、种类繁多等难点;能对大量标的进行快速分类,较为精准地划分项目类别。在对各个组别分别进行apriori挖掘时,采用最小二分法快速寻找出适用于对应情况下
13、的最小支持度,能免除对每一个组别设置特定最小支持度的流程,可使审计人员将精力主要集中在筛选出的疑似围标团伙名单,扩大审计覆盖面,提高围标团伙发现率,降低审计风险。需要指出的是,在最终结果筛选的过程中,如何设置置信度、提升度、kulc度量及不平衡比,以更为精准地筛选出有价值的疑点事务,仍需进一步与招标实际核实、分析。由于标的数量庞大,某些项目类型本身参与者不多,按照本算法,此类参与者可能会在结果中被误认为是疑点团组输出。如何在结果中进一步筛选出高精准度的疑点团组,仍需根据各企业招标实际,通过大量数据反复验证调试各指标的参数。(作者单位:浙江省能源集团有限公司,邮政编码:310007,电子邮箱:513972995)主要参考文献迟殿委.浅析大数据关联规则挖掘
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 法院安检人员管理制度汇编(3篇)
- 客户露营活动策划方案(3篇)
- 甘肃泵房施工方案(3篇)
- 景区票务系统管理制度
- 罕见自身免疫病的免疫耐受诱导策略
- 2026广东佛山荣山中学面向社会招聘临聘教师4人备考题库及答案详解(考点梳理)
- 2026云南玉溪市峨山县教育体育系统招聘毕业生6人备考题库及参考答案详解
- 2026江西赣州市人力资源有限公司招聘劳务派遣制工作人员1人备考题库含答案详解
- 罕见肿瘤的个体化治疗特殊人群治疗考量因素
- 新公司会计财务制度
- 2025年浙江高考物理试题答案详解解读及备考指导
- 急性肝衰竭的护理研究进展
- DB45-T 2883-2024 健康体检机构护理质量管理规范
- GB/T 45870.1-2025弹簧测量和试验参数第1部分:冷成形圆柱螺旋压缩弹簧
- 智慧教育生态的协同发展机制及其实践案例研究
- 行为面试法培训课件
- 征信培训管理办法
- 宫颈机能不全超声诊断与治疗
- 仓库物品丢失管理办法
- 工艺管线焊后热处理施工技术方案
- 无人机行业研究报告
评论
0/150
提交评论