




下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据挖掘在信息披露中的应用一一基于台湾股票市场投资者服务角度目录、引言.1(一).研 究 背 景1(二).研 究 意 义2、文献综述.2(一).信 息 披 露2(二).股 权 结 构 与 信 息 披 露3(三).数 据 挖 掘3(四).由决策树提取分类规则4(五).提 高 精 度5、实证研究.5(一).数 据 准 备5(二).论 文 结 构6(三).实 证 结 果7、结论.10、论文评析.111数据 挖掘在信息披露中的应用 基于台湾股票市场投 资者服 务角度Chi-Lin Lu Ta-Cheng Chen摘要 :金融理论与实践在过去几十年已经证明无论公司监管的重要性无论是公司经营还是保护投资者
2、。信息披露作为公司监管的一个关键环节,信息披 露现状良好有助于有效地减少公司内部和外部信息不对称和代理成本。然而投 资者在下一年度官方报告出来之前很难评估上市公司信息披露的现状。该研究 的主要目的是挖掘上市公司(台湾股票市场)信息披露现状中的隐含知识模型。本文主要的运用决策树算法探索对台湾股票市场上市公司的信息透明度水平 进 行分类的分类规则。与此同时,利用 boosting (提升) 构建多分类器模型。数 据结果表明,多分类器模型降低了一类错误和二类错误,提高了分类精度。 特 别地,数据挖掘的方法可以发展成类似于专家咨询系统用于预测上市公司信 息 披露现状并对其进行分类的计算机模型。 关键词
3、:信息披露;数据挖掘;分类规则。一、引言(一 )研究背景最近几年类似于美国安然公司和世界通信公司会计丑闻事件的爆发, 对实 务界和学术界都敲响了警钟需要更加关注公司监管。此类问题的出现大 多 是由于公司内部与外部信息不对称。国际经济合作与发展组织( OECD 已经提 出以公司监管作为直接的监管系统,通过透明度和效率机制实现公司价值最大化。OECDS 2004 年发布了公司监管的 6 个原则,在这 6 个原则中,信息披露 原则是保证内部和外部治理机制是否发挥作用的关键的原则。内部和外部治理机制是由世界银行在 1999 年定义的, 其主要内容如下:内部控制包括董事会的 监管、管理层的工资薪酬激励计
4、划(避免产生委托代理成本)等;外部控制包括外部审计、政府和投资者监管等。这两大监管发挥作用的效果大小依赖于公司信息披露的质量。某些上市公司倾向于发公司有利的消息布对消息而隐瞒对自己不利的消息,该行为违背了信息披露准则,且存在隐瞒不利消息的上市公司往往已经出现财务问题。全世界的股票市场当局应该对上市公司披露的信息进行监管和评估,以维护投资者和公众的利益。2二 )研究意 义信息披露不仅仅是将其年度评估报告和年度财务报告公布或者上传至网上。根据美国 2002 年公众公司会计改革和投资者保护法案规定公司披露的信息 在保证其准确性以外必须涵盖以下方面:资产负债表外的业务、模拟财务信 息、 大股东的股票交
5、易信息、管理层对内部控制的评估报告、首席执行官的职业 资 格、财务专家的意见等。显而易见地是,普通投资者甚至专业投资者有时很 难 理解公司披露的信息,因而,我们永远无法知道披露的信息是否准确地描述 了 真实的情况,只有权威机构才能鉴别信息是否真实。为更好地理解上市公司 的 透明度,台湾证券与期货交易所对所有上市公司的信息透明度水平进行了调 查, 尽管调查报告是年度报告,但是其经常花费超过一年的时间完成该工作。因 此,即使投资者在知道该过期报告后也不能做什么改变 。 (信息公布不及时,信息具 有时效性 )。同时,信息披露和公司的经营业务有明显的关系。Chen ,Jaggi(2000)和 Eng
6、,Mak (2003) 利用数据挖掘的方法证明了信息披露状况和公司所有权、 董事会构成、企业特征等存在联系。本文应用数据挖掘技术发展了透明度评 估 方法,有助于投资者理解公司经营管理情况,及时地做出正确的投资决策。本文的创新之处在于, 之前很少有人将数据挖掘技术应用到该领域用 决策树方法挖掘股权结构和公司特征的数字特征,本文构建的模型可以及时地对处于不同股权结构和公司特征下的具有不同透明度水平的上市公司的信息披露现状进行预测和分类和预测,而不需要等待下一年度的官方报告 ,(与传统专 家对信息披露状况进行事后评估相比,应用本文构建的模型进行预测和分类更具有时效性 )。二、 文 献综述(一 )信息
7、披 露现代公司理论表明公司监管的主要问题是公众和公司内部信息不对称问题。投资者希望上市公司公布高质量的信息的需求激发了对上市公司信息透明度 需 求。信息透明度高的上市公司在股票市场上股票价格更高。 Ball,Brown(1968) 应用事件研究法得出公布会计盈余对股票价格具有正向影响。 Amir,Lev (1996) 和 Eng ,Mak (2003) 的研究成果表明财务信息对公司股票价格和 公司价3值有显著的正向影响。 Verrecchia (1983) 指出信息披露可以应用于公司 监管和减少代理成本的问题,尽管需要付出一些代价,但是投资者对信息透 明 度更高的信息更有投资信心。 Bushe
8、e 和 Noe (2000) 研究信息披露和急购投资 者的关系,结果表明机构投资者更倾向于投资透明度高的公司,而不是透明度较低的公司。Sandeep, Amra,和 Liliane(2002)通过对四大新兴市 场的研究发现信息披露也是公司监管的重要一环。以上研究表明,信息披露在公司监管中占有重要地位。(二 )股权结构与信息披露股权结构决定了监控程度,从而决定了信息披露的程度,研究表明股权结 构与信息披露之间存在着强相关关系。 Cerf(1962) 证明信息披露程度和公司 特 征如公司规模、管理层持股比例,杠杆作用等之间存在显著关系。最近关于 信 息披露和股权结构的实证研究表明公司监管和股票持股
9、披露情况有显著关系 。 Chen 和 Jaggi (2000)检验了独立非执行董事和信息披露状况的关系。 Eng 和 Mak (2003) 概况了股权结构和信息披露的意愿的联系。以上研究表明,股权结 构会影响信息披露现状,但是没有解释如何影响信息披露。(三 )数据挖掘数据挖掘经常被定义是挖掘隐含的、未知的、潜在的、有价值的信息的一 种方法,它可以被看成一个在某些特定领域的知识发现的形式。基于数据挖掘技术,将会建立可以进行预测和对主要问题进行分类的响应模型,比如像专家系统这样的模型。现实研究中,很多问题都是非线性关系,因此很难形成一个较为全面的模型(一个考虑所有变量相互独立的传统统计模型)。众所
10、周知,得益于数据获取和存储速度快、便宜等优点,存储在数据库里的数据以惊人的速度增长,与此同时也使得知识模型越来越难被发掘和为实践服务。如果数据挖掘技术能被应用到诊断信息披露和公司经营情况的关系中,投资者在投资时将会获得更多指导性意见。最近,非线性和复杂机器学习方法已经得到运用,如神经网络法、支持向量机(SVM、蚁群算法、遗传算法与 SVM 或者神经网络 结合的方法、模糊理论和粗糙集理论结合等方法。虽然上述文献论述了神经网络和支持向量机的重要意义,但无法建立模型和运用模型进行分类仍是上述 研究的主要缺陷。在训练后的 神经网络和支持向量机根据网络的内部分布赋权, 其存在4的主要问题是无法解释为什么
11、这么赋权是有效的。如果一个显性规则能被引入到赋权过程中而不是多层前馈网络赋权,则该规则对于隐含知识的获取是相当有价值的。基于数据挖掘技术, Wei & Dong( 2006)列出 6 种模型如下所列:分类、 聚类、关联规则、序列模式、估计和预测。因此,当决策树模型用于解决分类问题时,与此相关的 If-Then 规则也被引入该模型。本文决策树分类模型区 分 信息披露状况良好的公司和信息披露状况较差的公司。分类规则可被用于构建一个标准分类规则模型,解决复杂问题的标准化问题。 Roiger & Geatz( 2003)运用multiple-model方法提高分类精度。这些数据挖掘方法
12、已经广泛应用销售、银行、医学、制造业、客户关系管理领域,但是应用数据挖掘技 术 分析上市公司的信息披露问题较为少见。(四 )由决策树提取分类规则决策树在分类和预测中较为常用。 Han & Kamber( 2006)指出以决策树为 基础的分类并不需要行业信息和参数设置,因此,决策树分类是较为合适的 知 识挖掘的一种方法。决策树是一种类似于流程图的树结构,其中内部结点( 非 树叶结点)表示一个或者多个属性的测试,终端结点反映决策结果。显而易 见, 决策树可以转化为显式分类规则。各种决策树算法在各文献中被广泛应用。决策树归纳发展历程为:20 世纪70 年代后期到 80 年代初期,Quinla
13、n(1986)开发迭代二分器( ID3), 随后开发 C4.5(ID3 的后继),成为新的监督学习算法的性能比较基准。 1984 年多位统计学家( L. Breiman, J. Friedman,R. Olshen 和 C. Stone (Han & Kamber, 2006)出版著作classificationand regression tree (CART)一书介绍二叉决策树的产生,CATF 只支持一代二叉决策树即每个母节点最多只有两个子 节点。相反的, C4.5 算法母节点可以生成两个以上的子节点即一个母节点可以 生成各种各样的分支。 C4.5 和 CATR 都采用非回溯方法这
14、 种自顶向下递归的分 治方式构造的方法,但是 C4.5 应用树剪枝对数据进行筛选剔除分支中的噪声和 训练数据中的异常值。C4.5比其他决策树算法应用更广。规则是表示信息和少量知识的好方法,基于规则的分类器使用一组 If-5Then 规则进行分类 。一个 If-Then 规则是一个如下形式的表达式: If 条件 Then 结论(分类 )。对于一个给定元组,如果规则前件中的条件(即所有的属性测试)都成立,则而我们说规则前件被满足 (或者简单地说规则被满足) , 并且覆盖了该元 组。如果这些 If-Then规则可以被提取,这意味着可将潜在和有价值的知识转化 为 显性知识。这种 If-Then 规则可
15、以从决策树规则中提取,且 If-Then 规则更易 于 理解,特别是决策树特别庞大复杂。由决策树的每一个从根点到叶子节点的 分枝都可以得到一条用于判断数据元组类别的规则。每一个节点的分类标准是 由逻辑连接词 and 构成的规则前件,规则的结论包含类预测。逻辑词or 用于元 组分类时可按任意次序使用规则,每个规则之间是析取(or )关系,但是该 种 规则更难理解且结果更难解释,还可能会造成不相关和过度属性测试。因此, 为使规则集简明扼要,修剪规则集是很有必要的。对于给定的规则前件,不能 提高规则的估计准确率的任何条件都可以剪掉(即删除 )C4.5 具有对不必要 规则 的进行修剪从而提高分类精度的
16、优势。(五 )提高精度除了决策树中引入剪枝技术可提高精度以外,组合分类器也是常用方法之 一。bagging( 装袋)和 boosting (提升)是常用的组合分类方法。两种分类方 法都可用于分类和预测。两种组合分类方法都把 k 个学习得到的模型(或者 基 分类器)组合在一起,创建一个改进的复合分类模型。给定一个待分类元组,每个基分类通过返回类预测投票,组合分类器基于分类器的投票返回类预测 。 处理未知数据分类的问题时,与 bagging(装袋)相比,boosting (提升)往往得到更高的准确率( (Roiger & Geatz, 2003) 。三、 实证研究本文研究运用 SPSS的
17、C5.0 of Clementine 版块处理信息分类,C5.0 是 C4.5 决策树算法的最新版本。本文希望可以为投资者为评估台湾上市公司信息 披露程度提供隐形知识(即发掘已披露信息中所隐含的信息),从而帮助投 资 者投资于好的公司。一 )数据准 备6根据 Chen 等研究,本文选择了 17 个和信息透明度可能高度相关的特征变 量和 1个信息披露变量。数据来源 TEJ 资料库和证券暨期货市场发展基金会。每个公司信息披露的数据包括 18 个变量(见表 1)。18 个变量中的第一个变量 是反映各公司信息披露现状的变量(好或者坏 ),在調查的 389 家公司里面,信 息披露现状较好的公司有 114
18、家(占比 29.31%),信息披露现状较差的有 275 家 公司(占比 70.69%)。Tuble 1PradiUHm faciora uwd in the infonnaiMJii duclown: cnudclinj;VaribkrmoITInformalianAiuii/LiiKed b S.J 1.匕_ir】AELLPIXM丨divkKiixrc2,CI G hoUinK/nubiUtfMnEM thfVLiur ImkhnxPinxTLW hzlding/ous【山山i“l, Fuiripn hokluig1IJUI LZI J:-C1IVJIIIILCLUU.L5. Hkn:h h
19、oldingBlock hokler (mire thio 10%) holdingft, FduLlnlMlill|2 Sil clRunU、IntUick7, Hninm【LIKIit u ii onFittarx-iu instiluturt holditip/putstittJtJ1ri.Lholding ihlqMrihJ ctiL dtrix terc;dJKlhJctll dlllXlE IhIJlEl LLltt .Llklir;L、hbolduipvcnu:)c:u 1 h *111 iuuii k讥mk111 Jl口MilutiuMl invc4x biMduxg/oiiH
20、UuidinginHrxtiw holding11ratioTotal LiAbjliiy/iixal, exptomtoryBMCU12. EPSCarciin怜perI工firm jzdLtalifi Rciurn “n17. C皿匸匚“八PFElect run ic indutti (dummy - 1】ixticrinihiH讥iikliritrio dutnniw 01表 1 涵盖的主要内容为: 信息披露情况(由 SFI 发布);公司股权结构:管理层,董事会,国外投资者,战略投资者,家庭,金融机构,独立董事,政府,机构投资者等持股比例;公司经营情况:资产负债率,每股收益,公司规模,经
21、营方式(当家族经营时虚拟变量等于 1,专业经理人经营时,虚拟变量等于 0),研发费用与总资产的 比率,总资产收益率(ROA),公司所处行业(当为电子行业虚拟变量取 1,其他7行业取变量 0)。(二 )论文结构第一部分:定义问题。用已公布的数据和数据挖掘技术及时评估上市公司 信息透明度,向投资者提供上市公司信息披露现状的报告。第二部分:收集数据和对数据进行预处理。数据来源为数据来源TEJ 资料库和证券暨期货市场发展基金会。第三部分:选择数据挖掘的方法。用 C5.0 决策树算法挖掘可以作为评估上 市公司信息披露现状的变量。让投资者投资获取更多的利益和资金更安全。 应 用 Boosting (提升
22、)组合分类器的 C5.0决策树算法能提高分类精度。 第四部 分:分析数据挖掘的结果。挖掘隐性知识并将其转化为显性的If Then 规则,投资者在股票市场做出更精确的决策。(三 )实证结果1、分类规则提取为将具有良好信息披露的公司从数据集中选择出来,C5.0 决策树算法应用 了 14 个分类规则(见表 2)。像第一部分描述的一样,良 好信息披露是良好的 公司 监管的重要一环。对上市公司信息披露现状进行精确的评估不仅有利于 投 资者做 出及时有效的投资决策,也有利于督促上市公司提高其公司监管机制 。 从表 2 可 看出,公司规模和金融机构持股比例出现在决策树算法中的 14 个规则 前件中, 同时机
23、构投资者持股比例和所属行业出现在前 13 个规则前件中。因此, 公司规 模、金融机构持股比例、机构投资者持股比例和所属行业是评估一个 上 市公司的 信息披露现状是否良好的重要指标。国外投资者持股比例和家族持 股 比例是也是 很重要的评估指标,分别有 7 个、6 个前行规 则包含了这两个指标。8Thle SSLutei biaiB.01蜒min|tm tlfariifKiR Uli fdT lb色 邙丹 &KICMM/gdiipiL已Rtit IIf htm 1 7 -S.5 rd血*nmH FniUEUiinft IwiUin弋弋2.410 nd AiRNUinPiiJ tmtcior
24、 bU凸呻f JR *fi# tiai diefpry of ni( (jtivir - 0nd佔伯沏biikiinf e:ahd tFS n n肺dhciUinp ti.iMi imi n-nc ur uxtenaKkni diivcior聞町ogMFiitl M*w w JkCMiJt ituJ firm tutnd FPK CWnn殛工lfibim itre 17濟予wd naandat miiiinitiiLW IwMinic .2.410询油績山翩皿汨imia boldiiif - ih為0 it ndCH躍“ry nf induqry叭R mnd h YMpu iLL-JiLiip
25、讣忙:町.i FlS- 1 I 翼翼t-riiLk U氐H i sirjr.扁in?寸中:.口iJjrvJz hoki- /叫丄i “njfri Lil芒叮置.- 23iwb丄|iT tbnn lixMtl iIIVE4ISIEHIhcMliif 32/410* -ifSid- tfh to IdulUIKIR.lUiSWufccTH rum弔営1 -wJ fn.iriCTJil irnr n. n hkJihf 2.4)n .mJ. cd*hd lunhih h.Urtg “ l*uVtvii k-kJm;I2,H jikd g常tniirxm h训di i唱;9,網ind wp. J.K
26、1 itHl knkij0jHi( (hJ Ftiinhnt卄训也唔71M AtUdbi ritiol丈口ie KIf tirrn itxc * 1 7JM5 and 1 miincjul ifittiimKMn hold in; 2/JSu and ciT.c#orul inww林刮出琴12 14 ind f-*errwH5Bi hAldin# * *.4IU and ru r S.MXl and Umily holding柑HU thdholdtfif 0撫Kutc *Jf ftm itae tiUJU d FhuiM inMicuiHn hoUing 2.410 i-Bi atttfxy
27、 of oduu-y (0 nd fanilr hflbdkn . u,oe ud inmuoul imnof12.M ind(kwmnKnT hidme f 4.41() inrAr5 O) andliniky hktin; -UiirtRula 10Rutt 11If ijim kZ4 1qnantdLIUEUUPtuklmi: *.4同点nd心/哙祁,EJpagEr,:仆*Ki Huir-vJ*-If m CI7.2UJHItamail iHBtadM tolAf 2.410 Md aUffHyof wkkuy M iriiirtnMmiitiirhiiMii. 4.7S ud fcn
28、sue畑4Mla*Tie trutidgEmon $ udmi( (if indcpcndcni dirccmr bddinp - n tKZan4 nr-i ra hJbLn#饰iinu切却门切却门凶乜ua4创竝训皿匈 山律H*牡心口沖乍c?.7S曲 用汕、L口汗 gdb催rigdNE,烛血加山、我屮血佃Md*妳w h,也甲w】$QRale 1Jirfirmi6,75 and firm血吝-CJj 0riu wf ffitqiikjiieiinenihut UIf bun询耳JT 211 4囲nwici制tniiiiiian holdnig1O tlawiiLcacvcm1皿”这 14 个规
29、则前件可以形成用于对公司 信息披露现状进行分类的决策树模型。 同时,这些分类可以将隐性知识转化为显性知识。更多的C5.0 决策树算法结果见表 3。如表 3 所示,经过修正(剪枝)分类平均精度为 91.00%,其中 23 个公 司 信息披露状况良好的公司被错误划分为信息披露状况较差类别,12 个信息披 露状况较差的公司被错误划分为信息披露状况好的类别。Table 3ClaiificaLkin reiulh fnxn 14 nils obtained. Ihrough C5.0tiee(.hvjlied chIni QFJIUUuildi*ure:poorAvtrajat: snttJ cljaf
30、yiciiiion rJ(V9LOOK23(20J&%|263l?S(4%)2、提高分类精度9多层分类模型可以提高分类精度,boost ing (提升)组合分类器在提高决策树分类精度上优于 bagging(装袋)算法。本文应用 boosting (提升)组合分 类器建立多层分类模型。选取不同数量的基分类器(k 取不同的值),分类效果不同,基分类器必须是提前设定的。表4 是不同的基分类器对应的多层分类 模型的精度比较。k 的取值变化是 3 到 11.当 k 增加时,精度不一定增加。具有三 个基分类器学习模型(k 取 3)分类精 度最高(96.14%)。K 取奇数可以避免投 票时出现票数一
31、样的情况。Table 4The comparison of variouskleameni by xin舉C5.0 * i【h bcnxiinpC5,0 xMihmethodbtkisiinvTErXoi1 nfernuiLionTC.fxn吒Jt105(90.35%)ndj liiLire:gndillnfrj HiaL i心4 (L45 ij271;)dl-*wltrLilU C. XMKe*fTc-|诂rat:9启I】为综合评估前面各模型的分类效果,必须考虑错误分类带来的成本(Johnson & Wichern, 2002; West, 2000 )。一类错误是指将信息披露状况良好的公司错误的归为为信息披露状况较差的类别(弃真 ),二类错误是指将信息 披露状况较差的公司错误的归为信息披露状况较好的类别(存伪 )。显然地,犯 二类错误带来的成本明显高于犯一类10错误带来的成本。因此,在评估分类效果时,应该更加关注二类错误。表6 是单决策树模型和三分类器模型一类、二 类错误比较。三分类器模型的犯一类错误和二类错误的概率明显小于单决策树模型,因此,boost
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 足疗按摩技术操作试题及答案
- 坐月子饮食禁忌试题及答案
- 2025年罕见病药物研发激励政策与生物制药企业国际化发展报告
- 考点解析-沪科版9年级下册期末试题附完整答案详解(易错题)
- 考点解析-沪科版9年级下册期末试题及完整答案详解【名校卷】
- 2025至2030年中国蛋清粉行业市场供需格局及投资规划建议报告
- 2025版秦都区某小区二手房买卖合同附房屋交易资金监管及结算流程
- 2025年医疗设备制造财务代理与成本控制合同
- 2025年度水利工程项目施工监理分包合同范本
- 2025版文化产业发展三方协议担保服务协议
- 4.3闭环控制系统的工作过程教学设计-高中通用技术必修《技术与设计2》
- 2023版设备管理体系标准
- 园林公司管理制度7篇
- 办公家具供货安装、保障实施及售后服务方案
- 《曼陀罗绘画疗愈-初三减压》PPT
- (新版)三级物业管理员理论备考试题库(含答案)
- 二、问题解决型(指令性目标)QC成果案例
- 企业外包业务安全生产专项检查表(全面)1管理学资料
- 航海英语听力与会话第四版朗读题70篇
- 手机保密专题教育课件
- 公司QHSE(职业健康安全环境)体系管理程序文件
评论
0/150
提交评论