随机数的首位数字出现概率统计分析_第1页
随机数的首位数字出现概率统计分析_第2页
随机数的首位数字出现概率统计分析_第3页
随机数的首位数字出现概率统计分析_第4页
随机数的首位数字出现概率统计分析_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、随机数的首位数字出现概率统计分析西南大学2011级朱熹朱心阳周亚晶何龙 刘伟田宸宇内容摘要:本文运用一系列统计方法对学生人数进行统计分析,以及白己对实验现象的隐含的原理的猜测、 证明。实验结果表明:a) 首位数字是1的数字出现的几率最大,依次是2至9逐个递减。并且 满足一定的函数关系。b)所有数字所在的数量级一定要有很大的差 距,不然无法得出这个结论。G)所统计的数字一定不要受太大的人 为因数影响。以此定律,我们可以检验一些记账的数据是否被私白删改,以及比赛投票的结果的检验复查,防止一些简单的造假行为。关键词:统计分析;首位数字;数量级;随机1、引言2001 年,美国最大的能源交易商安然公司宣

2、布破产,当时传出了该公司高层管理人员涉嫌做假账的传闻。事后人们发现,安然公司在2001年到2002年所公布的每股盈利数字就不符合本福特定律,这证明了安然的高层领导确实改动过这些数据。 如今做假账这些 行为应当严厉打击,也许在次定律发现之前,做的一些假账逃过了法 律的制裁。传闻1935年,美国的一位叫做本福特的物理学家在图书 馆翻阅对数表时发现,对数表的头几页比后面的页更脏一些, 这就说 明了前几页翻阅得跟多,由此本福特发现了这一定律。本福特定律看 似不符合逻辑,实质上它是经得起检验的。为此我们作出此次统计调 查再一次亲身感受结论的正确性, 同时我们也将作出白己的猜想,以 及白己对定律的理解。2

3、、提出问题对于白然出现的数字的首位数,是否19这九个数字的出现概率一定 为1/9?如果不是,那它们将满足什么关系?为什么会出现不等于 1/9这种情况?这种规律能否在实际生活工作中应用?能不能对此有 一个直观的理解?这就是本次统计方案设计大赛我们队所研究的课 题首位数字出现几率的概率统计。3、分析问题对于白然出现的这些数字0、1、2、3、4、5、6、7、8、9,如果按 照一定的度量单位制,这里我们假设他们为十进制进位方式, 且数字 按固定比例增长,那么在首位数字较小时,首数增长得会很慢,这意味着首位数变化的速率会很慢,但是当首位数字增长后,随着首位数 字变大,首位数字的值增长也会加快。举个例子,

4、 假设股票市场上的 指数一开始是1000点,并以每年10啷程度上升,那么要用7年多时间,这个指数才能从1000点上升到2000点的水平;而由2000点 上升到3000点只需要4年多时间;但是,如果要让指数从 10000点 上升到20000点,还需要等7年多的时间。也就是说,如果这些数据 随机地出现,就算出现概率是等可能的,那么在一段时间内,我们看 到的1出现的次数也将大于其他数字,所以这直接造成了首位数字是 1出现的几率最大。4、设计统计方案我们猜想这些数字出现的规律满足由1开始逐渐递减,并且符合一定 的函数关系。为此,我们将采集大量数据,为了让数据满足“随机、 白然出现”这个条件,我们对重庆

5、沙坪坝、洋人街和北暗的商铺做了 调查,调查对象为这些商店的月营业额。由于商店类型不同,所以它 们的营销额差距也是相当大的,可以产生相差几个数量级的营销额, 且不受太多人为因素的影响。不要过多的选择同一地点且同一种商品 的商店,那样可能将产生一些相似的数据。按照不同的月份分为12组,那么每个商店将可以为我们提供出 12个数据。例如,第一家一 月份的营业额为38914元,第二家一月份营业额为4339元,第三家 一月份营业额为985元,第四家,那第一组的数据便为:38914、4339、985,之后,通过 java编程统计,便能得到每个组中这九个 数字在首位时出现的概率。之后再进行分析比对,于是得出结

6、果。为了验证该结果,我们同时也将对其他一些数据进行同样的统计分析,例如贴吧点击数、不同投票的结果等等。5、统计结果所有调查的商店每月份的营销额的首位数字数量及比列如下:(第一行为首位数字,第二行为数据的个数,第三行为数据个数占总个数的 百分数。后面的表同此)12345678928717410284746659544830.4%18.4%10.7%8.8%7.9%6.9%6.3%5.6%5.0%通过对采集到的数据进行汇总和统计, 我们发现在这些数据中,首位 为1的出现概率远大于其他数字,并且接近于 30%而29这些数字 出现的概率不仅远小于1出现的概率,其出现概率也是符合逐级递减 的规律。并且符

7、合数字越大递减的速率越慢的这一规律。与前面的猜想一致。6、误差分析将我们得到的数据与标准值相比较得方差。=(0.304-0.301)A2+(0.184-0.176)A2+(0.107-0.097)A2+(0.088-0.097 )八2+ (0.079-0.079)A2+(0.069-0.067)A2+(0.063-0.058)A2+(0.056-0.051)A2+(0.050-0.046 )八2 + 9=0.0054。相对较小,所以此次验证比较准确。于是我们得出结论,白然随机变量中,只要样本空间够大,那么数字19出现的概率并不是想象中的满足1/9 ,而是满足下图中所示线性规律:7、资料搜索与白

8、己理解通过查阅相关资料,我们发现,白然出现的随机数据满足 Benford定 律一一只要数据的样本足够多,数据中以1为开头的数字出现的频率 并不是1/9,而是30.1%。而以2为首的数字出现的频率是17.6%, 往后出现频率依次减少,9的出现频率最低,只有4.6%。对应不同的 进位制其函数关系为:f 1、P(d)= log "d +1 )- log Jd )= log b 1 + - i d J其中,b为进位制,如米用10进位制,则b=10,如米用8进位制,则b=8; d为首位数字(d=1、2、3b-1)我们可以用使用二进制时来简单的检验一下这个结果 二进制中,以1开头的数占100%而

9、按照本福特定律,二进制中,以1开头的数占 P=ln2/ln2-ln1/ln2=100% 。完全符合。从数数目来说,顺序从1开始数,1,2,3,.,9 ,从这点终结的 话,所有数起首的机会似乎相同,但9之后的两位数10至19,以1起首的数又大大抛离了其他数了。而下一堆9起首的数出现之前,必然会经过一堆以2,3,4,.,8 起首的数。若果这样数法有个终结点, 以1起首的数的出现率一般都比9大。本福特定律产生的根源,就在于指数增长,如果要增长相同的高度, 那么越在后面所需要的时间就会越少,也就是说从1增长到2所停滞 的时间最长,所以这样的数据个数在白然界出现的概率也将会大一些。然而从8到9的增长时间

10、就很短了,这些数据白然会很少。这幅图可以直观的显示,如果一个变量随时间成指数增长的话,那么这个变量开头的数字随着时间的变化就应该是如下图:(横轴代表时间,纵轴代表那个变量)显然,在某时刻你得到它以1开头的概率要大于9开头。而这是只取 一个值的情况,如果是取大量的数据的话,在某时刻你观察到他以 1 开头的数据数量就大于以9开头的数量了。而指数增长的形式在白然 界是十分普遍的,只要一个变量的增长率和他的大小成正比,结果就会是指数增长。比如说人类科技发展的速度大致和已有的科技成果成 正比,所以人类的科技发展就是个指数增长;人口增长率会和已存在人口数成正比,因此没有资源限制的人口增长也是指数增长。指数

11、增长是白然中极为普遍的一种变化规律,而这种变化规律可以直接导致本福特定律。而关于该定律严谨的证明,可以参考Hill, T. P. “A StatisticalDerivation of the Significant-Digit Law.” Stat. Sci. 10,354-363, 1996.。同时,我们也参考了 2010年年末百度贴吧投票的结果,由于贴吧数量极大而且参与投票者极多,虽然存在刷票现象,但对整体并不造成极大影响。但从减小误差考虑,我们只调查了当时贴吧人气大于1的部分参与人数多的贴吧,并按贴吧分类进行分组动漫类贴吧:首位数字数量及其比例123456789228684372344

12、142738327825817639.3%14.5%12.4%7.6%7.3%6.6%4.7%4.5%3.0%人气为10000以上的贴吧数量:2499首位数字数量及其比例123456789944481315207155120114956837.8%37.8%12.6%8.3%6.2%4.8%4.6%3.8%2.7%于是不难发现,不管是营业额或者投票的排名都满足该定律,即首位出现1的概率最大,依次递减。而对于那种按一定规律排序的,或者人为修饰过的数字则不满足上述规律,例如身份证号、电话号码等。以下是对在校学生人数出生的数据统计分析得到的结果。首位数字及其比例1234567899881023105

13、694611231307896954100711.8%12.0%12.5%11.2%13.3%15.5%10.6%11.3%11.9%可以看出,这种经过人为修饰后的数据与标准值相差甚大。为什么会产生这样的原因?人数之间数量级的波动并不大,几乎没有数量级的 跨越,而且几乎是平均分配的,所以产生的比例也就接近于1:1。对于该定律的应用,发现在物理里面也同样满足,例如强子的宽度、 统计物理的三个重要分布,Boltzmann-Gibbs分布,Bose-Einstein分布,Fermi-Dirac分布也基本遵循这个定律8、数据仿真采用1至100中的任意两个数、三个数、四个数十个数相乘产生100至1010

14、数量级的数字。采用java编程,设计此程序,然后随 机筛选出部分数据,按首位数进行统计得下表:123456789数据个数301717651242971782661583519466所占0.300.170.120.090.070.060.050.050.04比例264786827采用matlab作出函数图像如下:0.35得出其函数:f (x) = -0.0001 X5 0.0019 x" - 0.0216 X3 0.1235 x2 - 0.3702 x 0.5682与已知的函数p(x)=lg(1+*相比较。x将两个函数作差得g(x) = -0.0001 x50.0019 x4 -0.0

15、216 x3 0.1235 x2 - 0.3702 x 0.5682 - lg( 1 -)x将函数P (x)用泰勒公式在x=0处展开得:2345p(x) = 0.5684 -0.3702 x 0.1235 x - 0.0216 x 0.0019 x - 0.0001 x所以g (x)几乎趋于0,也就是说f(x)与p(x)几乎相等。所以模拟出来的结果与真实结果几乎相同。9、理论分析对此定律提出白己的看法,建立白己的模型。设a>1, a" = n , fn为以n为首的数字出现的概率。则定义牡为数a升到n的难度系数。那么再定义 扁知旦为数字n-1上升到n的难度系数。那么我们可以想象从

16、n-1上升到n的难度系数占总难度系数和的比例就是n-1为首的数字在所有随机出现的数字以此的概率。因为上升的难度系数越大,首位数字停滞的时间越久,为开头的数据个数就越多。对等式两边取b为底的对数得log b nlog b alog b()令 PN = % N +1 - N 得到 PNlog b a那么我们可以得到fnPnP1P2P913最后化简可以得到公式log b ()ig(f (x)=log b 10ig 10ig(n 1")与已知公式完全一样。10、总结在贴吧的统计结果中,比标准值偏大,造成这项误差的原因,因为投票不可能是规律排布,所以只能是人为修饰,考虑到当时有刷票现象,所以判

17、断出有可能是这个因素导致的误差偏大。在处理一些数据时我们可以通过此方法来验证它是否造假。所以综合以上所有统计结果, 我们得出结论:白然出现的数据满足Benford定律,即b进位制中,以数n起头的数 出现的机率为(1、P(n ) = log b (n + 1 ) - log b n = log b 1 + I n且有 P(1)P(2)P(9)与事实相符合。ig(-1210)=Ig 10 = 1而所选数据必须满足条件:(1) 数据不能是规律排序的;(2) 数据不能经过人为修饰。通过此次统计调查,我们不但得出了随机数据出现的一般规律,而且也验证了 Benford定律的正确性。参考文献1 2005年6

18、月2日明报D15版,假帐克星一一本福特定律,吴端伟博士2 2010 年5月1日,新浪微博Benford定律,李淼3 Frank Benford: The law of anomalous numbers, Proceedings of the American Philosophical Society, 78 (1938), p. 5514 Ted Hill: The first digit phenomenon, American Scientist 86 (July-August 1998), p. 358.5 Hal Varian: Benford's law, American Statistician 26, p.65.6 Scott PD& Fasli M (2001) Benford ' s Law: An empirical investigation and a novel explanation. CSM Technical Report 3497 Nigrini M (1996) A taxpayer compliance application of Benford's Law. J Amer Tax Assoc 18, 72

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论