软失效的原理和应对方案的研究_第1页
软失效的原理和应对方案的研究_第2页
软失效的原理和应对方案的研究_第3页
软失效的原理和应对方案的研究_第4页
软失效的原理和应对方案的研究_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、软失效的原理和应对方案的研究郑 鑫 江竹轩 罗志君浙江中控技术股份有限公司,浙江杭州,310053摘要:本文从芯片软失效的原理出发,介绍了诱发芯片发生软失效的各类触发源(封装材料中放射性元素产生的粒子,宇宙射线的高能中子和低能中子),并详述了由芯片软失效引起的各种常见后果(单比特错误,多比特错误和栓锁),最后从半导体芯片厂商和芯片应用商的角度提出了几种应对芯片软失效问题的方案和措施,诸如奇偶检验,纠错码和比特交织等。关键词:软失效 粒子 高能中子 低能中子 单比特错误 栓锁 纠错码The Soft Error Principle and Response Programs ResearchZH

2、ENG Xin, Jiang Zhuxuan,Luo ZhijunZhejiang SUPCON Co., Ltd., Hangzhou, Zhejiang, 310053Abstract: From the principle of chip soft error, the article introduces the various types of trigger source induced soft error(Alpha particles from package decay, High energy neutrons from cosmic rays and Thermal n

3、eutrons), and details the common consequences caused by soft error(Single bit upset, Multi bit upset and Single event latch-up). Finally, several programs and measures to deal with chip soft error are proposed from the perspective of semiconductor chip manufactures and chip application providers, su

4、ch as Parity Protection, ECC and Bit interleaving. Keywords: Soft Error, Alpha particles, High energy neutrons, Thermal neutrons, SBU, Latch-up, ECC1 引言随着半导体工艺技术的发展,芯片尺寸越来越小,功耗越来越低,晶体管的节点电压和工作电压都随之降低,使得芯片越来越容易受到软失效的问题1。如今,解决芯片软失效问题在诸如医疗器械,航空电子和工业现场等电子与计算机系统中都是尤为重要的。软失效是指由于高能粒子单元对芯片晶圆的撞击,产生大量的电子空穴对,当

5、这些带电粒子的带电量与芯片存储单元的阀值电荷量相当时,将会导致比特翻转而引起单比特错误,多比特错误及栓锁等软失效问题2-3。芯片封装材料中放射性元素产生的粒子,宇宙射线的高能中子和低能中子都是造成芯片发生软失效的重要触发源4。但时随着目前芯片绝缘体材料不再使用BPSG,切断了低能中子和10B发生原子反应的可能性,低能中子已不再是软失效的主要触发源。软失效较易发生于半导体存储芯片中,如DRAM,SRAM,寄存器组,高速缓存和配置寄存器设备等。芯片的软失效率SER单位一般表示为FIT(Fails In Time),即每109个小时芯片发生软失效的错误数。根据芯片存储容量的不同通常都表示为FIT/M

6、b。其中1 FIT/Mb = 1 fail per 109 hrs per 106 bits = 10-15 fail/bit-hour。本文从软失效的原理出发,详细介绍了导致芯片软失效的各类触发源及其触发源环境因素的影响和限制,并详述了芯片软失效引起的常见危害,最后从半导体芯片厂商和芯片应用商的角度提出了几种应对芯片软失效问题的方案和措施,诸如奇偶检验,纠错码和比特交织等。2 软失效的触发源导致存储器芯片发生软失效问题的主要触发源有: 芯片封装材料中放射性元素衰变产生的粒子。芯片管壳封装材料中含有的U、Th等放射性元素,在其原子核裂变时会释放出粒子,从而引发芯片软失效问题。然而这类粒子的触发

7、源,受工作环境的影响较小,一般不会受到工作地点和海拔因素的影响。即使外界环境中存在粒子源,因粒子穿透性差,也很难会直接诱发芯片发生软失效问题。 宇宙射线的高能中子。来源于宇宙和太阳系的高能中子本身并不带有电荷,但是它会被芯片的原子核捕获,产生附属的带电粒子,如粒子和氧原子核等,进而引发芯片的软失效问题。这类触发源受到环境的影响很大,在不同的高度和地点(地磁场强度、障碍物)条件下,高能中子的密度不一样,所以发生软失效的概率变化很大。目前关于高能中子的防护措施较少,很难对高能中子进行直接的屏蔽防护,所以当前宇宙射线的高能中子已成为芯片发生软失效问题最主要的触发源。 低能中子。BPSG拥有非常好的绝

8、缘特性,且具有熔点低,耐压高的优点,因此被广泛地应用到半导体芯片内层作为绝缘体材料。其中B元素有两种同位素10B和11B。而低能中子本身也不带有电荷,不会直接改变芯片内部存储单元的内容,但是它会和芯片内部绝缘体材料BSPG中的10B元素发生原子反应,产生粒子和7Li,如下式所示。10B + n 7Li (0.84MeV) + 4He (1.47MeV) + gamma (0.48MeV) (1)这些高能粒子(4He (1.47MeV)和7Li(0.84MeV)都会对晶体撞击产生电子空穴对,从而导致存储单元的存储内容发生改变。低能中子触发源受到外界环境因素的影响很大,诸如外部中子放射源就极易诱发

9、芯片发生软失效问题。由于低能中子极易引起芯片发生软失效问题,所以它一度被认为是造成芯片发生软失效问题的主要触发源。但是随着目前半导体工艺技术的进步,半导体芯片厂商Cypress在采用0.16um及更小规格技术后已不再使用BPSG材料,因此低能中子对软失效的影响可忽略不计。3 软失效的常见危害 单比特错误(Single-Bit Upset)。单比特错误是指在一个数据字中因为芯片软失效引起的一个比特的错误。对于芯片封装材料中放射性元素衰变产生的粒子引起的软失效问题,一般99%的错误都是单比特错误。而对于高能中子引起的软失效问题,一般70%的错误是单比特错误。 多比特错误(Multi-Bit Ups

10、et)。多比特错误是指在一个数据字中因为芯片软失效引起的两个或更多比特的错误。对于芯片封装材料中放射性元素衰变产生的粒子引起的软失效,1%的错误是多比特错误。而对高能中子引发的软失效,一般30%的错误是多比特错误。通常这种多比特错误的概率较低,但一旦发生后就极难纠正错误比特。 栓锁(Latch-Up)。栓锁是指在CMOS晶片中,电源VCC和地线GND之间由于寄生的PNP和NPN双极性三极管相互影响而产生的低阻抗通路,它的存在会使VCC和GND之间产生大电流,如下图1所示。图1 CMOS晶片中寄生PNP和NPN示意图通常情况下,寄生的PNP和NPN都处于关断的状态,当高能粒子对芯片晶圆的撞击产生

11、电子空穴对时,当累计的电荷电压大于三极管导通的阀值电压时三极管导通,在电源和地之间形成低阻抗的回路,从而产生大的电流流过。对于没有限流保护的CMOS芯片,栓锁容易直接造成芯片永久性的破坏。而在有限流保护的CMOS芯片上,发生栓锁后芯片很难自我恢复,只有在外部电源掉电重启后芯片才能恢复正常工作。目前不少半导体厂商ISSI,Cypress等对芯片的栓锁问题都进行了极为有效的防护。如Cypress厂商在芯片上采用了三层沟道的防护措施5后,芯片发生栓锁的概率降为0。4 软失效的应对措施高速大容量的存储器已经广泛地应用到医疗器械,通信,航空电子和工业现场等各种场合。在一些重要的应用场合,芯片任何一次软失

12、效问题都有可能会给系统带来致命的灾难,所以如何应对软失效问题已经成为各大半导体厂商和芯片应用商共同关心的问题。目前软失效的应对措施主要可分为工艺级措施和系统级措施。工艺级措施主要包括两个方面:由封装材料中放射性元素引发的软失效问题。各大半导体厂商从芯片封装材料的源头出发,选用放射性元素含量极低的封装材料,从而降低粒子产生的机率。如Cypress厂商在nvSRAM的封装材料中,粒子的通量率仅为0.0010.002alpha/cm2/hr。由低能中子引发的软失效问题。半导体厂商为杜绝此类软失效问题的再发生,采用了相应的绝缘体材料来替代BPSG材料,这样就从源头上切断了低能中子和10B元素发生原子反

13、应的可能性,从而从根本上杜绝了由低能中子引发的软失效问题。系统级措施主要包括有:奇偶校验(Parity Protection):奇偶校验是指在每个数据字后面加入一单元比特以对数据字进行奇偶校验。该措施能校验出数据字中出现的单比特错误,但是不能查找错误比特的位置且不能修改错误比特。所以该校验机制主要是应用于软失效引起的单比特错误的校验。纠错码(Error Correction Code)6:纠错码是指在每个数据字后面加入额外的比特数以对数据字进行校验并修改错误比特的内容。应用到存储芯片的纠错码主要可分为汉明码(Harming Code)和循环冗余校验码(Cyclic Redundancy Che

14、ck)两种。目前最常用的纠错码机制是单比特纠错/双比特检测机制(SEC/DED)。该机制能检测并纠正数据字中出现的单比特错误,并可检测数据字中出现的双比特错误,但不能修改双比特错误。由软失效常见危害可知,单比特错误是目前最主要的软失效问题。因此SEC/DED纠错机制可显著地降低软失效率,也是目前芯片应用商应对软失效问题最重要的选择。当然随着芯片软失效率的降低,由于额外比特的增加势必会带来芯片成本的增加,这就需要芯片应用商在芯片软失效率和成本之间取得平衡。表1为对不同字长的数据字SEC/DED所需的额外比特数。表1 为SEC/DED对不同字长所需的额外比特数双存储器的硬件和软件比较技术:双存储器

15、的硬件和软件比较技术是指将同一地址总线分别指向两个存储芯片上,在同一地址总线上两个存储芯片存储着相同的数据信息。CPU将上述两个存储芯片的某一存储单元数据读取后并进行比较,两者内容不一致则说明该存储单元的比特内容受到污染。该技术实际上可检测出存储单元上所有的比特错误,但并不能纠正错误比特的内容。比特交织技术:比特交织技术是指在同一逻辑单元数据字内将各个比特的物理位置交织错开,从而可有效的预防多比特错误,将可能发生的多比特错误转化为单比特错误,再结合后续的纠错机制来纠正单比特错误。这种机制可显著地降低多比特错误发生的概率,但就其本身而言,并不能校验和纠正错误比特的内容。图2 比特交织示意图此外除

16、了上述介绍的各种系统级防护措施外,业界还经常采用周期性写回技术和三态冗余技术等措施来应对软失效问题。5 总结本文从软失效的发生机理出发,介绍了导致芯片发生软失效问题的粒子,高能中子和低能中子等各类触发源及其触发源环境因素的影响和限制,并例举了软失效引发的单比特错误,多比特错误和栓锁等常见后果。最后从应对芯片软失效措施的角度,提出了各种工艺级措施和系统级措施,指出ECC机制是目前可有效应对芯片软失效问题的最重要手段。参考文献1 H.T.Nguyen, and Y.Yagil, "A systematic approach to SER estimation and solutions,

17、" in Proc. 41st Annual Int'l Reliability Physics Symposium, pp.60-70, 20032 R.C.B, "Tutorial: Ghosts in the machine: A tutorial on single event upsets in advanced commercial silicon technology," in Proc. Int. Test Conf., 2004.3 T.C.May and M.H.Woods,"Alpha-particle-induced so

18、ft errors in dynamic memories," IEEE Trans. Electron Devices, vol. ED-26, no.1, pp.2-8, Jan. 19794 J.Lee and A.Shrivastava, "A Compiler Optimization to Reduce Soft Errors in Register Files," in the 2009 Conference on Languages, Compilers, and Tools for Embedded Systems, Dublin, Ireland, 2009, pp. 41-49.5 AN15979, "Soft Errors in nvSRAM," Cypress Semiconductor, 20126 S.Mitra, N.Seifert, M.Zh

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论