单粒子翻转引起SRAM型FPGA的故障机理阐述

0 引言
随着半导体技术的高速发展,大规模集成电路变得更加复杂,开发周期变得更长。fpga由于具备可编程性,其广泛应用可以降低电路的开发成本。然而,单粒子翻转(seu)会使fpga内部的大量的存储器变得不可靠,尤其是static ram(sram)型fpga的配置存储器受到重离子轰击时,会导致器件逻辑布线出错,进而引起模块故障,甚至导致整个系统的功能中断。对于sram型fpga,配置存储器的单粒子翻转占整个器件翻转总数的90%以上的比例[1],因此对配置存储器的单粒子翻转防护十分重要。
目前也有一些方法可以对抗seu。三模冗余(triple modular redundancy,tmr)是一种常用的有效加固设计,可以有效提高可靠性。tmr的每一个冗余支路可以屏蔽一个错误,但无法处理多比特翻转,尤其是3倍资源的消耗也会影响整个器件的运行功耗。为了减少资源的消耗,文献[2]提出了一种基于双模冗余(double modular redundancy,dmr)的检错电路,它以较小的资源代价来处理多比特翻转;文献[3]提出了一种星载信号处理平台结构,利用高可靠性的反熔丝actel fpga对xilinx v4系列 fpga进行监控和刷新;文献[4]介绍了fpga的刷新设计要处理half-latch,来避免回读无法发现的错误;文献[5]介绍了一种高效的加固测试的方法;文献[6]提出了基于zynq加固的技术。
随着技术的发展,功能模块的集成度逐渐提高,xilinx公司kintex-7系列fpga是当下较为普遍的处理器,而对其的单粒子防护变得更为迫切。为了提高可靠性,有效对抗空间辐射引起的故障,本文提出了一种基于高可靠性反熔丝actel fpga对xilinx kintex-7 fpga进行回读、校验和刷新的处理平台。
1 空间辐射
空间中的电子器件,会受到空间中大量高能辐射粒子(质子、电子、α粒子、重离子、γ射线等)的作用,高能粒子对半导体器件pn结的碰撞,在重粒子的运动轨迹周围形成电荷被pn节灵敏电极收集形成瞬态电流,当瞬态电流超过一定值就会触发逻辑电路,将造成半导体存储器或触发器的翻转、逻辑功能的瞬时异常或中断,即单粒子效应。
根据单粒子效应的产生机理,可以对航天应用中的集成电路芯片进行加固,以减少单粒子效应对系统功能的影响。对于单粒子效应的加固,从加固方法上可将其分为工艺上加固和功能上加固两大类。
工艺上的加固指的是采用抗辐射能力强的工艺和材料,制造出具有较高抗辐射能力的器件,例如宇航级的器件,它本身就进行了辐射加固设计。功能上的加固是指通过复位或者重写操作对器件进行修复,将单粒子效应引起的错误逻辑进行纠正,从而达到抗辐射的目的。
2 研究现状
美国的好奇号探测器、金星快车探测器均使用xilinx公司的宇航级fpga,目前该公司的抗辐射fpga产品如virtex-4qv(以下简称v4)被认为是用于空间应用的成熟处理器。但其高昂的价格和较长的采购周期提高了国内相关领域的研究成本。xilinx制造的kintex-7(以下简称k7) fpga具有低功耗高性价比的优点,并且可用资源比抗辐射的v4有较大优势,表1比较了v4(具体型号为xq4vsx55)和k7(具体型号为xc7k32st)两款芯片的主要参数[7]。
xc7k325t的逻辑单元是xq4vsx55的5.9倍,dsp资源是它的1.6倍,丰富的资源提供了复杂信号处理的解决能力,同时为系统的小型化设计提供了可靠的解决方案。
xc7k325t和xq4vsx55均采用sram型结构,其主要硬件组成为:可配置存储器(configurable memory)、可编程逻辑单元(configurable logic block)、可编程输入输出口(programmable io)、块存储器(blockram)、乘法器(multiplier)、数字时钟管理模块(digital clock manager)、配置状态机(configuration state machine)、上电复位状态机(power on reset state machine)、布线资源(routing resource)。
由于采用sram型结构,通过相关实验表明,fpga故障多数是由可配置存储器发生单粒子翻转(seu)引起的[8]。可配置存储器控制着fpga设计中的控制位(control bit)、查找表(look up table)、开关矩阵(multiplexiers)、可编程互连点(programmable interconnect points)和布线缓存器(routing buffer)。根据可配置存储器中各类功能位所占的比例,可以判断可配置存储器单粒子翻转主要引起布线资源的错误。单粒子翻转影响它所在功能模块的功能,但并不一定引起整个器件信号处理功能的失效,并且此类故障可以通过刷新来修复。
3 加固平台设计
3.1 总体设计
本单粒子加固平台主要由高可靠性单元(high reliability unit,hru)、xc7k325t和prom组成。其中,信号处理部分由一片fpga完成,高可靠单元完成对fpga的配置、监控、回读校验和刷新功能。基于xc7k325t的抗seu平台设计框图如图1所示。
图中k7 fpga和反熔丝hru直接交互,同时hru直接与存储芯片连接,程序采用帧校验的方法来比对k7 fpga中的配置位,存储芯片17v16的大小为16 mb,经过计算共需要6片17v16。
3.2 k7的上电配置
该平台工作流程是,系统加电后,hru首先配置k7,根据k7的配置时序图(如图2所示),首先置低program_b引脚,初始化k7的配置寄存器,当init_b引脚变高后,这时再将prom中的程序下载到k7中,当配置完成后,k7的done引脚会变高,意味着配置成功,此时k7开始工作;这时hru首先检测配置是否成功,如果未成功,则重新配置;如果配置k7成功后,它的看门狗电路开始工作,这时hru进入监测状态,实时地检测k7的工作状态。
其中k7的各个配置引脚的定义如表2所示。
3.3 k7的回读校验与刷新
当k7配置完成后,等待回读校验命令对器件进行回读测试。k7的回读校验采用按帧编码校验的方式。在回读过程中,对出错的帧进行记录和数传。当k7的回读校验都完成以后,进行错误判决。如果检测出错误,则对相应的器件进行动态重构处理,使其恢复到原始设计状态。完整的k7抗seu加固软件执行流程如图3所示。
其中检测k7的状态是通过回读操作完成的,回读是通过selectmap接口将k7内部配置存储器中的数据读出的过程。回读过程可以读出k7存储器的当前状态以及布线资源的配置情况等,然后通过检测回读数据来判断当前配置数据的正确性。回读校验是k7单粒子效应故障检测的重要方法。回读过程分为写操作命令、读取数据和恢复现场三部分。fpga每一帧回读数据的内容都决定着与其相对应的功能模块的逻辑功能。通过对配置存储器的回读和校验,hru可以决定是否需要对该功能模块进行局部重配置。
4 应用验证
本设计采用的动态回读是在不中断正在运行的电路逻辑功能的情况下对配置存储器的回读。当回读发现k7的配置数据异常时,则进行刷新操作。刷新操作是在对目标器件k7的错误配置数据进行重构修复,通过以上流程hru可以完成对xc7k325t的seu加固。
为通过模拟xc7k325t空间环境应用时发生seu,对加固软件的回读校验和刷新功能进行测试。测试系统组成如图4所示。
测试系统主要由故障生成计算机、xc7k325t和hru组成。为了调试方便,用flash存储k7的配置文件,计算机通过jtag口将错误的配置信息烧录到fpga中,hru通过与flash存储的配置文件比对,检测出seu后实施刷新操作。通过工作指示可以监测当注入错误的配置信息后k7的工作状态,随后当回读校验刷新时,fpga的原有的配置程序功能恢复。
测试主要分为以下几个步骤:
(1)以存储在flash中的配置文件为基础,修改其中的一位或几位,并生成校验正确的配置文件;
(2)将两种配置文件的工作指示加以区别以便监测刷新操作;
(3)模拟seu注入修改过的配置文件,并观察工作指示;
(4)等待程序中设定的校验时间后,通过工作指示判断hru是否检测到了翻转并实施刷新操作;
(5)改变翻转的数目和故障注入的位置,重复试验。
测试表明,hru加固软件能够正常完成对单片xc7k325t的上电配置,检测xc7k325t配置存储区的seu和修复功能。
5 后续工作
fpga单粒子效应故障加固设计,针对程序代码本身还需要增加以下几项工作,来增加整体平台对抗seu的能力:
(1)对于fpga中的关键逻辑模块,要采取三模冗余[9]设计tmr(triple modular redundancy);
(2)如果fpga对信号的运算速度要求宽裕,可以利用检错算法来判断fpga的逻辑运行是否正确[10];
(3)可以在程序中增加逻辑探针,用区域约束布线的方法固定在fpga重要模块的附近,实时对该区域的单粒子效应进行检测。
6 结束语
本文通过分析空间辐射的特点,结合sram型fpga的硬件结构,阐述了单粒子翻转引起sram型fpga的故障机理,结合工程实践提出了一种利用高可靠单元对xc7k325t进行配置、监控、回读校验和刷新功能的抗单粒子翻转的加固平台设计。模拟了故障注入对加固设计进行了测试,测试表明该加固平台设计可以完成对fpga监控和修复,为kintex-7 系列大容量的fpga在空间环境中应用提供了设计参考。试验表明该平台可以有效修复单粒子效应引起的位翻转和功能故障。
参考文献
[1] 王跃科,邢克飞,杨俊,等。空间电子仪器单粒子效应防护技术[m]。北京:国防工业出版社,2010.
[2] amagasaki m,nakamura y,teraoka t,et al.an area compact soft error resident circuit for fpga[c].ic design and technology 2016 international conference(icicdt),2016.
[3] 邢克飞,杨俊,王跃科,等.xilinx sram型fpga抗辐射设计技术研究[j]。宇航学报,2007,28(1):123-129.
[4] 邢克飞,杨俊,周永彬,等。星用sram型fpga加固设计方法研究[j]。电子器件,2007,30(1):202-205.
[5] 王鹏,张道阳,芦浩,等。基于分区测试的翻转故障注入方法研究[j]。电子技术应用,2017,43(8):88-91.
[6] 张小林,丁磊,顾黎明。基于三层级低开销的fpga多比特翻转缓解技术[j]。电子技术应用,2018,44(4):61-64.
[7] virtex-7 fpga user guide[z].ug470(v1.4),xilinx,2012.
[8] 林金茂.sdr平台抗seu性能评价关键技术研究[d]。长沙:国防科学技术大学,2009.
[9] 黄锦杰,孙鹏,沈鸣杰,等。基于tmr的fpga单粒子加固试验探究[j]。复旦学报(自然科学版),2011,50(4):477-484.
[10] 李梦良,乐立鹏,张建军,等。星载65 nm抗辐射gnss接收机asic的sefi实验方法[j]。电子技术应用,2017,43(1):53-56.

华为提出“全面迈向5.5G时代”理念
泰克示波器TBS1102C数字示波器参数介绍
紫光展锐任奇伟谈移动通信芯片的发展之路
区块链+大数据是世界的未来?
海腾建站全新升级,智能+开发可满足多种需求
单粒子翻转引起SRAM型FPGA的故障机理阐述
JAXJOX推出互联互动工作室
美欲建智能公路 与自驾车合作以减少交通事故
ibeacon室内定位研究现状及前景分析
高通发布全新旗舰移动平台——第二代骁龙8
大中小型指挥/视频监控中心KVM坐席协作管理的不同解决方案
SiTime差分晶振的LVDS、LVPECL、HCSL、CML模式相互转换过程介绍
雷神电脑ZERO全新阵容,13代酷睿+RTX40引领行业新体验
Rust语言中的反射机制
如何制作分流电阻器
智能功率模块如何提升工业系统能效
基础不牢,谈什么“国产替代”
蔚来第二款SUV ES6正式上市 几乎可以看作是ES8的缩小版
如何鉴别劣质功放_教你如何选择功放
OPPO宣布1月16日举办未来科技沟通会 或暗示OPPO正在研发十倍混合变焦技术