通向零缺陷的道路上需要一些新的策略。
用于辅助驾驶和自主驾驶系统的下一代汽车芯片这波浪潮正在推动关键性的异常检测新方法的开发进程。
KLA-Tencor、Optimal+以及西门子子公司的Mentor正在进入或扩大在异常检测市场或相关领域的工作。异常检测技术在各种行业已经使用多年,是实现芯片生产质量零缺陷的主要技术之一,零缺陷对汽车领域至关重要。
通常,异常检测本身使用硬件和统计筛选算法来定位所谓的异常。简单来讲,芯片异常指的是芯片本身可能会通过各种标准测试,但是有时会表现出功能异常。这种芯片可能会影响系统性能或导致系统失效。
图1PAT极限和极限值图形显示
异常芯片或带缺陷芯片的出现有若干原因,其中包括出现潜在性的可靠性缺陷。这一类缺陷在芯片出货时不会被发现,但它们会在应用现场以某种方式激活,最终可能会反应在实际运行的系统中。
为了帮助捕捉芯片中这样或那样的问题,业界通常使用各种异常检测方法,例如零件平均测试法(PAT)。在PAT中,首先对晶圆进行电气测试,然后,组合使用硬件方法和PAT算法,检测出违反特定测试规范的异常或故障芯片,然后把它丢掉。
但是,PAT方法很难满足汽车行业的苛刻要求。Optimal+公司首席技术官MichaelSchuldenfrei表示:“汽车和其他类型的任务关键型设备的半导体产品使用量正在呈指数级增长。这种趋势推升了对芯片质量和可靠性的要求。使用PAT或零件平均值测试方法的异常检测技术作为保证质量和可靠性的一个主要手段,已经存在了几十年。但在很多情况下,它们并不是非常有效,或者在防止漏检方面测试成本过高。”
漏检指的是芯片通过了测试离开了晶圆厂。为了避免这种情况的发生,多年来,异常检测专家们开发出了新的更先进的技术来防止芯片漏检和其它问题。比如,异常检测通常是在芯片封装测试阶段进行,但是在一个新的方案中,KLA-Tencor开发了一种用于在晶圆厂中测试的技术。
尽管如此,这个行业目前仍然面临一系列重大挑战,其中包括:
1、随着更多先进芯片被用于汽车中,迫切需要新的先进的异常检测算法;
2、异常检测技术必须紧跟辅助驾驶和自动驾驶技术的发展趋势;
3、英伟达和其它没有异常检测经验的IC制造商正在蜂拥进入汽车市场,这意味着他们需要提高学习曲线。
这个飞速增长的汽车半导体市场还面临许多其它挑战。除了汽车市场,异常检测也应用在医疗和其它领域中。根据西门子子公司Mentor的说法,总体而言,商业性的异常检测软件业务的规模在每年2500万美元到5000万美元之间。MentorQuantix事业部总经理BertrandRenaud表示:“这个数字可能仅代表实际软件的三分之一,因为许多大型IDM厂商已经构建了自己的专有工具,他们的软件没有统计在内。”目前,这个市场上的选手有KLA-Tencor、Mentor、Optimal+和yieldWerx等公司。
汽车芯片趋势
2018年,汽车市场增速可能会放缓。根据IHSMarkit的数据,2018年轻量级汽车的全球总销量预计将达到9590万辆,同比2017年增长1.5%。根据该公司的数据,2017年同比2016年增长了2.4%。
汽车销量的增长如何对应于汽车半导体市场增速目前尚不完全清楚。尽管目前汽车芯片业务仅占整个半导体市场规模的10%左右,但这并不能说明问题的全貌,因为根据IHSMarkit的数据,每辆汽车的电子器件的价值将从2013年的312美元增长到2022年的460美元,年复合增长率为7.1%。
“从十年前的几百个控制器和其他类型电子器件开始,现代的汽车中可能包含超过3,500个半导体产品,这些半导体器件的总体成本正在持续上升。”KLA-Tencor高级营销总监RobCappel在一篇博客中说道。
一辆高级汽车拥有超过7000颗芯片。芯片厂商正在向高端车型中引入14nm和10nm器件,同时也正在研发用在汽车上的7nm芯片。
但是,在汽车领域,有两个因素是亘古不变的-可靠性和质量。对于商用芯片而言,消费者对缺陷尚有一定的容忍度。但是,汽车芯片对缺陷和故障是不存在丝毫容忍度的。
这倒不是什么新鲜事儿。“比如ABS系统,”TEL的高级技术合伙人BenRathsack说。“由于事关安全,汽车的可靠性要求总是较高。”
因此,汽车芯片制造商和代工厂必须遵守各种质量标准,例如AEC-Q100,这项标准主要涉及芯片的失效机理压力测试。
高级驾驶辅助系统(ADAS)和自主驾驶汽车对可靠性的要求更加严苛。ADAS涉及汽车中的各种安全功能,如自动紧急制动、车道检测和后方物体警告。
例如,全球最大的汽车芯片制造商恩智浦最近宣布推出了一款用于汽车应用的高分辨率雷达芯片。该芯片被称为MR3003雷达收发器,是一款77GHz雷达器件。该器件基于硅锗(SiGe)工艺,适用于需要高分辨率和远距离功能的自动驾驶系统的前端或转角雷达应用。
这种雷达技术能够同时跟踪数千个目标,能够实时感测周围环境,这正是L4/L5级别的自动驾驶所必需的。“这些类型的应用对我们和芯片本身都提出了较高的要求。我们非常谨慎地设计了系统内部的安全协议和一系列Hook,以便传感器和汽车能够在某些情况下进行自我诊断,”恩智浦ADAS调制解调器产品线副总裁兼总经理PatrickMorgan在最近的一次采访中表示。“当我们开始销售这些芯片时,我们需要付出很大的努力来保证每个芯片符合规格。我们对缺陷绝对抱有一种零容忍的心态。安全攸关,不容任何错误的出现。”
恩智浦半导体ADAS技术副总裁兼总经理KamalKhouri补充说:“我们在这里所做的一切都必须满足非常非常严格的汽车安全性和可靠性标准。为了确保我们推荐的所有产品和方案都安全可靠,需要做大量的工作。”
安全确实非常关键。例如,根据Optimal+提供的数据,奥迪的高档汽车中拥有7,000个芯片。假设,每个芯片的故障率都达到百万分之一,那么奥迪每生产1000辆汽车就会有7个故障车。如果奥迪每天制造4,000辆汽车,这就意味着,它每个小时都会生产出一台故障车。
因此,汽车行业正在努力实现零缺陷和其他质量计划,但是随着系统、芯片甚至软件变得越来越复杂,这个目标很难实现。
在其最新的车辆可靠性研究工作中,J.D.Power对过去12个月2015年款车型和2017年款车型每100辆车遇到的问题数量进行了统计调查,结果发现,2017年款汽车整体可靠性提高了9%,但是各种电子系统依然存在问题。据调查,音频/通讯/娱乐/导航系统仍然是业主遇到麻烦最多的产品类别,业主的投诉数量也最多,其中,内置语音识别和蓝牙连接是最大的问题。
这些问题可能与采用最新的半导体器件有关,这就是为什么异常检测至关重要的原因所在。在异常检测中,在晶圆厂处理完晶圆后,首先进行一些电气测试,然后把它们送到测试部门进行评估。
这种方法只能解决一部分潜在的问题。“你不可能测试器件的每一条执行路径,因此不可能覆盖完整的场景。不过,现在可以运行许多不同的测试。有时候,测试结果也不是很明确。我们只是知道,目前的方法还不够好。”KLA-Tencor战略合作高级主管JayRathert说。
另外,测试可能会发现,也可能不会发现可怕的潜在可靠性缺陷。“潜在的可靠性缺陷是指离开了晶圆厂才暴露出来的缺陷,它们在某种程度上是通过环境激活的,包括振动、湿度、电流、电迁移或者热量。随着时间的推移,它们可能暴露出来。”Rathert说。
图2随机缺陷
既然这样,那么,为什么不在这些芯片离开晶圆厂之前就检测出来这些缺陷呢?
在晶圆厂测试
根据加州大学伯克利分校的统计,理论上来讲,一个月产5万片晶圆的晶圆厂需要以下设备:
50台扫描仪/步进器和晶圆轨道;
10个高电流离子注入器和8个中等电流离子注入器;
40台蚀刻机;
30个CVD工具。
此外,300毫米晶圆厂也是自动化工厂,使用各种自动化材料处理系统和晶圆传输机制,使用各种设备分步骤地在晶圆厂中处理晶圆。一个先进工艺的晶圆制造过程可能有多达600-1000个步骤,甚至更多,相比之下,成熟工艺的步骤更少。
在先进工艺节点中,半导体设备必须处理更小且更加精确的特征,随着工艺尺寸的缩减,缺陷也变得越来越难找到。
每种应用都有各自不同的缺陷要求。一般来说,面向消费者的OEM厂商对缺陷的控制要求不是太严格,但是,在汽车领域,芯片制造商们必须在其器件的制造工艺中实施更加严苛的控制措施,并部署持续的缺陷改进计划。
“有一些先决条件(在汽车领域),”联电副总裁温文婷说。“你必须有一个管理良好的工厂和维护良好的工具。最重要的是,您需要一个强大的质量体系,并贯彻高质量的理念,这将使您能够获得制造汽车产品所需的认证。这些很复杂。在汽车行业里,质量控制始于工艺设计和工厂规划,并一直延伸到实际生产芯片的时候。”
在晶圆厂中,人们使用检测系统定位晶圆缺陷。一般来讲,芯片制造商不会检查每一片晶圆,因为那样需要很长时间,而且成本高昂,他们会抽样检测某些晶圆或者部分芯片。
对于消费级芯片来说,这个过程很简单。“当我们开发一项技术时,我们会认证它,通常来讲,抽样的样本数量总是有限的。”温文婷说。
汽车级芯片要求就不同了。“你必须测试大量的样本才能得出故障率,这个过程的成本非常高。”她说。“人们正在考虑如何在成本可承受的程度下实现这一目标,每个方面都有很多挑战。”
所有这些都是实打实的时间和真金白银。如果芯片在经过检测和其它过程之后符合规范,就可以把晶圆从晶圆厂发给封测厂了。
这时候,压力就转到封测厂了。为了帮助测试,KLA-Tencor设计了一种技术方案来捕捉晶圆厂中的问题。该技术被称为在线零件平均测试(I-PAT),它利用了PAT的概念。但是,与在测试部门进行的PAT及其变体不同,I-PAT在晶圆厂中执行。
I-PAT不一定会与传统的第三方异常检测供应商竞争。它的目标是提供更多的测试数据,补充既有的测试组合。通常来讲,您仍然需要执行传统的异常检测。
KLA-Tencor的技术涉及硬件和数据分析软件包。简而言之,先把检验数据输入到计算机建模程序中,然后分解数据,并查看晶圆图上的硅片,然后在晶圆厂的多个检查步骤中查找异常缺陷。
在一个简单的例子中,该技术将显示具有五个层的芯片的晶圆图,比如有源区、栅极、触点层、金属层1和金属层2。假设金属层1上可能会有800个缺陷。计算机从晶圆上随机选择10个芯片,然后,使用各种I-PAT算法,系统最终确定这10个芯片中有9个存在潜在的可靠性缺陷。
这个过程可以重复好几遍。“你可以一遍又一遍重复这个步骤,”KLA-Tencor高级营销总监DavidPrice说。“通过一遍又一遍地重复,你可以看到缺陷的统计性质如何帮助你找到最有可能包含可靠性缺陷的芯片。”
I-PAT可用于挑选有问题的硅片。另外,这些数据可以与其他异常检测方法结合使用,以改进测试通过/不通过的决策。Price说:“通过在晶圆厂中实施I-PAT技术,你将能够减少传统PAT方法所带来的矫枉过正和不足之处。”
从晶圆厂到测试厂
晶圆从晶圆厂移动到测试部门后,在那里进行晶圆分类、最终测试,有时也会进行系统级测试。
检查和测试会产生巨大的数据量。但是,在这些数据面前,您如何知道器件是否仍存在潜在的可靠性缺陷或其他问题呢?
这就是为什么汽车OEM厂商希望他们的供应商在测试过程中执行传统异常检测的原因。Mentor公司的Renaud说:“
在整个晶圆经过测试之后,在晶圆分类中进行的PAT分拣,是在服务器上作为离线处理完成的。对每个部分进行测试后,最终测试中的PAT分拣是在测试仪上在线执行的,当然,整个流程都是由服务器管理并控制的。”
通常,异常检测技术从晶圆厂得到电子数据,然后分析数据。KLA-Tencor的新技术将向测试混合提供更多数据。“我们能够从KLA等公司的机器中收集检测数据,”Optimal+的Schuldenfrei说。“将所有这些数据结合在一起使用,显然会进一步提高检测的准确度。”
PAT是最基本的边界检测形式,应该可以检测出一个超出不合格阈值的芯片。测试阈值可以设置为静态(SPAT)或动态(DPAT)模式。
在SPAT中,测试阈值是基于该批次的数量决定的,在DPAT中,则会在每次晶圆测试时计算阈值。在SPAT和DPAT中,都会执行一个算法,最终得出测试通过或失败的结果。
但是,这些算法可能在某些情况下会失败。有的器件的特征可能和其它器件明显不同,但是它也在规范范围内。有的器件可能是远离正态分布的极端异常。“这种情况可能会严重影响整个特征分布,然后,你可能会漏掉接近特征分布中心的异常。”Optimal+的Schuldenfrei说。
异常检测专家已经加入了一些程序来解决这些问题。但是,多年来,这些芯片变得越来越复杂,因此需要更先进的异常检测技术。“客户要求越来越复杂的算法来识别真正的异常,而不会造成不必要的产能损失,”Mentor的Renaud说。“需要先进的自动形状检测来识别非高斯分布。”
有一些基于几何分布、多变量和其它方案的复杂异常检测算法,许多算法甚至可以和DPAT和SPAT结合一起使用。
一种先进类型的几何分布PAT(GPAT)可以根据它的几何分布邻近度来查看芯片质量。
GPAT有一个复杂版本,被称为好芯片/坏邻居(GDBN)。GDBN基于这样一种理念,缺陷总是趋向于集中出现在晶圆的某些特定位置上。简单来说,缺陷较多的区域可能会找出一些坏芯片。
还有一种被称为最差邻居残差(NNR)的技术。“最近邻居残差技术是在每个芯片的每次测试中检查所有值,它不仅考虑整体晶圆,还考虑临近芯片的情况。”Optimal+的Schuldenfrei说。
还有一些其他方法,如多变量技术。“地理空间算法检查晶圆上的失效模式,以确定掩模版缺陷和失效芯片的集群。同时,多变量算法测量多次测试之间的相关性,而不是一次只考虑一个测试结果,”Mentor的Renaud说。
所有这些方法都可以结合使用。
下一步
展望未来,ADAS和自主驾驶将进一步推动对更多检测技术的需求。Optimal+的Schuldenfrei表示:“随着汽车的自主化程度越来越高,芯片缺陷检测也将变得越来越重要。”
此外,这些检测技术也会加入人工智能和机器学习。“随着机器学习和人工智能带来新的运算能力和功能,我们相信,它们也会更多地参与到异常检测中来。”Schuldenfrei说。
最后,把所有的数据集成在一起也许是最大的挑战。“想象一下,从芯片获取数据,并将其与多个不同公司的电路板数据关联起来,”他说。“您需要共享数据才能实现更好的异常检测。”