荣格工业资源APP
了解工业圈,从荣格工业资源APP开始。
图片来源 / 包图网
来源 / semiengineering;荣格电子芯片翻译
作者 / KAREN HEYMAN
即使对于习惯于处理功耗和性能权衡的设计人员来说,3D-IC也被证明是一个挑战,但由于AI的计算需求和数字逻辑的不断缩小,它们被认为是前沿设计不可避免的迁移路径。
3D-IC被广泛认为是超越平面SoC极限的持续扩展方式,也是将不同工艺节点开发的更多异构器件添加到同一封装中的方法。但无论是平面 SoC 还是芯片组件,物理定律都是不可逾越的,工程师能使用的技巧非常有限,否则就会碰壁。
那么,3D-IC在芯片设计流程、芯片制造等环节会带来哪些难题?现有的应对或可实行办法有哪些呢?
Part 1
增加风险——热效应
高级节点中较小的导线会增加电阻,从而增加热量。较大的结构,如3D-IC,可以增加热梯度的范围。更糟糕的是,在这种结构中散热的方法有限。负面结果的范围可以从微妙的影响(如电迁移)到戏剧性的情况(如芯片着火)。
此外,随着制造工艺节点下降到个位数纳米范围,然后是埃范围,控制或解释变化变得更加困难,这可能导致噪声增加和可靠性降低等关键问题。所有这些都要求设计人员在最佳性能规格与不合作的物理现实之间取得越来越脆弱的平衡。
3D-IC 的复杂性增加了曾经理论上的热问题的风险,例如自发的 DRAM 刷新和可能迫使设备关闭的热失控。在光子学应用中,热量会通过改变光的波长来干扰通信。
芯片和封装组件的温度分布。来源:Ansys。
“热效应也会导致时序问题,”安世亚太(Ansys)的产品经理林朗说。“高温会导致导线延迟时间增加,从而降低电路速度。我们从晶圆厂那里听到的说法是,热效应是世界的中心。”
热效应和工艺变异既可以是单独的问题,也可以是彼此问题的放大器。无论如何,它们都会连锁反应,需要预见性地解决。“这些问题在某种程度上是相互独立的,”西门子电子设计自动化(Siemens EDA)的物理验证产品管理高级总监迈克尔·怀特(Michael White)说。“热效应问题需要在更宏观的层面上解决。如果我有热效应问题,最简单的第一步是更改布局。如果这还不够,我可以开始考虑在活跃设计中插入热柱,将热量从热点区域引开。之后,我需要开始考虑芯片是如何放置在封装中的。在最坏的情况下,如果我开始用尽选项,我必须改变封装。我必须在上面安装散热片等等。这些是从设计整体组件的整个生命周期来看最简单、成本最低的选项。如果我能把工作提前,就可以尽早解决这些问题。”
Part 2
首要问题——翘曲
目前,对3D-IC来说最大的挑战是热引起的翘曲。随着高度密集的异质材料配置导致温度升高,并需要复杂的热系数建模以避免产量损失,翘曲问题已从偶尔发生的问题变成了持续存在的问题。此外,基板变得更薄,这降低了它们将热量从设备中排出的能力。
“一年前,没有人谈论热引起的翘曲和应力分析,”凯登思的产品管理总监梅莉卡·罗斯汉德尔(Melika Roshandell)说。“这是因为3D-IC才开始重视这个问题。随着设计越来越注重热性能,以及设备越来越小、越薄,翘曲问题也受到了很大影响。会议的热点话题是热性能,但目前是热引起的翘曲问题。”
林还表示,日益增大的间隔器尺寸也加剧了这一问题。“今天的3D IC间隔器已经变得更大,可能在2000到5000平方毫米之间。”因此,翘曲问题变得越来越严重,无法再被忽视了。之前大约是5nm左右,但对于大型基板来说可能会更高。两种材料之间的距离变化可能会导致机械故障,连接芯片的接点出现裂缝。
机械应力是先进设计不可避免的另一个结果,进一步增加了3D-IC的多物理问题。“机械应力与热力学问题紧密相关,”西门子EDA(电子设计自动化)的nmDRC应用产品管理总监约翰·费格森(John Ferguson)说。“随着温度升高,导线会变形,这改变了机械应力。尤其是,令人担忧的主要是凸点。我们的粘合剂和凸点定义是否良好,使得它们能够正确且充分地形成欧姆接触?裂片是另一个层次的担忧,翘曲问题也是如此。如果你将器件堆叠在一起,就必须预期两侧都是平面的,否则就有空气间隙或其他形式的间隙的风险。你无法忽视其中任何一个问题。”
加入TSV(硅穿孔)也会成为问题。“你正在制造大洞,然后用其他材料填充它们。如何在不引起变形的情况下做到这一点并不容易。这完全取决于你如何在开始时控制chiplet工艺,以确保它们尽可能平整。接下来要小心地堆叠这些部件。例如,如果我们谈论的是将芯片堆叠在另一块芯片上,或者将第二块芯片堆叠在晶圆上,第一步是确保有良好的平面处理方法。这取决于你的填充方法、制造工艺(如化学机械抛光)以及它们是否可以精确调整。当我们谈论非常薄的芯片时,这可能会变得更加具有挑战性。如果你谈论的是将chiplet与其他chiplet放在一起的情况,会有一些chiplet故意超出另一块chiplet的情况。这就像有一个跳水板,你在一边的部分是陆地,而在另一边你则伸出到水池中。这肯定会导致变形。”
情况已经变得非常糟糕,以至于影响到了基本的优先事项。“一个SoC设计师只关心三件事——功率、性能和面积——但热已经成为第四个因素。
过去所有的PPA现在都变成了PPA-T,Cadence的Roshandel认为,“你的性能越来越高。这意味着功率也越来越高,你想要减少面积,所以你的热效应会变得更糟。在所有这些事情中,你的热效应总是与你作对。对于封装和PCB来说,你也必须关心信号完整性、功率完整性、翘曲和其他问题,这些问题都是热效应的全球性问题。你不能只把芯片放在一个小角落里,把封装和PCB放在另一个小角落里。”
然后他称,“我的封装没问题,所以我没必要担心其他任何事情。你必须在进行热分析时考虑你的整个设计。这就是为什么任何工程师都必须全面看待问题并进行热分析的原因。尤其是在3D-IC领域,你需要在工具中拥有大量的容量,以便在不进行简化的情况下读取整个设计。如果你简化了设计,就会失去访问权限,而且很多工程师不知道该从哪里简化。作为一名工程师,你需要记住这是全球性的问题,你需要一种工具,能够在设计初期进行分析。”
如果热分析没有在足够早的阶段进行,就很可能会出现问题。许多设备使用PVT传感器检测过热情况,然后根据需要进行热调节。“芯片上的分散式热敏传感器可以监测局部温度,”西门子的怀特说。“如果局部最高温度过高,它们就可以降低局部时钟速度。”
然而,这种解决方案会带来性能成本,使设备失去竞争力。“热调节并不能解决问题,”安世亚太半导体部门的产品营销总监马克·斯威宁说。“它只是检测到问题,然后为此付出代价来解决它。由于芯片会不断升温并自动调节速度,因此无法达到名义上的性能指标,这非常昂贵,说明我们未能预见到这个问题。它出现了,现在我们必须付出代价来降低功率,但这不是你想要的。你想要的是能够预测它。”
Part 3
减少问题——左移
EDA专家们继续强调,预测并减少问题的答案是“左移”。最好在早期就了解并解决潜在的问题。
罗斯汉德尔说:“过去,设计师会设计IC,然后在一切都完成后,再把它发送给分析工程师。但在3D-IC时代,这种做法已经行不通了。你必须从第一天就开始进行设计和分析,这样如果你需要更改设计,就可以立即解决。我们以前使用的一些临时解决方案,比如添加风扇和散热器,现在不再管用了,因为热量传递的速度太快了,等到散热器或液体冷却系统起作用时,你已经陷入了热失控状态。你必须制定风险缓解计划。最好的情况是,从第一天开始就了解风险,这样你就可以找到相应的解决方案。”
颠覆传统工作流程的挑战不应该被低估。考虑到人性,改变往往很难推销出去。设计师和公司可能没有意识到改变长期以来形成的工作流程所带来的成本和时间优势。可能需要进行一些严格的经济分析才能说服持怀疑态度的人,让他们相信虽然“左移”在初期可能会造成混乱,但从长远来看,它将更加经济高效。
“左移就是让设计师更加高效,”怀特说。“我们说服人们采用这种做法的方法是向他们展示,虽然今天做某件事需要几个小时,但只需几分钟就能完成。而且,在只用了几分钟完成之后,它会比使用传统方法更加干净整洁。‘看看你能节省多少时间和减少多少错误?这听起来不错吧?’”
左移可以帮助创建更加健壮可靠的设计,但如果有合适的工具,它还可以帮助整个设计过程更快地进行,减少迭代次数。“如果你在设计初期就进行热力学可行性分析,就可以知道你的布局问题在哪里,”怀特说。“所以,你可以在完全规划好之前就修改布局。”如果你直到最终包装阶段才考虑热管理问题,并且在每个IC的物理布局设计完成之后才考虑这个问题,那就太晚了。
Part 4
提前规划——可靠性
由热和变化引起的问题不再只是短期问题了。在多个市场中,芯片用于关键应用并且需要更长时间的使用寿命,因此可靠性已成为一个主要问题。提高可靠性的最佳方法是提前规划,并尽可能构建冗余和弹性。
“很多可靠性只是基本统计数据,”在接受采访时,Synopsys EDA 集团的杰出架构师 Rob Aitken 说。“假设一个特定事件有一定的发生概率。当我们进入较低的节点时,有更多的设备,这意味着发生某些事情的可能性更高。如果你有一个拥有500亿个晶体管的芯片,那么有50个地方可能会发生十亿分之一的事件。”
依赖 TSV 来帮助进行热管理也可能增加可靠性问题。“硅片中最大的可靠性故障点之一是通孔,”Swinnen说。“这些都是传统的故障点。”
简言之,曾经可以被忽视的问题现在已成为突出问题,提高认识是预防的最佳手段之一。
Part 5
结论
试图解决热问题可能最终会促使该行业向左转移,并重新思考活动孤岛。
“当我们拜访客户时,我们最终会与许多在孤岛中工作的不同团队交谈,”Ansys首席产品经理Suhail Saif说。“我们建议他们,为了更高效、更早、以最低的成本成功签署芯片,他们需要共同努力。从他们的角度来看,这很难做到,但这些先进的效果让他们比以前尝试得更多。确实需要有一个有凝聚力的解决方案,该解决方案适用于各个领域,使它们相互交流,并意识到他们在一方所做的事情会对另一方产生连锁反应,反之亦然。热不是聚在一起合作的唯一原因,但它可能是最严重的原因。就成本和发布延迟而言,它可能是对芯片设计整体影响最大的一种。从这个角度来看,热是最重要和最关键的问题,如果企业想要赢得市场份额,就不能忽视这些问题。”
最后,除了材料科学或物理学之外,这些问题的答案最有可能来自人类的合作。“从芯片设计人员一直到最终产品,孤岛正在发生重大变化,”Cadence 的 Rosandell 指出。“人们使用相同的数据库进行分析,而提供数据库的是芯片设计人员。我们看到这个行业发生了很大的变化,人们在同一数据库中一起工作。”
*声明:本文系原作者创作。文章内容系其个人观点,我方转载仅为分享与讨论,不代表我方赞成或认同,如有异议,请联系后台。