阅读历史 |

第422章 天权6号功耗曲线优化攻关(2 / 2)

加入书签

「二十颗晶片的实测数据全部在这里。」梁志远把硬碟接上会议室的终端,屏幕上跳出一张三维散点图。X轴是温度,从负40度到125度;Y轴是负载档位,从空载到满载八个档;Z轴是总线电流峰值。散点图的颜色从低温区的深蓝渐变到高温区的深红,在125度满载那个角上,散点密集地聚成一个偏离整体趋势的小簇。「这个簇就是非线性区。105度以下,电流峰值和温度的关系基本是线性的,预调度模型用线性外推就能大致覆盖。但从115度往上,峰值和温度的关系开始出现明显的非线性偏离。到了125度,偏差量已经大到不能忽略。」

林薇从梁志远手里接过雷射笔,在散点图的非线性区画了一个圈。「这不是天权4号的个例,也不是羲和架构的特有问题。根本原因在电晶体的阈值电压温度系数上——温度每升高十度,阈值电压下降大约二十毫伏,高温下电晶体更容易导通,关断时的漏电流呈指数级上升。我们在功耗仿真时用的是代工厂标准工艺设计套件里的温度系数模型,那个模型的适用范围标注到了125度,但实际精度在115度以上就已经开始发散。」

「仿真方法论的问题。」张京京说。这句话她在天权6号热功耗攻坚时就说过一次,当时是针对林薇揭示的「用平均功耗代替峰值功耗」的缺陷。现在同样的问题出现在了温度维度上——仿真模型把温度对功耗的影响简化成了一个线性系数,但实际的物理过程在极端温度下是高度非线性的。

赵静把预调度模型的架构图投到屏幕上,开始拆解问题的技术根因。小芯AI预调度模型的本质是一个轻量级神经网络,输入是总线事务队列的长度丶类型丶发起频率和当前温度四个特徵,输出是一个二分类预测——接下来3.2纳秒内是否会出现超过阈值的电流尖峰。模型在天权4号105度以下的数据上训练后,预测准确率达到94%,迁移到天权6号仿真环境后准确率降到91.5%。现在加上125度下的实测数据,准确率进一步降到83.7%。

「下降的原因分两层。」赵静用雷射笔点着模型的特徵重要性排序图,「第一层是温度特徵在高温区的非线性变化,模型在训练时没有见过这种分布,所以预测失准。第二层更麻烦——总线电流尖峰的物理机制在高温下发生了变化。105度以下,尖峰的主要来源是总线事务并发导致的瞬时开关电流叠加。但125度下,电晶体关断漏电本身就成了一个不可忽略的电流分量,这个分量和开关电流叠加之后,峰值超出了模型的预测范围。」

↑返回顶部↑
精品御宅屋m.yuzhaiwu1.vip

书页/目录