发布日期:2025-07-25 07:19 点击次数:180 |
克雷西 henry 发自 凹非寺
量子位 | 公众号 QbitAI
通过一种名为GPUHammer的膺惩模式,不错让GPU上跑的大模子,准确率从80%径直掉到0.02%,不错说是渣王人不剩。
多伦多大学的参议东说念主员态状,这种膺惩就像在模子中激励不幸性的脑毁伤。
咫尺,参议东说念主员照旧在英伟达RTX A6000上顺利测试了这种膺惩,但不摈弃其他型号也可能受到影响。
英伟达这边提议用户实行一项精通递次,但这种递次会让模子性能着落10%。
那么,这个症结到底是何如一趟事呢?
不是Bug,而是“物理膺惩”GPUHammer是首个顺利膺惩GPU显存的Rowhammer膺惩。
它并不是通过代码批改模子文献,而是径直对你的显存“物理动手”。
它属于Rowhammer膺惩的一类:膺惩者通过反复“敲击”内存某一瞥,激励相邻行中的比特翻转(从0形成1,从1形成0),从而暗暗批改数据。
往日Rowhammer只可膺惩CPU用的内存,咫尺,GPU也中招了。
在GPUHammer中,参议东说念主员顺利翻转了深度学习模子中的权重指数位。
比如FP16浮点数,只好翻转一个重要位,指数就能飙升16倍——模子准确憨径直塌了。
在实际中,参议东说念主员对AlexNet、VGG、ResNet等经典神经采集架构发起了膺惩。
效用标明,即使是单个比特的翻转也可能导致模子性能的澈底崩溃。在受到膺惩后模子的准确率就会从80%(BaseAcc)径直暴跌至0.1%(DegradedAcc.)。
在这种情况下,自动驾驶汽车可能会造作地识别交通象征,而在医疗AI气象中则可能发生误诊。
而在云机器学习平台或VDI树立等分享GPU环境中,坏心佃户可能会对相邻的使命负载发起GPUHammer膺惩,从而影响推理准确性或毁坏缓存的模子参数。
不错说,GPUHammer对AI时期的基础神气有着放手性的打击。
那么,有莫得什么主义不错窒碍这东西呢?
为了回话GPUHammer的膺惩,英伟达发布了一份安全见告。
英伟达教唆用户不错开启一项名为系统级纠错码(ECC)的保护递次。
ECC(纠错码)的旨趣是:在每段内存数据支配,突出加几位“校验码”。一朝有比特翻转,比如0形成了1,ECC就能自动识别并改良。
不外它只可成立单个比特造作,遇上双比特翻转,只可发出申饬,没法缓助。
此外,ECC照旧一把“双刃剑”,在缓解GPUHammer的同期,还会导致GPU性能的阑珊。
参议团队示意,系和解般默许禁用ECC,因为它存储在带外的单独内存区域中,启用它会导致6.5%的内存支出和降速。而在A6000GPU上启用ECC会导致12%内存带宽失掉,机器学习独揽速率会缩小3%-10%。
别怕,你的游戏不会崩
不少网友在指摘区,发出了疑问:GPUHammar不会影响我打游戏吧?
省心,参议团队标明,固然咫尺尚未发现影响GPU比特翻转的根底原因,但不同的GPU配置、策画在受Rowhammer膺惩时有着赫然差别。
举例,RTX3080、A100等芯片就采纳了与A6000 GDDR十足不同的DRAM架构,这些架构的存在使芯片躲避了Rowhammer的影响。
而况,在将来的GPU的斥地中,如若GPU集成了片上ECC(on-die ECC),就不错改良单元翻转,并默许检测双位翻转。这就进一步使Rowhammer对GPU的膺惩愈加繁重。
此外,在云霄环境中,NVIDIA的MIG和玄机推断(CC)时刻通过内存隔断,能灵验窒碍多佃户分享归并DRAM存储,从而驻防Rowhammer类膺惩收效。
不外,AI越宏大,盘外招也越荫藏,GPUHammer仅仅开动,将来模子的安全建设才刚刚开动。
参考蚁集:[1]https://arstechnica.com/security/2025/07/nvidia-chips-become-the-first-gpus-to-fall-to-rowhammer-bit-flip-attacks/?comments-page=1#comments[2]https://thehackernews.com/2025/07/gpuhammer-new-rowhammer-attack-variant.html
— 完 —
量子位 QbitAI · 头条号签约
怜惜咱们开云体育(中国)官方网站,第一时候获知前沿科技动态