大模型推理精度与显存估算指南

本地跑大模型最痛苦的是什么?不是模型不够强,而是OOM (Out Of Memory)——显存炸了。 如果你去HuggingFace/Modelscope上查看某个模型介绍,你肯定看到过 FP32、FP16、BF16、FP8、FP4这些所谓的张量类型,而张量类型是实现模型推理精度的底层数据格式的载体,例如张量类型为BF16的模型我们可以使用FP8的精度推理。 本文目标就是帮大家将这些概念捋清楚,顺便帮大家算算手里的显卡大概能跑什么参数的模型。 01. 精度:其实就是模型的“分辨率” 模型里的知识都是用数字存的。你可以把这些精度格式想象成图片的分辨率。 FP32 (单精度):4K 原盘电影。 每个参数占 4字节。虽然精准,但体积巨大,推理时基本用不上,那是训练时候用的“母带”。 FP16 / BF16 (半精度):1080P 高清。 每个参数占 2字节。这是目前推理的...