静态计算器已上线AI 工具
GPU 显存计算器
估算运行或训练模型所需的 GPU 显存。
隐私说明。 在你的浏览器中运行。你输入的数值仅保留在本页面,不会发送到任何地方。
例如,7B 模型填 7。
更低的精度(量化)每个参数占用更少字节。
fp16 KV 缓存为 2,8 位为 1。
用于激活值和运行时缓冲区的额外显存。
在权重之外加上梯度和 Adam 优化器状态。
这些只是粗略估算。实际显存占用取决于框架、注意力内核和运行时;在配置硬件前请务必核实。
模型权重13 GiB
KV 缓存2 GiB
激活开销3 GiB
估算总显存18 GiB
推荐的后续步骤
相关工具
常见问题
权重等于参数量乘以所选精度下每个参数的字节数(fp16 = 2,8 位 = 1,4 位 = 0.5)。在此基础上再加上 KV 缓存(它随隐藏层维度、层数、上下文长度和批大小增长),以及可配置的激活开销。训练模式还会加上梯度和 Adam 优化器状态。
你处理的每个 token 都会在每一层的注意力缓存中保留一个键和一个值条目。将上下文长度或批大小翻倍,大致会使 KV 缓存翻倍,因此长上下文或高并发的服务需要的显存,明显高于仅看权重时的预期。
量化权重会按字节宽度成比例地减少其显存占用:8 位相比 fp16 把权重显存减半,4 位则减到四分之一。除非你同时量化 KV 缓存和激活值,否则它们不会缩小,因此总体节省小于仅权重部分的节省。
请把它当作规划用的大致数值,而非保证。实际占用会随框架、注意力内核、内存碎片以及运行时分配缓冲区的方式而变化。请在估算值之上预留余量,并在真实环境中确认后再决定硬件。
最后更新:2026-06-23。