Calculateur de VRAM GPU
Estimez la VRAM GPU nécessaire pour exécuter ou entraîner un modèle.
Prochaines étapes recommandées
Outils associés
Estimez le nombre de tokens d'un texte et le coût approximatif d'une API d'IA avant de lancer un prompt.
Estimez le coût de génération d'images selon différents préréglages de modèles.
Supprimez les données EXIF et de localisation des images, localement dans votre navigateur.
Questions fréquentes
Les poids proviennent du nombre de paramètres multiplié par les octets par paramètre selon la précision choisie (fp16 = 2, 8 bits = 1, 4 bits = 0,5). On y ajoute le cache KV (qui croît avec la dimension cachée, les couches, la longueur de contexte et la taille du lot) ainsi qu'un surcoût d'activation configurable. Le mode entraînement ajoute aussi les gradients et l'état de l'optimiseur Adam.
Chaque token traité conserve une entrée clé et valeur dans le cache d'attention pour chaque couche. Doubler la longueur de contexte ou la taille du lot double à peu près ce cache KV, c'est pourquoi le service à long contexte ou à forte concurrence exige nettement plus de mémoire que ce que les poids seuls laissent penser.
Quantifier les poids réduit leur mémoire proportionnellement à la largeur en octets : le 8 bits divise par deux la mémoire des poids par rapport au fp16, et le 4 bits la divise par quatre. Cela ne réduit ni le cache KV ni les activations, sauf si vous les quantifiez aussi ; l'économie totale est donc plus faible que celle des seuls poids.
Considérez-le comme un ordre de grandeur pour planifier, pas comme une garantie. L'usage réel varie selon le framework, le noyau d'attention, la fragmentation mémoire et la façon dont l'environnement alloue les tampons. Prévoyez une marge au-dessus de l'estimation et vérifiez sur la pile réelle avant de vous engager sur du matériel.
Dernière mise à jour le 2026-06-23.