Calcolatore di VRAM GPU
Stima la VRAM della GPU necessaria per eseguire o addestrare un modello.
Prossimi passi consigliati
Strumenti correlati
Stima i token di un testo e il costo approssimativo di un'API di IA prima di lanciare un prompt.
Stima il costo di generazione delle immagini in base a diverse configurazioni di modelli.
Rimuovi i dati EXIF e di posizione dalle immagini, localmente nel tuo browser.
Domande frequenti
I pesi derivano dal numero di parametri moltiplicato per i byte per parametro della precisione scelta (fp16 = 2, 8 bit = 1, 4 bit = 0,5). A ciò si aggiunge la cache KV (che cresce con la dimensione nascosta, i livelli, la lunghezza del contesto e la dimensione del batch) più un sovraccarico di attivazione configurabile. La modalità di addestramento aggiunge anche i gradienti e lo stato dell'ottimizzatore Adam.
Ogni token elaborato mantiene una voce chiave e valore nella cache di attenzione per ciascun livello. Raddoppiare la lunghezza del contesto o la dimensione del batch raddoppia all'incirca questa cache KV: per questo il servizio a contesto lungo o ad alta concorrenza richiede molta più memoria di quanto i soli pesi lascino intendere.
Quantizzare i pesi riduce la loro memoria in proporzione alla larghezza in byte: gli 8 bit dimezzano la memoria dei pesi rispetto a fp16 e i 4 bit la riducono a un quarto. Non riduce la cache KV né le attivazioni, a meno che non quantizzi anche quelle, quindi il risparmio totale è inferiore a quello dei soli pesi.
Consideralo un ordine di grandezza per la pianificazione, non una garanzia. L'uso reale varia con il framework, il kernel di attenzione, la frammentazione della memoria e il modo in cui il runtime alloca i buffer. Lascia un margine sopra la stima e verifica sullo stack reale prima di impegnarti con l'hardware.
Ultimo aggiornamento: 2026-06-23.