Calculadora de VRAM de GPU
Estima la VRAM de GPU necesaria para ejecutar o entrenar un modelo.
Próximos pasos recomendados
Herramientas relacionadas
Estima los tokens de un texto y el coste aproximado de una API de IA antes de lanzar un prompt.
Estima el costo de generar imágenes según distintos perfiles de modelos.
Elimina los datos EXIF y de ubicación de las imágenes, localmente en tu navegador.
Preguntas frecuentes
Los pesos salen del número de parámetros multiplicado por los bytes por parámetro de la precisión elegida (fp16 = 2, 8 bits = 1, 4 bits = 0,5). A eso se suma la caché KV (que crece con la dimensión oculta, las capas, la longitud de contexto y el tamaño de lote) más un sobrecoste de activaciones configurable. El modo de entrenamiento también añade los gradientes y el estado del optimizador Adam.
Cada token que procesas guarda una entrada de clave y valor en la caché de atención por cada capa. Duplicar la longitud de contexto o el tamaño de lote duplica aproximadamente esa caché KV, por eso servir con contexto largo o mucha concurrencia necesita bastante más memoria de la que sugieren los pesos por sí solos.
Cuantizar los pesos reduce su memoria en proporción al ancho en bytes: 8 bits reduce a la mitad la memoria de los pesos frente a fp16 y 4 bits a la cuarta parte. No reduce la caché KV ni las activaciones a menos que también las cuantices, así que el ahorro total es menor que el de los pesos por sí solos.
Tómalo como una cifra orientativa para planificar, no como una garantía. El uso real cambia con el framework, el núcleo de atención, la fragmentación de memoria y cómo asigna los búferes el entorno de ejecución. Deja margen por encima de la estimación y confírmalo en la pila real antes de comprometerte con hardware.
Última actualización: 2026-06-23.