Sabe qué LLM corre
en tu GPU y a cuántos tok/s.
InferBench descarga, arranca y benchmarkea motores de inferencia LLM locales con un solo click. Sin Docker obligatorio, sin tocar la terminal. Midiendo de verdad — nunca números inventados.
Demo ilustrativa de la vista de benchmark.
Míralo en acción
Del hardware detectado al catálogo con optimización automática, el benchmark en vivo con tok/s reales, comparar runs lado a lado y servir un modelo (incluida generación de imagen) por MCP — todo en tu equipo.
Recorrido real del producto — cifras de benchmark reales, sin edición.
El flujo
De "no tengo ni idea" a resultados reales en 5 pasos
Eliges modelo y cuantizaciones; InferBench se encarga del resto y mide de verdad.
Características
Todo lo que necesitas para tunear inferencia local
Auto-bootstrap de un click
1 click descarga el binario del motor, baja los GGUF que falten de Hugging Face, arranca con la config óptima y lanza el benchmark. End-to-end.
Detección de hardware
CPU, RAM y GPU (NVIDIA vía NVML, AMD vía rocm-smi, Apple Silicon). Cacheada: el listado de compatibilidad de 124 modelos sale en ~4 ms.
Modo nativo, sin Docker
Para llama.cpp descarga la release oficial de GitHub, auto-detecta CUDA y baja también las DLLs del runtime. Docker queda opcional.
Catálogo de 124 modelos
Llama, Qwen, Gemma, Mistral, Phi, DeepSeek… todos verificados contra Hugging Face antes de entrar. Sin datos inventados.
Optimizador automático
Dado tu hardware + modelo + motor calcula la mejor cuantización, KV-cache, contexto máximo, MoE offload y flags. Todo sobrescribible.
Compresión KV explicada
5 presets de Calidad a Extremo, con qué hace cada uno y una tabla de los modelos más potentes que caben con cada nivel en TU GPU.
Métricas reales en vivo
TTFT, tok/s, pico de VRAM y RAM medidos de verdad vía SSE. Nada simulado: si un motor falla, te lo dice.
Sweep y comparación
Lanza el mismo modelo con N cuantizaciones en cola y compara varias runs del historial lado a lado, con gráficos.
100% local y privado
Tus prompts y tus modelos nunca salen de tu máquina. Sin telemetría, sin cuenta, sin servidor. Open-source bajo licencia MIT.
Catálogo
124 modelos verificados, cero inventados
Cada entrada se comprueba contra Hugging Face antes de añadirse: el repo GGUF existe, la plantilla de archivo se deriva de los archivos reales publicados y se valida que el Q4_K_M resuelve.
Además escanea tus GGUF locales (LM Studio, Ollama, caché HF) y lee el recuento real de parámetros de la metadata, independiente del quant.
| Motor | Tipo | Nativo | Docker | Auto-descarga |
|---|---|---|---|---|
| llama.cpp | local | ✅ | ✅ | ✅ HF GGUF |
| ollama | local | ✅ | ✅ | ✅ registro |
| vLLM | local | — | ✅ GPU | ✅ HF |
| SGLang | local | — | ✅ GPU | ✅ HF |
| TGI | local | — | ✅ GPU | ✅ HF |
| OpenAI / Anthropic | API | n/a | n/a | n/a |
| OpenRouter / NVIDIA | API | n/a | n/a | n/a |
Calidad
No solo velocidad: también calidad, en 3 modos
TTFT y tok/s siempre son medidas reales. La nota de calidad (0-100) la eliges tú según tu equipo.
Referencia (offline)
Por defectoCompara contra la respuesta de referencia: F1 de tokens recall-weighted, recall de números, stemming. Python puro, sin GPU/modelo/red.
LLM-judge local
OpcionalEl propio motor puntúa sus respuestas con rúbrica 0-100. Fiable con modelos capaces (≥7-8B).
LLM-judge por API
Más fiableUn modelo cloud OpenAI-compatible juzga de forma imparcial. Requiere API key (guardada en el almacén del SO).
El default es offline a propósito: funciona en cualquier ordenador, sin GPU ni API.
Descárgalo gratis
Sin Python ni Node instalados: el backend va embebido como sidecar. Coge el instalador para tu sistema.
¿Prefieres compilarlo tú? El repo tiene las instrucciones de desarrollo. Ver en GitHub →
Deja de adivinar. Mídelo.
Qué cuantización te entra, a cuántos tok/s va y qué motor es más rápido en tu hardware — respondido con datos reales, en local.