Open-source · MIT · Forjado al rojo vivo

Sabe qué LLM corre en tu GPU y a cuántos tok/s.

InferBench descarga, arranca y benchmarkea motores de inferencia LLM locales con un solo click. Sin Docker obligatorio, sin tocar la terminal. Midiendo de verdad — nunca números inventados.

✓ Windows · macOS · Linux ✓ Sin Python ni Node ✓ 100% local y privado
InferBench · Benchmark en vivo LIVE
Qwen3 30B-A3B · MoE
Q4_K_M
llama.cpp · nativo · ctx 8192 · -fa · -ctk q8_0
tok/s
0.0
TTFT
ms
VRAM
0.0 GB
Descargando GGUF… 0%
$ inferbench run --auto

Demo ilustrativa de la vista de benchmark.

Míralo en acción

Del hardware detectado al catálogo con optimización automática, el benchmark en vivo con tok/s reales, comparar runs lado a lado y servir un modelo (incluida generación de imagen) por MCP — todo en tu equipo.

InferBench en acción: hardware detectado, catálogo de modelos con optimización, benchmark en vivo con tok/s, comparación de runs y Serve/MCP con generación de imagen

Recorrido real del producto — cifras de benchmark reales, sin edición.

124
modelos verificados
3
sistemas: Win · macOS · Linux
~4 ms
listado de compatibilidad
0
datos enviados a la nube

El flujo

De "no tengo ni idea" a resultados reales en 5 pasos

Eliges modelo y cuantizaciones; InferBench se encarga del resto y mide de verdad.

01
Eliges modelo
Del catálogo o tus GGUF locales (LM Studio, Ollama, caché HF).
02
Descarga el motor
Binario oficial de GitHub + GGUF que falten de Hugging Face.
03
Arranca optimizado
Config óptima auto-calculada para tu GPU: quant, KV-cache, contexto, flags.
04
Benchmark en vivo
Suite de prompts midiendo TTFT, tok/s, VRAM y calidad en tiempo real.
05
Compara y decide
Resultados guardados en SQLite, comparables lado a lado con gráficos.

Características

Todo lo que necesitas para tunear inferencia local

Auto-bootstrap de un click

1 click descarga el binario del motor, baja los GGUF que falten de Hugging Face, arranca con la config óptima y lanza el benchmark. End-to-end.

Detección de hardware

CPU, RAM y GPU (NVIDIA vía NVML, AMD vía rocm-smi, Apple Silicon). Cacheada: el listado de compatibilidad de 124 modelos sale en ~4 ms.

Modo nativo, sin Docker

Para llama.cpp descarga la release oficial de GitHub, auto-detecta CUDA y baja también las DLLs del runtime. Docker queda opcional.

Catálogo de 124 modelos

Llama, Qwen, Gemma, Mistral, Phi, DeepSeek… todos verificados contra Hugging Face antes de entrar. Sin datos inventados.

Optimizador automático

Dado tu hardware + modelo + motor calcula la mejor cuantización, KV-cache, contexto máximo, MoE offload y flags. Todo sobrescribible.

Compresión KV explicada

5 presets de Calidad a Extremo, con qué hace cada uno y una tabla de los modelos más potentes que caben con cada nivel en TU GPU.

Métricas reales en vivo

TTFT, tok/s, pico de VRAM y RAM medidos de verdad vía SSE. Nada simulado: si un motor falla, te lo dice.

Sweep y comparación

Lanza el mismo modelo con N cuantizaciones en cola y compara varias runs del historial lado a lado, con gráficos.

100% local y privado

Tus prompts y tus modelos nunca salen de tu máquina. Sin telemetría, sin cuenta, sin servidor. Open-source bajo licencia MIT.

Catálogo

124 modelos verificados, cero inventados

Cada entrada se comprueba contra Hugging Face antes de añadirse: el repo GGUF existe, la plantilla de archivo se deriva de los archivos reales publicados y se valida que el Q4_K_M resuelve.

Llama 3.xQwen 2.5 / 3Gemma 2 / 3Mistral · MixtralPhi 2-4DeepSeek R1QwQ 32BVisión (VL)CódigoMoE 30B-A3BGraniteCommand-R

Además escanea tus GGUF locales (LM Studio, Ollama, caché HF) y lee el recuento real de parámetros de la metadata, independiente del quant.

Motores soportados
Motor Tipo Nativo Docker Auto-descarga
llama.cpp local ✅ HF GGUF
ollama local ✅ registro
vLLM local ✅ GPU ✅ HF
SGLang local ✅ GPU ✅ HF
TGI local ✅ GPU ✅ HF
OpenAI / Anthropic API n/a n/a n/a
OpenRouter / NVIDIA API n/a n/a n/a
Todos los motores locales tienen adaptador completo. llama.cpp/ollama corren nativos (sin Docker); vLLM/SGLang/TGI vía Docker + GPU NVIDIA, descargando el modelo de HuggingFace en el contenedor. Las APIs cloud usan tu key (sólo sampling).

Calidad

No solo velocidad: también calidad, en 3 modos

TTFT y tok/s siempre son medidas reales. La nota de calidad (0-100) la eliges tú según tu equipo.

Referencia (offline)

Por defecto

Compara contra la respuesta de referencia: F1 de tokens recall-weighted, recall de números, stemming. Python puro, sin GPU/modelo/red.

LLM-judge local

Opcional

El propio motor puntúa sus respuestas con rúbrica 0-100. Fiable con modelos capaces (≥7-8B).

LLM-judge por API

Más fiable

Un modelo cloud OpenAI-compatible juzga de forma imparcial. Requiere API key (guardada en el almacén del SO).

El default es offline a propósito: funciona en cualquier ordenador, sin GPU ni API.

Descárgalo gratis

Sin Python ni Node instalados: el backend va embebido como sidecar. Coge el instalador para tu sistema.

¿Prefieres compilarlo tú? El repo tiene las instrucciones de desarrollo. Ver en GitHub →

Deja de adivinar. Mídelo.

Qué cuantización te entra, a cuántos tok/s va y qué motor es más rápido en tu hardware — respondido con datos reales, en local.