Open-source · MIT · Forjado al rojo vivo

Sabe qué LLM corre
en tu GPU y a cuántos tok/s.

InferBench descarga, arranca y benchmarkea motores de inferencia LLM locales con un solo click. Sin Docker obligatorio, sin tocar la terminal. Midiendo de verdad — nunca números inventados.

Descargar gratis Ver en GitHub

✓ Windows · macOS · Linux ✓ Sin Python ni Node ✓ 100% local y privado

InferBench · Benchmark en vivo LIVE

Qwen3 30B-A3B · MoE

Q4_K_M

llama.cpp · nativo · ctx 8192 · -fa · -ctk q8_0

tok/s

0.0

TTFT

— ms

VRAM

0.0 GB

Descargando GGUF… 0%

$ inferbench run --auto

Demo ilustrativa de la vista de benchmark.

Míralo en acción

Del hardware detectado al catálogo con optimización automática, el benchmark en vivo con tok/s reales, comparar runs lado a lado y servir un modelo (incluida generación de imagen) por MCP — todo en tu equipo.

InferBench en acción: hardware detectado, catálogo de modelos con optimización, benchmark en vivo con tok/s, comparación de runs y Serve/MCP con generación de imagen

Recorrido real del producto — cifras de benchmark reales, sin edición.

124

modelos verificados

sistemas: Win · macOS · Linux

~4 ms

listado de compatibilidad

datos enviados a la nube

El flujo

De "no tengo ni idea" a resultados reales en 5 pasos

Eliges modelo y cuantizaciones; InferBench se encarga del resto y mide de verdad.

Eliges modelo

Del catálogo o tus GGUF locales (LM Studio, Ollama, caché HF).

Descarga el motor

Binario oficial de GitHub + GGUF que falten de Hugging Face.

Arranca optimizado

Config óptima auto-calculada para tu GPU: quant, KV-cache, contexto, flags.

Benchmark en vivo

Suite de prompts midiendo TTFT, tok/s, VRAM y calidad en tiempo real.

Compara y decide

Resultados guardados en SQLite, comparables lado a lado con gráficos.

Características

Todo lo que necesitas para tunear inferencia local

Auto-bootstrap de un click

1 click descarga el binario del motor, baja los GGUF que falten de Hugging Face, arranca con la config óptima y lanza el benchmark. End-to-end.

Detección de hardware

CPU, RAM y GPU (NVIDIA vía NVML, AMD vía rocm-smi, Apple Silicon). Cacheada: el listado de compatibilidad de 124 modelos sale en ~4 ms.

Modo nativo, sin Docker

Para llama.cpp descarga la release oficial de GitHub, auto-detecta CUDA y baja también las DLLs del runtime. Docker queda opcional.

Catálogo de 124 modelos

Llama, Qwen, Gemma, Mistral, Phi, DeepSeek… todos verificados contra Hugging Face antes de entrar. Sin datos inventados.

Optimizador automático

Dado tu hardware + modelo + motor calcula la mejor cuantización, KV-cache, contexto máximo, MoE offload y flags. Todo sobrescribible.

Compresión KV explicada

5 presets de Calidad a Extremo, con qué hace cada uno y una tabla de los modelos más potentes que caben con cada nivel en TU GPU.

Métricas reales en vivo

TTFT, tok/s, pico de VRAM y RAM medidos de verdad vía SSE. Nada simulado: si un motor falla, te lo dice.

Sweep y comparación

Lanza el mismo modelo con N cuantizaciones en cola y compara varias runs del historial lado a lado, con gráficos.

100% local y privado

Tus prompts y tus modelos nunca salen de tu máquina. Sin telemetría, sin cuenta, sin servidor. Open-source bajo licencia MIT.

Catálogo

124 modelos verificados, cero inventados

Cada entrada se comprueba contra Hugging Face antes de añadirse: el repo GGUF existe, la plantilla de archivo se deriva de los archivos reales publicados y se valida que el Q4_K_M resuelve.

Llama 3.xQwen 2.5 / 3Gemma 2 / 3Mistral · MixtralPhi 2-4DeepSeek R1QwQ 32BVisión (VL)CódigoMoE 30B-A3BGraniteCommand-R

Además escanea tus GGUF locales (LM Studio, Ollama, caché HF) y lee el recuento real de parámetros de la metadata, independiente del quant.

Motores soportados

Motor	Tipo	Nativo	Docker	Auto-descarga
llama.cpp	local	✅	✅	✅ HF GGUF
ollama	local	✅	✅	✅ registro
vLLM	local	—	✅ GPU	✅ HF
SGLang	local	—	✅ GPU	✅ HF
TGI	local	—	✅ GPU	✅ HF
OpenAI / Anthropic	API	n/a	n/a	n/a
OpenRouter / NVIDIA	API	n/a	n/a	n/a

Todos los motores locales tienen adaptador completo. llama.cpp/ollama corren nativos (sin Docker); vLLM/SGLang/TGI vía Docker + GPU NVIDIA, descargando el modelo de HuggingFace en el contenedor. Las APIs cloud usan tu key (sólo sampling).

Calidad

No solo velocidad: también calidad, en 3 modos

TTFT y tok/s siempre son medidas reales. La nota de calidad (0-100) la eliges tú según tu equipo.

Referencia (offline)

Por defecto

Compara contra la respuesta de referencia: F1 de tokens recall-weighted, recall de números, stemming. Python puro, sin GPU/modelo/red.

LLM-judge local

Opcional

El propio motor puntúa sus respuestas con rúbrica 0-100. Fiable con modelos capaces (≥7-8B).

LLM-judge por API

Más fiable

Un modelo cloud OpenAI-compatible juzga de forma imparcial. Requiere API key (guardada en el almacén del SO).

El default es offline a propósito: funciona en cualquier ordenador, sin GPU ni API.

Descárgalo gratis

Sin Python ni Node instalados: el backend va embebido como sidecar. Coge el instalador para tu sistema.

Windows

InferBench Setup .exe

Apple Silicon · Intel

Descargar

Linux

InferBench .AppImage

Portable, sin instalar

Descargar

¿Prefieres compilarlo tú? El repo tiene las instrucciones de desarrollo. Ver en GitHub →

Deja de adivinar. Mídelo.

Qué cuantización te entra, a cuántos tok/s va y qué motor es más rápido en tu hardware — respondido con datos reales, en local.

Descargar InferBench ⭐ Estrella en GitHub

Sabe qué LLM corre en tu GPU y a cuántos tok/s.

Míralo en acción

De "no tengo ni idea" a resultados reales en 5 pasos

Todo lo que necesitas para tunear inferencia local

Auto-bootstrap de un click

Detección de hardware

Modo nativo, sin Docker

Catálogo de 124 modelos

Optimizador automático

Compresión KV explicada

Métricas reales en vivo

Sweep y comparación

100% local y privado

124 modelos verificados, cero inventados

No solo velocidad: también calidad, en 3 modos

Referencia (offline)

LLM-judge local

LLM-judge por API

Descárgalo gratis

Deja de adivinar. Mídelo.

Sabe qué LLM corre
en tu GPU y a cuántos tok/s.