Si tu app le habla a un LLM a través de la API de OpenAI, ya conocés la cuenta: cada request es una línea más en la factura. Y para un montón de workloads —herramientas internas, batch jobs, pipelines de RAG, cualquier cosa con volumen predecible— estás alquilando algo que podrías tener propio.
vLLM es el proyecto que hace que tenerlo propio sea realista. Nació en el Sky Computing Lab de UC Berkeley y hoy es uno de los proyectos open source de IA más activos que existen. Es un inference and serving engine de alto throughput para LLMs. Traducción: es la pieza que agarra un modelo open-weights y lo convierte en un endpoint de API rápido y listo para producción, corriendo sobre hardware que vos controlás.
El truco se llama PagedAttention
La razón por la que vLLM es rápido no es magia, es manejo de memoria. Servir un LLM implica hacer malabares con el KV cache —la memoria de trabajo del modelo para cada request en vuelo. Las implementaciones ingenuas desperdician cantidades enormes de GPU RAM en fragmentación y sobre-asignación. vLLM toma prestada una idea de los sistemas operativos: paginá el KV cache de la misma forma en que un OS pagina la memoria virtual, asignándolo en bloques chicos en lugar de un único bloque contiguo gigante. Eso es PagedAttention, descrito en el paper del equipo de 2023 (Kwon et al.), y es por lo que vLLM puede mantener muchas más requests corriendo en paralelo sobre la misma placa.
No necesitás entender las tripas para aprovecharlo. Solo necesitás saber que de ahí viene el throughput.
No quedás atado a un solo fabricante de GPU
Esta es la parte que importa si estás planeando infraestructura de verdad. vLLM corre sobre GPUs de NVIDIA, GPUs de AMD y CPUs x86/ARM/PowerPC —además de plugins de hardware para Google TPUs, Intel Gaudi, Huawei Ascend, Apple Silicon y más. Y soporta más de 200 arquitecturas de modelos en Hugging Face out of the box: la familia Qwen, Llama, Mistral, gpt-oss y la mayoría de lo que realmente querrías self-hostear.
Esa amplitud es justamente el punto. No estás apostando tu stack a un solo chip ni a un solo modelo.
Ponerlo a andar
En una máquina con GPUs de NVIDIA, el camino recomendado usa uv:
uv venv --python 3.12 --seed
source .venv/bin/activate
uv pip install vllm --torch-backend=auto
El flag --torch-backend=auto inspecciona tu CUDA driver y elige el build de PyTorch correcto automáticamente —una cosa menos para equivocarse. (Las plataformas no-CUDA tienen sus propias instrucciones de instalación en la documentación.)
Ahora serví un modelo. Este único comando lo descarga desde Hugging Face y levanta un server compatible con OpenAI en localhost:8000:
vllm serve Qwen/Qwen2.5-1.5B-Instruct
La migración es una sola línea
Acá está el porqué de que “compatible con OpenAI” sea el feature estrella y no una nota al pie. Tu código existente no cambia —solo apuntás el client a otro lado:
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:8000/v1",
api_key="EMPTY", # vLLM no requiere auth por defecto
)
resp = client.chat.completions.create(
model="Qwen/Qwen2.5-1.5B-Instruct",
messages=[
{"role": "system", "content": "Sos un asistente útil."},
{"role": "user", "content": "Explicá qué es PagedAttention."},
],
)
print(resp.choices[0].message.content)
Cambiás el base_url y el mismo SDK que tu equipo ya usa ahora le pega a un modelo que hosteás vos. El streaming funciona. El endpoint viejo de completions funciona. ¿Querés auth? Levantalo con --api-key sk-tu-clave. El endpoint de chat completions, el de completions y un endpoint para listar modelos están todos ahí.
Una salvedad honesta
vLLM está pensado para GPUs de servidor dedicadas —pensá en una H100 alquilada, no en tu laptop. Es un engine para infraestructura, que es exactamente por lo que brilla cuando un equipo levanta un servicio de inferencia compartido. Si lo que querés es un modelo corriendo localmente en una GPU de consumidor para uso personal, herramientas como Ollama o LM Studio son la mejor opción, y hasta las guías cercanas al propio vLLM te mandan para allá. Tené claro qué problema estás resolviendo, y vLLM encaja sin fricción.
Para un equipo con volumen estable de LLM y un presupuesto de GPU ya en movimiento, la cuenta es simple: vLLM convierte el “pagarle a OpenAI para siempre” en “corrélo vos, sobre el hardware y los modelos que vos elegís”. Y eso no es poca cosa.
