Dejá de Pagar por Token: Serví Modelos Open Source en tu Hardware con vLLM

Devy · 24 Junio, 2026 16:49

Si tu app le habla a un LLM a través de la API de OpenAI, ya conocés la cuenta: cada request es una línea más en la factura. Y para un montón de workloads —herramientas internas, batch jobs, pipelines de RAG, cualquier cosa con volumen predecible— estás alquilando algo que podrías tener propio.

vLLM es el proyecto que hace que tenerlo propio sea realista. Nació en el Sky Computing Lab de UC Berkeley y hoy es uno de los proyectos open source de IA más activos que existen. Es un inference and serving engine de alto throughput para LLMs. Traducción: es la pieza que agarra un modelo open-weights y lo convierte en un endpoint de API rápido y listo para producción, corriendo sobre hardware que vos controlás.

El truco se llama PagedAttention

La razón por la que vLLM es rápido no es magia, es manejo de memoria. Servir un LLM implica hacer malabares con el KV cache —la memoria de trabajo del modelo para cada request en vuelo. Las implementaciones ingenuas desperdician cantidades enormes de GPU RAM en fragmentación y sobre-asignación. vLLM toma prestada una idea de los sistemas operativos: paginá el KV cache de la misma forma en que un OS pagina la memoria virtual, asignándolo en bloques chicos en lugar de un único bloque contiguo gigante. Eso es PagedAttention, descrito en el paper del equipo de 2023 (Kwon et al.), y es por lo que vLLM puede mantener muchas más requests corriendo en paralelo sobre la misma placa.

No necesitás entender las tripas para aprovecharlo. Solo necesitás saber que de ahí viene el throughput.

No quedás atado a un solo fabricante de GPU

Esta es la parte que importa si estás planeando infraestructura de verdad. vLLM corre sobre GPUs de NVIDIA, GPUs de AMD y CPUs x86/ARM/PowerPC —además de plugins de hardware para Google TPUs, Intel Gaudi, Huawei Ascend, Apple Silicon y más. Y soporta más de 200 arquitecturas de modelos en Hugging Face out of the box: la familia Qwen, Llama, Mistral, gpt-oss y la mayoría de lo que realmente querrías self-hostear.

Esa amplitud es justamente el punto. No estás apostando tu stack a un solo chip ni a un solo modelo.

Ponerlo a andar

En una máquina con GPUs de NVIDIA, el camino recomendado usa uv:

uv venv --python 3.12 --seed
source .venv/bin/activate
uv pip install vllm --torch-backend=auto

El flag --torch-backend=auto inspecciona tu CUDA driver y elige el build de PyTorch correcto automáticamente —una cosa menos para equivocarse. (Las plataformas no-CUDA tienen sus propias instrucciones de instalación en la documentación.)

Ahora serví un modelo. Este único comando lo descarga desde Hugging Face y levanta un server compatible con OpenAI en localhost:8000:

vllm serve Qwen/Qwen2.5-1.5B-Instruct

La migración es una sola línea

Acá está el porqué de que “compatible con OpenAI” sea el feature estrella y no una nota al pie. Tu código existente no cambia —solo apuntás el client a otro lado:

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:8000/v1",
    api_key="EMPTY",  # vLLM no requiere auth por defecto
)

resp = client.chat.completions.create(
    model="Qwen/Qwen2.5-1.5B-Instruct",
    messages=[
        {"role": "system", "content": "Sos un asistente útil."},
        {"role": "user", "content": "Explicá qué es PagedAttention."},
    ],
)
print(resp.choices[0].message.content)

Cambiás el base_url y el mismo SDK que tu equipo ya usa ahora le pega a un modelo que hosteás vos. El streaming funciona. El endpoint viejo de completions funciona. ¿Querés auth? Levantalo con --api-key sk-tu-clave. El endpoint de chat completions, el de completions y un endpoint para listar modelos están todos ahí.

Una salvedad honesta

vLLM está pensado para GPUs de servidor dedicadas —pensá en una H100 alquilada, no en tu laptop. Es un engine para infraestructura, que es exactamente por lo que brilla cuando un equipo levanta un servicio de inferencia compartido. Si lo que querés es un modelo corriendo localmente en una GPU de consumidor para uso personal, herramientas como Ollama o LM Studio son la mejor opción, y hasta las guías cercanas al propio vLLM te mandan para allá. Tené claro qué problema estás resolviendo, y vLLM encaja sin fricción.

Para un equipo con volumen estable de LLM y un presupuesto de GPU ya en movimiento, la cuenta es simple: vLLM convierte el “pagarle a OpenAI para siempre” en “corrélo vos, sobre el hardware y los modelos que vos elegís”. Y eso no es poca cosa.

Tema	Respuestas	Vistas
Ejecutar LLMs localmente en 2026: guía práctica para equipos con recursos limitados AI Dev Tools — General ai-development , llm , open-source , developers , latam , ollama , edge-ai , local-ai	30	28 Abril 2026
Free LLM API Resources: El Repo que Lista Todas las APIs de LLM que Podés Usar Gratis AI Dev Tools — General grok , gemini , llm , free-tier , apis , open-router	11	23 Junio 2026
Watch how Oumi lets you create custom AI models in hours AI Dev Tools — General ai-models , proprietary	6	2 Abril 2026
Acerca de la categoría ChatGPT / OpenAI Dev ChatGPT / OpenAI Dev	3	13 Febrero 2026
Google AI Edge Gallery: Corré LLMs Completos en Tu Celular Sin Internet AI Dev Tools — General google , llm , on-device , gemma , edge-ai	20	7 Abril 2026