🧠

Modelos LLM: Guía 2026

🧑‍🎓 Aprendiz

Dos tipos de modelos, dos propósitos

Cuando desarrollas con IA, usas modelos en dos contextos muy diferentes:

ContextoQué haceEjemplo
Agente de códigoEscribe TU códigoClaude Code, Cursor, Copilot
Tu aplicaciónResponde a TUS usuariosEl chatbot que construyes

⚠️ Error común: Usar el mismo modelo para ambos. Un modelo caro que escribe código excelente puede ser innecesario (y costoso) para responder preguntas simples de usuarios.


Modelos para agentes de código (Enero 2026)

Estos modelos potencian las herramientas que TÚ usas para programar:

ModeloAgente que lo usaSWE-benchContextoPrecio Input/Output
Claude Opus 4.5Claude Code72.0%200K$5 / $25 por 1M tokens
GPT-5.2-CodexCodex CLI, Copilot69.5%128K$6 / $30 por 1M tokens
Claude Sonnet 4Cursor, Cody72.7%200K$3 / $15 por 1M tokens
Gemini 2.5 ProGoogle Antigravity63.8%1M$1.25 / $5 por 1M tokens

💡 SWE-bench mide qué tan bien un modelo resuelve bugs reales de GitHub. Mayor % = mejor para código.


Modelos para producción (Enero 2026)

Estos modelos van dentro de tu app para atender usuarios:

ModeloProveedorFortalezaContextoPrecio Input/Output
Gemini 2.0 FlashGoogleMuy rápido, gratis hasta 1500/día1M$0.10 / $0.40 por 1M
GLM-4.7Zhipu AIOpen source, muy capaz200KGratis (local) / ~$0.50 via API
DeepSeek-V3.2DeepSeekExcelente calidad/precio128K$0.14 / $0.28 por 1M
Claude 3.5 HaikuAnthropicRápido, económico200K$0.80 / $4 por 1M
Llama 3.3 70BMetaOpen source, corre local128KGratis (local)

¿Por qué importa el contexto (context window)?

El contexto es cuánta información puede "ver" el modelo en una sola conversación.

┌─────────────────────────────────────────────────────┐
│  Contexto = Prompt + Historial + Archivos + Output  │
└─────────────────────────────────────────────────────┘

Modelo con 8K contexto:   [████____] Solo 8,000 tokens
Modelo con 128K contexto: [████████████████████████████████] 128,000 tokens
Modelo con 1M contexto:   [███████████████████████████████████████...] 1,000,000 tokens
Caso de usoContexto mínimo recomendado
Chat simple (FAQ)8K
Análisis de documentos32K-128K
Agente de código (lee tu repo)128K-200K
Analizar codebase completo1M+

Modelos Open Source: La alternativa gratuita

No necesitas pagar APIs. Puedes correr modelos localmente o usar servicios como OpenRouter.

Opción 1: Correr local con Ollama

# Instalar Ollama
curl -fsSL https://ollama.com/install.sh | sh

# Descargar y correr GLM-4
ollama run glm4

# O DeepSeek
ollama run deepseek-v3

Requisitos: GPU con 8GB+ VRAM para modelos pequeños, 24GB+ para los grandes.

Opción 2: OpenRouter (API unificada)

OpenRouter te da acceso a todos los modelos con una sola API Key:

// Usar cualquier modelo con OpenRouter
const response = await fetch('https://openrouter.ai/api/v1/chat/completions', {
  method: 'POST',
  headers: {
    'Authorization': 'Bearer TU_OPENROUTER_KEY',
    'Content-Type': 'application/json',
  },
  body: JSON.stringify({
    model: 'deepseek/deepseek-chat-v3',  // O cualquier otro
    messages: [{ role: 'user', content: 'Hola!' }],
  }),
});

Modelos populares en OpenRouter (Enero 2026):

ModeloID en OpenRouterPrecio/1M tokens
DeepSeek V3.2deepseek/deepseek-chat-v3$0.14 input / $0.28 output
GLM-4.7zhipu/glm-4$0.50 input / $0.50 output
Llama 3.3 70Bmeta-llama/llama-3.3-70b$0.40 input / $0.40 output
Mistral Large 2mistralai/mistral-large-2$2 input / $6 output

Comparativa: ¿Qué modelo para qué?

Necesito...RecomendaciónPor qué
Escribir código rápidoClaude Sonnet 4 (vía Cursor)Balance calidad/velocidad
Tareas de código complejasClaude Opus 4.5 (vía Claude Code)Mejor razonamiento
Chatbot para mi app (gratis)Gemini 2.0 Flash1500 req/día gratis
Chatbot de alta calidadClaude 3.5 HaikuRápido y capaz
Máxima privacidadLlama 3.3 localCorre en tu máquina
Presupuesto muy bajoDeepSeek V3.2Excelente calidad/precio

Flujo de trabajo real

1. DESARROLLANDO (tu computadora)
   └── Usas Claude Code o Cursor
       └── Modelo: Claude Opus 4.5 / Sonnet 4
       └── Costo: ~$0.50-2 por sesión de trabajo

2. EN PRODUCCIÓN (tu app)
   └── Tu chatbot responde a usuarios
       └── Modelo: Gemini Flash o DeepSeek
       └── Costo: ~$0.01-0.10 por 1000 usuarios/día

💡 La clave: Usa modelos premium para CREAR código, modelos económicos para SERVIR usuarios.


Errores comunes

ErrorConsecuenciaSolución
Usar Opus 4.5 en producciónCostos altísimosUsar Haiku o Flash
Usar modelo pequeño para códigoCódigo de mala calidadInvertir en buen modelo de desarrollo
Ignorar contextoSe "olvida" conversaciónElegir modelo con contexto adecuado
No usar OpenRouterAtado a un proveedorCentralizar con OpenRouter

Practica

Chatbot con Gemini — Usa Gemini Flash gratis → API con Node — Backend para tu modelo


Enlaces útiles