Dos tipos de modelos, dos propósitos

Cuando desarrollas con IA, usas modelos en dos contextos muy diferentes:

Contexto	Qué hace	Ejemplo
Agente de código	Escribe TU código	Claude Code, Cursor, Copilot
Tu aplicación	Responde a TUS usuarios	El chatbot que construyes

⚠️ Error común: Usar el mismo modelo para ambos. Un modelo caro que escribe código excelente puede ser innecesario (y costoso) para responder preguntas simples de usuarios.

Modelos para agentes de código (Enero 2026)

Estos modelos potencian las herramientas que TÚ usas para programar:

Modelo	Agente que lo usa	SWE-bench	Contexto	Precio Input/Output
Claude Opus 4.5	Claude Code	72.0%	200K	$5 / $25 por 1M tokens
GPT-5.2-Codex	Codex CLI, Copilot	69.5%	128K	$6 / $30 por 1M tokens
Claude Sonnet 4	Cursor, Cody	72.7%	200K	$3 / $15 por 1M tokens
Gemini 2.5 Pro	Google Antigravity	63.8%	1M	$1.25 / $5 por 1M tokens

💡 SWE-bench mide qué tan bien un modelo resuelve bugs reales de GitHub. Mayor % = mejor para código.

Modelos para producción (Enero 2026)

Estos modelos van dentro de tu app para atender usuarios:

Modelo	Proveedor	Fortaleza	Contexto	Precio Input/Output
Gemini 2.0 Flash	Google	Muy rápido, gratis hasta 1500/día	1M	$0.10 / $0.40 por 1M
GLM-4.7	Zhipu AI	Open source, muy capaz	200K	Gratis (local) / ~$0.50 via API
DeepSeek-V3.2	DeepSeek	Excelente calidad/precio	128K	$0.14 / $0.28 por 1M
Claude 3.5 Haiku	Anthropic	Rápido, económico	200K	$0.80 / $4 por 1M
Llama 3.3 70B	Meta	Open source, corre local	128K	Gratis (local)

¿Por qué importa el contexto (context window)?

El contexto es cuánta información puede "ver" el modelo en una sola conversación.

┌─────────────────────────────────────────────────────┐
│  Contexto = Prompt + Historial + Archivos + Output  │
└─────────────────────────────────────────────────────┘

Modelo con 8K contexto:   [████____] Solo 8,000 tokens
Modelo con 128K contexto: [████████████████████████████████] 128,000 tokens
Modelo con 1M contexto:   [███████████████████████████████████████...] 1,000,000 tokens

Caso de uso	Contexto mínimo recomendado
Chat simple (FAQ)	8K
Análisis de documentos	32K-128K
Agente de código (lee tu repo)	128K-200K
Analizar codebase completo	1M+

Modelos Open Source: La alternativa gratuita

No necesitas pagar APIs. Puedes correr modelos localmente o usar servicios como OpenRouter.

Opción 1: Correr local con Ollama

# Instalar Ollama
curl -fsSL https://ollama.com/install.sh | sh

# Descargar y correr GLM-4
ollama run glm4

# O DeepSeek
ollama run deepseek-v3

Requisitos: GPU con 8GB+ VRAM para modelos pequeños, 24GB+ para los grandes.

Opción 2: OpenRouter (API unificada)

OpenRouter te da acceso a todos los modelos con una sola API Key:

// Usar cualquier modelo con OpenRouter
const response = await fetch('https://openrouter.ai/api/v1/chat/completions', {
  method: 'POST',
  headers: {
    'Authorization': 'Bearer TU_OPENROUTER_KEY',
    'Content-Type': 'application/json',
  },
  body: JSON.stringify({
    model: 'deepseek/deepseek-chat-v3',  // O cualquier otro
    messages: [{ role: 'user', content: 'Hola!' }],
  }),
});

Modelos populares en OpenRouter (Enero 2026):

Modelo	ID en OpenRouter	Precio/1M tokens
DeepSeek V3.2	`deepseek/deepseek-chat-v3`	$0.14 input / $0.28 output
GLM-4.7	`zhipu/glm-4`	$0.50 input / $0.50 output
Llama 3.3 70B	`meta-llama/llama-3.3-70b`	$0.40 input / $0.40 output
Mistral Large 2	`mistralai/mistral-large-2`	$2 input / $6 output

Comparativa: ¿Qué modelo para qué?

Necesito...	Recomendación	Por qué
Escribir código rápido	Claude Sonnet 4 (vía Cursor)	Balance calidad/velocidad
Tareas de código complejas	Claude Opus 4.5 (vía Claude Code)	Mejor razonamiento
Chatbot para mi app (gratis)	Gemini 2.0 Flash	1500 req/día gratis
Chatbot de alta calidad	Claude 3.5 Haiku	Rápido y capaz
Máxima privacidad	Llama 3.3 local	Corre en tu máquina
Presupuesto muy bajo	DeepSeek V3.2	Excelente calidad/precio

Flujo de trabajo real

1. DESARROLLANDO (tu computadora)
   └── Usas Claude Code o Cursor
       └── Modelo: Claude Opus 4.5 / Sonnet 4
       └── Costo: ~$0.50-2 por sesión de trabajo

2. EN PRODUCCIÓN (tu app)
   └── Tu chatbot responde a usuarios
       └── Modelo: Gemini Flash o DeepSeek
       └── Costo: ~$0.01-0.10 por 1000 usuarios/día

💡 La clave: Usa modelos premium para CREAR código, modelos económicos para SERVIR usuarios.

Errores comunes

Error	Consecuencia	Solución
Usar Opus 4.5 en producción	Costos altísimos	Usar Haiku o Flash
Usar modelo pequeño para código	Código de mala calidad	Invertir en buen modelo de desarrollo
Ignorar contexto	Se "olvida" conversación	Elegir modelo con contexto adecuado
No usar OpenRouter	Atado a un proveedor	Centralizar con OpenRouter

Practica

→ Chatbot con Gemini — Usa Gemini Flash gratis → API con Node — Backend para tu modelo

Modelos LLM: Guía 2026