Dos tipos de modelos, dos propósitos
Cuando desarrollas con IA, usas modelos en dos contextos muy diferentes:
| Contexto | Qué hace | Ejemplo |
|---|---|---|
| Agente de código | Escribe TU código | Claude Code, Cursor, Copilot |
| Tu aplicación | Responde a TUS usuarios | El chatbot que construyes |
⚠️ Error común: Usar el mismo modelo para ambos. Un modelo caro que escribe código excelente puede ser innecesario (y costoso) para responder preguntas simples de usuarios.
Modelos para agentes de código (Enero 2026)
Estos modelos potencian las herramientas que TÚ usas para programar:
| Modelo | Agente que lo usa | SWE-bench | Contexto | Precio Input/Output |
|---|---|---|---|---|
| Claude Opus 4.5 | Claude Code | 72.0% | 200K | $5 / $25 por 1M tokens |
| GPT-5.2-Codex | Codex CLI, Copilot | 69.5% | 128K | $6 / $30 por 1M tokens |
| Claude Sonnet 4 | Cursor, Cody | 72.7% | 200K | $3 / $15 por 1M tokens |
| Gemini 2.5 Pro | Google Antigravity | 63.8% | 1M | $1.25 / $5 por 1M tokens |
💡 SWE-bench mide qué tan bien un modelo resuelve bugs reales de GitHub. Mayor % = mejor para código.
Modelos para producción (Enero 2026)
Estos modelos van dentro de tu app para atender usuarios:
| Modelo | Proveedor | Fortaleza | Contexto | Precio Input/Output |
|---|---|---|---|---|
| Gemini 2.0 Flash | Muy rápido, gratis hasta 1500/día | 1M | $0.10 / $0.40 por 1M | |
| GLM-4.7 | Zhipu AI | Open source, muy capaz | 200K | Gratis (local) / ~$0.50 via API |
| DeepSeek-V3.2 | DeepSeek | Excelente calidad/precio | 128K | $0.14 / $0.28 por 1M |
| Claude 3.5 Haiku | Anthropic | Rápido, económico | 200K | $0.80 / $4 por 1M |
| Llama 3.3 70B | Meta | Open source, corre local | 128K | Gratis (local) |
¿Por qué importa el contexto (context window)?
El contexto es cuánta información puede "ver" el modelo en una sola conversación.
┌─────────────────────────────────────────────────────┐
│ Contexto = Prompt + Historial + Archivos + Output │
└─────────────────────────────────────────────────────┘
Modelo con 8K contexto: [████____] Solo 8,000 tokens
Modelo con 128K contexto: [████████████████████████████████] 128,000 tokens
Modelo con 1M contexto: [███████████████████████████████████████...] 1,000,000 tokens
| Caso de uso | Contexto mínimo recomendado |
|---|---|
| Chat simple (FAQ) | 8K |
| Análisis de documentos | 32K-128K |
| Agente de código (lee tu repo) | 128K-200K |
| Analizar codebase completo | 1M+ |
Modelos Open Source: La alternativa gratuita
No necesitas pagar APIs. Puedes correr modelos localmente o usar servicios como OpenRouter.
Opción 1: Correr local con Ollama
# Instalar Ollama
curl -fsSL https://ollama.com/install.sh | sh
# Descargar y correr GLM-4
ollama run glm4
# O DeepSeek
ollama run deepseek-v3
Requisitos: GPU con 8GB+ VRAM para modelos pequeños, 24GB+ para los grandes.
Opción 2: OpenRouter (API unificada)
OpenRouter te da acceso a todos los modelos con una sola API Key:
// Usar cualquier modelo con OpenRouter
const response = await fetch('https://openrouter.ai/api/v1/chat/completions', {
method: 'POST',
headers: {
'Authorization': 'Bearer TU_OPENROUTER_KEY',
'Content-Type': 'application/json',
},
body: JSON.stringify({
model: 'deepseek/deepseek-chat-v3', // O cualquier otro
messages: [{ role: 'user', content: 'Hola!' }],
}),
});
Modelos populares en OpenRouter (Enero 2026):
| Modelo | ID en OpenRouter | Precio/1M tokens |
|---|---|---|
| DeepSeek V3.2 | deepseek/deepseek-chat-v3 | $0.14 input / $0.28 output |
| GLM-4.7 | zhipu/glm-4 | $0.50 input / $0.50 output |
| Llama 3.3 70B | meta-llama/llama-3.3-70b | $0.40 input / $0.40 output |
| Mistral Large 2 | mistralai/mistral-large-2 | $2 input / $6 output |
Comparativa: ¿Qué modelo para qué?
| Necesito... | Recomendación | Por qué |
|---|---|---|
| Escribir código rápido | Claude Sonnet 4 (vía Cursor) | Balance calidad/velocidad |
| Tareas de código complejas | Claude Opus 4.5 (vía Claude Code) | Mejor razonamiento |
| Chatbot para mi app (gratis) | Gemini 2.0 Flash | 1500 req/día gratis |
| Chatbot de alta calidad | Claude 3.5 Haiku | Rápido y capaz |
| Máxima privacidad | Llama 3.3 local | Corre en tu máquina |
| Presupuesto muy bajo | DeepSeek V3.2 | Excelente calidad/precio |
Flujo de trabajo real
1. DESARROLLANDO (tu computadora)
└── Usas Claude Code o Cursor
└── Modelo: Claude Opus 4.5 / Sonnet 4
└── Costo: ~$0.50-2 por sesión de trabajo
2. EN PRODUCCIÓN (tu app)
└── Tu chatbot responde a usuarios
└── Modelo: Gemini Flash o DeepSeek
└── Costo: ~$0.01-0.10 por 1000 usuarios/día
💡 La clave: Usa modelos premium para CREAR código, modelos económicos para SERVIR usuarios.
Errores comunes
| Error | Consecuencia | Solución |
|---|---|---|
| Usar Opus 4.5 en producción | Costos altísimos | Usar Haiku o Flash |
| Usar modelo pequeño para código | Código de mala calidad | Invertir en buen modelo de desarrollo |
| Ignorar contexto | Se "olvida" conversación | Elegir modelo con contexto adecuado |
| No usar OpenRouter | Atado a un proveedor | Centralizar con OpenRouter |
Practica
→ Chatbot con Gemini — Usa Gemini Flash gratis → API con Node — Backend para tu modelo