17/6/26

Por qué voy a dejar MiniMax M3 y pasarme a Ollama Cloud (un plan, varios modelos)

Llevaba semanas trabajando con MiniMax M3 como mi modelo principal y, en conversación general y en narrativa, cumple: redacta podcasts, escribe guiones para el boletín diario, mantiene un tono consistente. Pero en programación me estaba dando problemas serios. Errores de lógica que no debería cometer un modelo de su tamaño. Pérdidas de contexto cuando el código se alarga. Y un patrón que me ha agotado: se empecina en soluciones no viables para problemas técnicos concretos, y se queda dando vueltas — gastando tokens y mi paciencia — buscando una solución por la rama equivocada en lugar de admitir que esa aproximación no funciona y replantear desde cero. La gota que colmó el vaso fueron varios asuntos técnicos recientes donde el modelo insistía en una vía que claramente no llevaba a ningún sitio.

Así que tomé una decisión: el mes que viene me paso a Ollama Cloud Pro (20 dólares al mes, casi lo mismo que pago ahora por M3), y la diferencia clave es que Ollama no es un modelo, es un catálogo con 42 modelos open-weight al que puedo acceder con la misma cuenta. La pregunta obvia es: ¿para qué quiero 42 modelos si con uno ya iba (más o menos)?

El plan: un modelo por tarea

La idea es simple. En lugar de pedirle a un solo modelo que sirva para todo — y aceptar sus compromisos — uso el modelo adecuado para cada trabajo. Esto es lo que tengo pensado, montado sobre OpenClaw como orquestador (con Jane, mi agente IA, gestionando el enrutado):

El director (yo hablando con Jane). El modelo principal va a ser gpt-oss:120b-cloud, un open-weight de OpenAI con 120.000 millones de parámetros. Lo elijo porque rinde como un o3-mini en razonamiento pero consume mucho menos que los modelos "frontier" absolutos, y porque tiene un buen equilibrio entre calidad de respuesta y cuota de uso. Es el sustituto natural de M3.

El cerebro de los podcasts y el boletín. Para redactar el guion del boletín diario de IA, los episodios de Cavilaciones de Vidas en Red y de Podcast Jesús en Internet, uso el mismo gpt-oss:120b. Estos trabajos requieren consistencia narrativa y buen ritmo, no razonamiento bestia.

Los crons largos (eventos del día, detector de correos VIP, watcher de PayPal). Aquí entra nemotron-3-super-cloud, de NVIDIA. Es un MoE de 120B que solo activa 12B por token, así que consume como un modelo pequeño rindiendo como grande. Ideal para los trabajos que se ejecutan en background procesando muchos datos — agendas, clasificar correos, leer notificaciones de pago — sin que yo intervenga.

El programador. Para código uso qwen3-coder:30b-cloud, de Alibaba. Está especializado en coding agentic y tiene la mejor relación calidad-precio de su categoría. La versión 480B existe, pero es overkill para lo que hago: scripts de Python, automatización de Notion y Google Sheets, pequeñas herramientas internas.

Los extractores baratos. Para cosas tipo "clasifica este correo" o "resume esta lista", uso gpt-oss:20b-cloud, el hermano pequeño del director. Nivel 1 de cuota, apenas consume.

Lo que es privado se queda en local. Para datos sensibles (gestión de la iglesia, gastos personales, cosas de la familia) sigo usando mi modelo local gemma4:12b que ya tengo corriendo en la propia máquina. Cero nube.

Cascada de fallback. Si el modelo principal falla o se queda sin cuota, OpenClaw baja solo al siguiente: primero a nemotron-3-super; si no, a deepseek-v4-flash (barato, 1M de contexto); y en el peor de los casos a nemotron-3-ultra como último recurso. Esto lo gestiona el propio OpenClaw, no tengo que intervenir — es lo que la documentación oficial llama "fallback chain", una cola ordenada de modelos que se va recorriendo cuando uno falla.

Por qué este plan me conviene

Tres razones. La primera, económica: gasto lo mismo (20 dólares al mes frente a 20 euros al mes) y tengo acceso a 42 modelos en lugar de a uno. La segunda, técnica: ya no dependo de un solo proveedor; si Ollama se cae en una región, mi sistema salta al siguiente modelo de la jerarquía sin pedirme permiso. La tercera, y la más importante, operativa: cada trabajo va al modelo que mejor lo hace, en lugar de obligar a uno solo a hacer de todo mal.

Voy a hacer la migración con cuidado: dos semanas de solapamiento (pago los dos servicios a la vez) para validar que el boletín, los podcasts, el detector de correos y las automatizaciones siguen funcionando igual o mejor. Si algo va mal, revierto. Si todo va bien, cancelo M3 en agosto.

Esto es lo que voy a contar en el siguiente episodio de Vidas en red, por cierto. Si te interesa el detalle técnico de los 21 modelos que he mirado, tengo una nota entera con el catálogo, capacidades, puntos fuertes y débiles. Avísame y la paso a limpio para público.