menos varianza de tokens
Misma tarea, repo real: con Cardumen cuesta ~13k tokens cada vez (sigma 0.4k). Sin Cardumen una corrida se dispara a 38.7k (sigma 12.9k). El peor caso desaparece.
Con modelos de frontera, Cardumen vuelve el costo predecible y la respuesta precisa. Con modelos locales, sube la calidad y corta las alucinaciones. Todo sobre repos reales con el kill-switch cardumen on/off.
Misma tarea, repo real: con Cardumen cuesta ~13k tokens cada vez (sigma 0.4k). Sin Cardumen una corrida se dispara a 38.7k (sigma 12.9k). El peor caso desaparece.
qwen3.5-9b navegando un repo memoria-rico: de 16 a 8 pasos de exploracion apoyado en el grafo de codigo de Cardumen. Menos vueltas, menos costo.
El harness de Claude Code movio a Opus de 42% a 78% en SWE-bench: prueba publica de que el andamiaje, no solo el modelo, cambia el resultado.
Auditoria cross-service del flujo de firma avanzada sobre un Monorepo NestJS real · 11 microservicios · NATS · modelo frontera · n=3 por brazo. La misma pregunta dura, seis veces: con Cardumen el costo cae en una banda estrecha; sin Cardumen una corrida se dispara.
Precision: Halló el bug real del flujo (latch de idempotencia) con 6 de 6 citas archivo:linea verificadas contra el codigo. Precision sin alucinacion. Cardumen acota el costo y elimina el peor caso.
El modelo barato corre privado y rinde mas: explora menos gracias al grafo de codigo, y el harness le corta la alucinacion que comete cuando razona solo.
Repo memoria-rico. El ahorro de costo brilla en modelos locales: exploran ineficiente, hay mucho que recuperar.
En una tarea con regla de negocio sembrada, un modelo barato sin Cardumen reescribio la convencion del proyecto y declaro 'todos los tests pasan' (falso). Con Cardumen aplico la regla correcta y cerro contra evidencia.
Kill-switch cardumen on/off sobre el repo real: mismo modelo, mismo prompt, la unica variable es el harness.
El veredicto viene de tests, build o un reviewer adversarial independiente contra el codigo, no del agente que escribio la respuesta.
Medir tokens, tiempo, varianza y peor caso, no solo el promedio ni el precio mensual.
Registrar donde el harness no ayuda, porque ese borde define el routing correcto.
La comparacion buena no es una tabla generica. Es tu arquitectura, tus pruebas, tus restricciones y tu costo real.