Benchmarks

Dos formas de ganar. Las dos medidas.

Con modelos de frontera, Cardumen vuelve el costo predecible y la respuesta precisa. Con modelos locales, sube la calidad y corta las alucinaciones. Todo sobre repos reales con el kill-switch cardumen on/off.

30×

menos varianza de tokens

Misma tarea, repo real: con Cardumen cuesta ~13k tokens cada vez (sigma 0.4k). Sin Cardumen una corrida se dispara a 38.7k (sigma 12.9k). El peor caso desaparece.

−43%

tokens en modelo local

qwen3.5-9b navegando un repo memoria-rico: de 16 a 8 pasos de exploracion apoyado en el grafo de codigo de Cardumen. Menos vueltas, menos costo.

42% a 78%

referencia SWE-bench

El harness de Claude Code movio a Opus de 42% a 78% en SWE-bench: prueba publica de que el andamiaje, no solo el modelo, cambia el resultado.

Pilar 1 · Modelos de frontera

Ahorro y precision predecibles.

Auditoria cross-service del flujo de firma avanzada sobre un Monorepo NestJS real · 11 microservicios · NATS · modelo frontera · n=3 por brazo. La misma pregunta dura, seis veces: con Cardumen el costo cae en una banda estrecha; sin Cardumen una corrida se dispara.

Tokens por corrida, con y sin Cardumen010k20k30k40kcon cardumengrafo + memoria + verifyμ 13.2k · σ 0.4ksin cardumenprompt peladoμ 20.6k · σ 12.9kse disparo38.7k · 23 turnos · 9.6 min
con cardumen — 3 corridas agrupadassin cardumen — corridas dispersaspeor caso · runaway
30×menor varianza (sigma) de tokens
2.8×mejor peor-caso
−36%tokens en promedio
−26%tiempo en promedio

Precision: Halló el bug real del flujo (latch de idempotencia) con 6 de 6 citas archivo:linea verificadas contra el codigo. Precision sin alucinacion. Cardumen acota el costo y elimina el peor caso.

Claude · frontera · n=6 · varianza11× costo3.8× tokens4.9× tiempo
Pilar 2 · Modelos locales

Mas calidad, menos alucinaciones.

El modelo barato corre privado y rinde mas: explora menos gracias al grafo de codigo, y el harness le corta la alucinacion que comete cuando razona solo.

qwen3.5-9b · local−43%tokens · de 16 a 8 pasos de exploracion
313k
179k

Repo memoria-rico. El ahorro de costo brilla en modelos locales: exploran ineficiente, hay mucho que recuperar.

verify + guards3guardas que cortan la alucinacion
  • El verify se ejecuta de verdad: el modelo no puede declarar listo sin correr la suite y cerrar contra evidencia.
  • Guard anti-cita-fantasma: marca cuando el modelo afirma haber leido un archivo que nunca abrio.
  • Memoria del proyecto como ground-truth: el modelo no reescribe la regla del repo para encajar su suposicion.

En una tarea con regla de negocio sembrada, un modelo barato sin Cardumen reescribio la convencion del proyecto y declaro 'todos los tests pasan' (falso). Con Cardumen aplico la regla correcta y cerro contra evidencia.

Metodologia

Como se debe probar sin vender humo.

01

Mismo repo, misma tarea

Kill-switch cardumen on/off sobre el repo real: mismo modelo, mismo prompt, la unica variable es el harness.

02

Juez externo

El veredicto viene de tests, build o un reviewer adversarial independiente contra el codigo, no del agente que escribio la respuesta.

03

Costo completo

Medir tokens, tiempo, varianza y peor caso, no solo el promedio ni el precio mensual.

04

Limite declarado

Registrar donde el harness no ayuda, porque ese borde define el routing correcto.

Limites honestos

Lo que Cardumen no promete.

Siguiente paso

Pide benchmark con tu tipo de repo.

La comparacion buena no es una tabla generica. Es tu arquitectura, tus pruebas, tus restricciones y tu costo real.