MCA — MORPHIC CLUSTER ARCHITECTURE
El coste de servir IA ya no escala con el tamaño del modelo.
Un modelo de 70.000 millones de parámetros sirve cada token a la misma velocidad que uno de 1.000 millones, en hardware de consumo.
Patente provisional USPTO · OEPM P202630407 · Mayo 2026
§ 01 — Status quo
Toda la economía de la IA descansa sobre una asunción que ya no se sostiene.
Modelos más grandes requieren proporcionalmente más infraestructura. Cada duplicación del tamaño del modelo duplica el coste por token servido. La industria entera se ha construido sobre esa linealidad. Consecuencias operativas:
El valor económico se concentra arriba. El resto del ecosistema compite por márgenes erosionados sobre infraestructura alquilada.
§ 02 — Arquitectura escala-invariante
MCA rompe la relación lineal entre tamaño y coste por token.
El cambio es arquitectónico, no de ingeniería. Dos magnitudes que la industria asumía atadas se desacoplan:
El conocimiento escala con el tamaño
Un modelo MCA más grande sabe más, igual que cualquier arquitectura actual.
El coste por token no escala con el tamaño
Un 70B sirve cada token a la misma velocidad que un 1B en la misma máquina.
El mismo hardware —una GPU de consumo de 300–800 € y un CPU comercial, o incluso únicamente un CPU consumer sin GPU dedicada— sirve indistintamente un modelo pequeño o uno grande. La economía del serving se desacopla del tamaño del modelo.
EMBODIMENT HÍBRIDO
El cuerpo del modelo vive en CPU; la GPU solo ejecuta la cabeza de vocabulario.
MCA descompone la inferencia: el grueso del cómputo corre sobre la memoria DDR5 del CPU, y la GPU asume únicamente el LMHead clustered. Como la GPU solo ve la última proyección, una tarjeta consumer de 8–12 GB sobra. La VRAM nunca limita el tamaño del modelo.
Transformer body · DDR5 · cuanta más memoria, más modelo.
Clustered LMHead · bastan 8–12 GB VRAM · invariante al tamaño del modelo.
Meter todo el modelo en GPU sería más rápido por token, pero requeriría una GPU data-center con VRAM para alojar 70 B en pesos. La modalidad híbrida elimina ese coste sin comprometer recall.
§ 03 — Mediciones reales
No son proyecciones. Son tokens por segundo medidos.
Sobre hardware de consumo de tienda: AMD Ryzen 9 7900X + NVIDIA RTX 5070 Ti. ~1.500 € en total.
| Escala del modelo | Tokens / segundo | Recall vs. denso | Hardware total |
|---|---|---|---|
| 1.200 M parámetros | 324 | 100 % | ~1.500 € |
| 7.000 M parámetros | en validación end-to-end | 100 % | mismo envelope |
| 70.000 M parámetros (proyectado) | ~150–200 | 100 % | mismo envelope |
Recall = coincidencia top-1 con referencia densa, verificada por cross-check directo.
MODALIDAD CPU-ONLY
Y también sin GPU dedicada.
El mismo modelo de 1.200 M parámetros, ejecutado únicamente en CPU consumer (AMD Ryzen 9 7900X + DDR5-5200 dual channel, sin GPU), mantiene calidad de referencia.
CPU-only · 1.2 B · recall 100 %
Cuello medido al 76 % del pico físico de ancho de banda DDR5. En multi-stream concurrente (16 streams, recall ~89 %) la cifra agregada alcanza 535–560 tok/s — útil para serving multi-tenant.
REFERENCIA
Un modelo denso de 70 B en hardware comercial DDR5 estándar serviría < 1 token por segundo por restricciones de ancho de banda de memoria.
MCA es ~150–200× más rápido por token a la misma escala.
tok/s · 1.2 B
tok/s · 70 B (proj.)
recall vs. dense
§ 04 — Implicación económica
Tres consecuencias inmediatas para el mercado.
Desaparece la barrera de hardware
Lo que hoy requiere cientos de miles de dólares en GPU data-center pasa a ejecutarse en una máquina < 2.000 €.
Coste operacional 100×–1.000× inferior
Por cada token servido, MCA consume una fracción del ancho de banda, una fracción de la energía y una fracción del CAPEX de hardware respecto a un denso de igual capacidad.
Erosión del foso de los hyperscalers
El "foso" de OpenAI, Anthropic y Google asume que escalar IA requiere su escala de capital. MCA invalida esa asunción al nivel arquitectónico, no al nivel de ingeniería.
§ 05 — Verticales desbloqueados
Mercados hoy cerrados por coste de serving.
Cuando el coste por token se desacopla del tamaño del modelo, se abren cuatro frentes inmediatos:
Edge AI
Modelos grandes corriendo en dispositivo: NUC, workstation de pyme, vehículos.
IA soberana
Instituciones públicas, gobiernos y empresas reguladas que necesitan IA on-premise por compliance.
IA privada
Bufetes, banca, salud — datos que no pueden salir del perímetro.
IA distribuida
Federación de inferencia entre nodos pequeños en lugar de centralizar en una nube.
§ 06 — Validación empírica
Programa de validación reproducible y auditable.
El proyecto incluye un protocolo de validación cross-escala documentado:
Validación cross-escala 1.2 B vs 7 B
Convergencia monótona. La configuración mayor obtiene 1,001 nats menos de cross-entropy a iso-tokens. Sin routing collapse, dead clusters ni divergencia numérica. Confirma que la arquitectura aprende mejor cuanto mayor.
Validación multilingüe
5 idiomas (inglés, español, ruso, chino, código Python). 50.000 M tokens de pretraining.
Calidad de inferencia
100 % de coincidencia top-1 con la referencia densa, verificada por cross-check directo.
Validación de hardware
Medido end-to-end en consumer-grade: Ryzen 9 7900X, DDR5-5200, RTX 5070 Ti.
Checkpoints, logs y hashes SHA-256 preservados. Auditables por terceros bajo NDA.
§ 07 — Propiedad intelectual
Priority date establecida.
| Entidad | Referencia | Descripción |
|---|---|---|
| USPTO · provisional | Mayo 2026 | Priority date establecida en EE. UU. |
| OEPM · España | P202630407 · Marzo 2026 | Cobertura europea por Convenio de París. |
| Claims | 19 | Arquitectura central, embodiments y variantes. |
| Plazo PCT | 12 meses | Conversión a non-provisional internacional. |
Filing pro se, sin compromisos con empresas previas, sin co-inventores. Propiedad intelectual limpia.
§ 08 — Implementación
Construido para producción. No es un paper.
- ›Go + C / CUDA. Sin Python, sin PyTorch, sin frameworks ML externos.
- ›Binarios standalone enlazados solo contra libc, POSIX threads y CUDA runtime.
- ›Inferencia bit-exacta cross-stream: N decoders concurrentes producen logits idénticos.
- ›Cuantización Q8 nativa: pesos en 8 bits con escalas por fila, sin pérdida detectable.
- ›Pipeline completo (training, inference, serving HTTP) compila a ejecutables ligeros.
Distancia del repo actual a un endpoint en producción: semanas, no años.
§ 09 — Estado y siguiente fase
Lo hecho, y lo que se hace con capital.
Hoy
- Arquitectura patentada y validada cross-escala.
- Inferencia híbrida medida con recall completo en hardware consumer.
- Embodiment 70 B proyectado bajo invariantes arquitectónicos, pendiente validación end-to-end.
- Pretraining continuo multilingüe 1.2 B en curso (20 épocas, ~28 días de wall-time).
Siguiente fase
- Validación 70 B end-to-end en pod B200/H100 alquilado puntualmente.
- Conversión PCT internacional dentro del plazo USPTO (UE, China, Japón, Reino Unido, Corea).
- Productización del stack de serving: HTTP autenticado, billing, observabilidad, multi-tenancy.
- Equipo: 2–3 ingenieros senior para acelerar productización y hardening.
- GTM: 3–5 partners de design-launch en defensa, salud, banca regulada y gobierno.
§ 10 — Timing
El mercado de inferencia de IA superará 200.000 M USD anuales antes de 2030.
El grueso del valor está en serving, no en training. Toda la inversión actual en infraestructura asume serving con coste lineal en tamaño del modelo. Una arquitectura que rompa esa linealidad redefine la curva de coste de toda la industria.
Y la priority date ya está establecida.
Contacto
Due diligence técnica · evaluación técnica bajo NDA · demostración en vivo.
Respuesta directa del fundador en menos de 72 h.