MCA — MORPHIC CLUSTER ARCHITECTURE

El coste de servir IA ya no escala con el tamaño del modelo.

Un modelo de 70.000 millones de parámetros sirve cada token a la misma velocidad que uno de 1.000 millones, en hardware de consumo.

Patente provisional USPTO · OEPM P202630407 · Mayo 2026

§ 01 — Status quo

Toda la economía de la IA descansa sobre una asunción que ya no se sostiene.

Modelos más grandes requieren proporcionalmente más infraestructura. Cada duplicación del tamaño del modelo duplica el coste por token servido. La industria entera se ha construido sobre esa linealidad. Consecuencias operativas:

Hardware data-center especializado
NVIDIA H100, B200 — 25.000–40.000 USD por unidad.
Parques de miles de GPU
Interconexiones propietarias de 400 Gb/s.
Energía
Megavatios por instalación.
Concentración estructural
Solo 4–5 hyperscalers operan modelos en frontera.

El valor económico se concentra arriba. El resto del ecosistema compite por márgenes erosionados sobre infraestructura alquilada.

§ 02 — Arquitectura escala-invariante

MCA rompe la relación lineal entre tamaño y coste por token.

El cambio es arquitectónico, no de ingeniería. Dos magnitudes que la industria asumía atadas se desacoplan:

A

El conocimiento escala con el tamaño

Un modelo MCA más grande sabe más, igual que cualquier arquitectura actual.

B

El coste por token no escala con el tamaño

Un 70B sirve cada token a la misma velocidad que un 1B en la misma máquina.

El mismo hardware —una GPU de consumo de 300–800 € y un CPU comercial, o incluso únicamente un CPU consumer sin GPU dedicada— sirve indistintamente un modelo pequeño o uno grande. La economía del serving se desacopla del tamaño del modelo.

EMBODIMENT HÍBRIDO

El cuerpo del modelo vive en CPU; la GPU solo ejecuta la cabeza de vocabulario.

MCA descompone la inferencia: el grueso del cómputo corre sobre la memoria DDR5 del CPU, y la GPU asume únicamente el LMHead clustered. Como la GPU solo ve la última proyección, una tarjeta consumer de 8–12 GB sobra. La VRAM nunca limita el tamaño del modelo.

CPU

Transformer body · DDR5 · cuanta más memoria, más modelo.

GPU

Clustered LMHead · bastan 8–12 GB VRAM · invariante al tamaño del modelo.

Meter todo el modelo en GPU sería más rápido por token, pero requeriría una GPU data-center con VRAM para alojar 70 B en pesos. La modalidad híbrida elimina ese coste sin comprometer recall.

§ 03 — Mediciones reales

No son proyecciones. Son tokens por segundo medidos.

Sobre hardware de consumo de tienda: AMD Ryzen 9 7900X + NVIDIA RTX 5070 Ti. ~1.500 € en total.

Recall = coincidencia top-1 con referencia densa, verificada por cross-check directo.
Escala del modeloTokens / segundoRecall vs. densoHardware total
1.200 M parámetros324100 %~1.500 €
7.000 M parámetrosen validación end-to-end100 %mismo envelope
70.000 M parámetros (proyectado)~150–200100 %mismo envelope

Recall = coincidencia top-1 con referencia densa, verificada por cross-check directo.

MODALIDAD CPU-ONLY

Y también sin GPU dedicada.

El mismo modelo de 1.200 M parámetros, ejecutado únicamente en CPU consumer (AMD Ryzen 9 7900X + DDR5-5200 dual channel, sin GPU), mantiene calidad de referencia.

0tok/s

CPU-only · 1.2 B · recall 100 %

Cuello medido al 76 % del pico físico de ancho de banda DDR5. En multi-stream concurrente (16 streams, recall ~89 %) la cifra agregada alcanza 535–560 tok/s — útil para serving multi-tenant.

REFERENCIA

Un modelo denso de 70 B en hardware comercial DDR5 estándar serviría < 1 token por segundo por restricciones de ancho de banda de memoria.

MCA es ~150–200× más rápido por token a la misma escala.

0

tok/s · 1.2 B

~0

tok/s · 70 B (proj.)

0%

recall vs. dense

§ 04 — Implicación económica

Tres consecuencias inmediatas para el mercado.

01

Desaparece la barrera de hardware

Lo que hoy requiere cientos de miles de dólares en GPU data-center pasa a ejecutarse en una máquina < 2.000 €.

02

Coste operacional 100×–1.000× inferior

Por cada token servido, MCA consume una fracción del ancho de banda, una fracción de la energía y una fracción del CAPEX de hardware respecto a un denso de igual capacidad.

03

Erosión del foso de los hyperscalers

El "foso" de OpenAI, Anthropic y Google asume que escalar IA requiere su escala de capital. MCA invalida esa asunción al nivel arquitectónico, no al nivel de ingeniería.

§ 05 — Verticales desbloqueados

Mercados hoy cerrados por coste de serving.

Cuando el coste por token se desacopla del tamaño del modelo, se abren cuatro frentes inmediatos:

01

Edge AI

Modelos grandes corriendo en dispositivo: NUC, workstation de pyme, vehículos.

02

IA soberana

Instituciones públicas, gobiernos y empresas reguladas que necesitan IA on-premise por compliance.

03

IA privada

Bufetes, banca, salud — datos que no pueden salir del perímetro.

04

IA distribuida

Federación de inferencia entre nodos pequeños en lugar de centralizar en una nube.

§ 06 — Validación empírica

Programa de validación reproducible y auditable.

El proyecto incluye un protocolo de validación cross-escala documentado:

Validación cross-escala 1.2 B vs 7 B

Convergencia monótona. La configuración mayor obtiene 1,001 nats menos de cross-entropy a iso-tokens. Sin routing collapse, dead clusters ni divergencia numérica. Confirma que la arquitectura aprende mejor cuanto mayor.

Validación multilingüe

5 idiomas (inglés, español, ruso, chino, código Python). 50.000 M tokens de pretraining.

Calidad de inferencia

100 % de coincidencia top-1 con la referencia densa, verificada por cross-check directo.

Validación de hardware

Medido end-to-end en consumer-grade: Ryzen 9 7900X, DDR5-5200, RTX 5070 Ti.

Checkpoints, logs y hashes SHA-256 preservados. Auditables por terceros bajo NDA.

§ 07 — Propiedad intelectual

Priority date establecida.

EntidadReferenciaDescripción
USPTO · provisionalMayo 2026Priority date establecida en EE. UU.
OEPM · EspañaP202630407 · Marzo 2026Cobertura europea por Convenio de París.
Claims19Arquitectura central, embodiments y variantes.
Plazo PCT12 mesesConversión a non-provisional internacional.

Filing pro se, sin compromisos con empresas previas, sin co-inventores. Propiedad intelectual limpia.

§ 08 — Implementación

Construido para producción. No es un paper.

  • Go + C / CUDA. Sin Python, sin PyTorch, sin frameworks ML externos.
  • Binarios standalone enlazados solo contra libc, POSIX threads y CUDA runtime.
  • Inferencia bit-exacta cross-stream: N decoders concurrentes producen logits idénticos.
  • Cuantización Q8 nativa: pesos en 8 bits con escalas por fila, sin pérdida detectable.
  • Pipeline completo (training, inference, serving HTTP) compila a ejecutables ligeros.
Distancia del repo actual a un endpoint en producción: semanas, no años.

§ 09 — Estado y siguiente fase

Lo hecho, y lo que se hace con capital.

Hoy

  • Arquitectura patentada y validada cross-escala.
  • Inferencia híbrida medida con recall completo en hardware consumer.
  • Embodiment 70 B proyectado bajo invariantes arquitectónicos, pendiente validación end-to-end.
  • Pretraining continuo multilingüe 1.2 B en curso (20 épocas, ~28 días de wall-time).

Siguiente fase

  • Validación 70 B end-to-end en pod B200/H100 alquilado puntualmente.
  • Conversión PCT internacional dentro del plazo USPTO (UE, China, Japón, Reino Unido, Corea).
  • Productización del stack de serving: HTTP autenticado, billing, observabilidad, multi-tenancy.
  • Equipo: 2–3 ingenieros senior para acelerar productización y hardening.
  • GTM: 3–5 partners de design-launch en defensa, salud, banca regulada y gobierno.

§ 10 — Timing

El mercado de inferencia de IA superará 200.000 M USD anuales antes de 2030.

El grueso del valor está en serving, no en training. Toda la inversión actual en infraestructura asume serving con coste lineal en tamaño del modelo. Una arquitectura que rompa esa linealidad redefine la curva de coste de toda la industria.

Y la priority date ya está establecida.

Contacto

Due diligence técnica · evaluación técnica bajo NDA · demostración en vivo.

Respuesta directa del fundador en menos de 72 h.