MCA — MORPHIC CLUSTER ARCHITECTURE

El coste de servir IA ya no escala con el tamaño del modelo.

La arquitectura de MCA permite servir modelos de hasta 200.000 millones de parámetros en hardware de consumo, sin la GPU de data-center que esa escala exigiría.

Patente provisional USPTO · OEPM P202630407 · Mayo 2026

Solicitar due diligence técnica Ver mediciones

§ 01 — Status quo

Toda la economía de la IA descansa sobre una asunción que ya no se sostiene.

Modelos más grandes requieren proporcionalmente más infraestructura. Cada duplicación del tamaño del modelo duplica el coste por token servido. La industria entera se ha construido sobre esa linealidad. Consecuencias operativas:

Hardware data-center especializado

NVIDIA H100, B200 — 25.000–40.000 USD por unidad.

Parques de miles de GPU

Interconexiones propietarias de 400 Gb/s.

Energía

Megavatios por instalación.

Concentración estructural

Solo 4–5 hyperscalers operan modelos en frontera.

El valor económico se concentra arriba. El resto del ecosistema compite por márgenes erosionados sobre infraestructura alquilada.

§ 02 — Arquitectura escala-invariante

MCA rompe la relación lineal entre tamaño y coste por token.

El cambio es arquitectónico, no de ingeniería. Dos magnitudes que la industria asumía atadas se desacoplan:

El conocimiento escala con el tamaño

Un modelo MCA más grande sabe más, igual que cualquier arquitectura actual.

El coste por token no escala con el tamaño

El coste por token depende de la profundidad del modelo, no de su tamaño total ni de la VRAM: el mismo hardware de consumo puede servir modelos que de otro modo exigirían una GPU de data-center.

El mismo hardware —una GPU de consumo de 300–800 € y un CPU comercial— sirve indistintamente un modelo pequeño o uno grande. La economía del serving se desacopla del tamaño del modelo.

EMBODIMENT HÍBRIDO

El grueso del modelo vive en CPU; la GPU ejecuta la atención y la cabeza de vocabulario.

MCA descompone la inferencia: el grueso del cómputo (las capas FFN) corre sobre la memoria DDR5 del CPU, mientras que la atención (ATTN) y el LMHead clustered corren en la GPU. Como la GPU solo asume atención y la proyección final, una tarjeta consumer de 8–12 GB sobra. La VRAM nunca limita el tamaño del modelo.

CPU

FFN body · DDR5 · cuanta más memoria, más modelo.

GPU

ATTN + Clustered LMHead · bastan 8–12 GB VRAM · invariante al tamaño del modelo.

Meter todo el modelo en GPU sería más rápido por token, pero requeriría una GPU data-center con VRAM para alojar 200 B en pesos. La modalidad híbrida elimina ese coste sin comprometer recall.

§ 03 — Mediciones reales

No son proyecciones. Son tokens por segundo medidos.

Sobre hardware de consumo de tienda: AMD Ryzen 9 7900X + NVIDIA RTX 5070 Ti. ~1.500 € en total.

Recall = coincidencia top-1 con referencia densa, verificada por cross-check directo.
Escala del modelo	Tokens / segundo	Recall vs. denso	Hardware total
1.200 M parámetros	360	100 %	~1.500 €
7.000 M parámetros	200	100 %	+ RAM
200.000 M parámetros (proyectado)	49	100 %	+ RAM

Recall = coincidencia top-1 con referencia densa, verificada por cross-check directo.

§ 04 — Implicación económica

Tres consecuencias inmediatas para el mercado.

Desaparece la barrera de hardware

Lo que hoy requiere cientos de miles de dólares en GPU data-center pasa a ejecutarse en una máquina < 2.000 €.

Coste operacional 100×–1.000× inferior

Por cada token servido, MCA consume una fracción del ancho de banda, una fracción de la energía y una fracción del CAPEX de hardware respecto a un denso de igual capacidad.

Erosión del foso de los hyperscalers

El "foso" de OpenAI, Anthropic y Google asume que escalar IA requiere su escala de capital. MCA invalida esa asunción al nivel arquitectónico, no al nivel de ingeniería.

§ 05 — Verticales desbloqueados

Mercados hoy cerrados por coste de serving.

Cuando el coste por token se desacopla del tamaño del modelo, se abren cuatro frentes inmediatos:

Edge AI

Modelos grandes corriendo en dispositivo: NUC, workstation de pyme, vehículos.

IA soberana

Instituciones públicas, gobiernos y empresas reguladas que necesitan IA on-premise por compliance.

IA privada

Bufetes, banca, salud — datos que no pueden salir del perímetro.

IA distribuida

Federación de inferencia entre nodos pequeños en lugar de centralizar en una nube.

§ 06 — Validación empírica

Programa de validación reproducible y auditable.

El proyecto incluye un protocolo de validación cross-escala documentado:

Validación cross-escala 1.2 B vs 7 B

Convergencia monótona. La configuración mayor obtiene 1,001 nats menos de cross-entropy a iso-tokens. Sin routing collapse, dead clusters ni divergencia numérica. Confirma que la arquitectura aprende mejor cuanto mayor.

Validación multilingüe

5 idiomas (inglés, español, ruso, chino, código Python). 50.000 M tokens de pretraining.

Calidad de inferencia

100 % de coincidencia top-1 con la referencia densa, verificada por cross-check directo.

Validación de hardware

Medido end-to-end en consumer-grade: Ryzen 9 7900X, DDR5-5200, RTX 5070 Ti.

Checkpoints, logs y hashes SHA-256 preservados. Auditables por terceros bajo NDA.

§ 07 — Propiedad intelectual

Priority date establecida.

Entidad	Referencia	Descripción
USPTO · provisional	Mayo 2026	Priority date establecida en EE. UU.
OEPM · España	P202630407 · Marzo 2026	Cobertura europea por Convenio de París.
Claims	19	Arquitectura central, embodiments y variantes.
Plazo PCT	12 meses	Conversión a non-provisional internacional.

Filing pro se, sin compromisos con empresas previas, sin co-inventores. Propiedad intelectual limpia.

§ 08 — Implementación

Construido para producción. No es un paper.

›Go + C / CUDA. Sin Python, sin PyTorch, sin frameworks ML externos.
›Binarios standalone enlazados solo contra libc, POSIX threads y CUDA runtime.
›Inferencia bit-exacta cross-stream: N decoders concurrentes producen logits idénticos.
›Cuantización Q8 nativa: pesos en 8 bits con escalas por fila, sin pérdida detectable.
›Pipeline completo (training, inference, serving HTTP) compila a ejecutables ligeros.

Distancia del repo actual a un endpoint en producción: semanas, no años.

§ 09 — Estado y siguiente fase

Lo hecho, y lo que se hace con capital.

Hoy

Arquitectura patentada y validada cross-escala.
Inferencia híbrida medida con recall completo en hardware consumer.
Embodiment 200 B proyectado bajo invariantes arquitectónicos, pendiente validación end-to-end.
Pretraining continuo multilingüe 1.2 B en curso (20 épocas, ~28 días de wall-time).

Siguiente fase

Validación 200 B end-to-end en pod B200/H100 alquilado puntualmente.
Conversión PCT internacional dentro del plazo USPTO (UE, China, Japón, Reino Unido, Corea).
Productización del stack de serving: HTTP autenticado, billing, observabilidad, multi-tenancy.
Equipo: 2–3 ingenieros senior para acelerar productización y hardening.
GTM: 3–5 partners de design-launch en defensa, salud, banca regulada y gobierno.

§ 10 — Timing

El mercado de inferencia de IA superará 200.000 M USD anuales antes de 2030.

El grueso del valor está en serving, no en training. Toda la inversión actual en infraestructura asume serving con coste lineal en tamaño del modelo. Una arquitectura que rompa esa linealidad redefine la curva de coste de toda la industria.

Y la priority date ya está establecida.

Contacto

Due diligence técnica · evaluación técnica bajo NDA · demostración en vivo.

Respuesta directa del fundador en menos de 72 h.

[email protected]

web

mca.lioraflow.com

Escribir