ARM Lumex: Así multiplican por 5 el rendimiento en IA los nuevos núcleos C1-Ultra con SME2

por Antonio Delgado 10/09/2025Actualizado: 10/09/2025

Lumex estrena los nuevos Núcleos ARM C1-Ultra y GPU Mali G1-Ultra

ARM ha celebrado su evento ARM Tech Days 2025 para mostrarnos sus novedades de cara a la nueva generación de procesadores basados en su arquitectura. Si bien la arquitectura ARM está presente en la práctica totalidad de SoCs para smartphones, tablets y también tiene su presencia en PCs y servidores; ARM también dispone de sus propios diseños de núcleos, GPU y plataformas de diseño e implementación para que fabricantes de chips puedan desarrollar procesadores ARM de manera más sencilla. A estas alturas, muchos ya conoceréis, por ejemplo, los núcleos Cortex de ARM o las GPU Mali.

En estos ARM Tech Days 2025, la compañía ha desvelado su nueva plataforma ARM Lumex para dar vida a la próxima generación de SoCs para dispositivos móviles, y también portátiles. Esta plataforma define una nueva línea de núcleos de CPU, donde destaca la nueva nomenclatura de núcleos ARM C1 y el abandono definitivo de la denominación de núcleos "Cortex", la llegada del soporte para instrucciones SME2 optimizadas para IA o las nuevas GPUs Mali G1.

A lo largo de este artículo conoceremos qué nos ofrecerán a nivel de arquitectura y prestaciones los nuevos núcleos C1-Ultra, C1-Premium, C1-Pro y C1-Nano, así como las nuevas GPUs Mali G1-Ultra, Mali G1-Premium y Mali G1-Pro, junto a todas las novedades de la plataformas ARM Lumex CSS para su integración en procesadores finales en configuraciones de distintos clústeres para adaptarse a todo tipo de productos y necesidades.

Arquitectura de los nuevos núcleos ARM C1: Hasta un 45% más de rendimiento con mayor eficiencia

La plataforma ARM Lumex está formada por distintos elementos, pero sin duda alguna, uno de los más importantes es el clúster de CPU donde se integran distintos núcleos de CPU. Esta plataforma estrena nuevos núcleos y, a su vez, también una nueva nomenclatura que deja atrás a los míticos Cortex para pasar a un esquema mucho más sencillo: Demos la bienvenida a los nuevos núcleos ARM C1, formados, de mayor a menor rendimiento, por los C1-Ultra, C1-Premium, C1-Pro y C1-Nano.

ARM fue de las primeras que comenzó a combinar núcleos de distinto tamaño y potencia (puede que recordéis big.LITTLE), hasta llegar a un modelo como el actual, donde hay más de dos y de tres tipos de núcleos que conviven. La distribución de este tipo de núcleos dependerá de cada fabricante. Estos núcleos se podrán implementar en un clúster formado por varios tipos de núcleos dependiendo de las necesidades del SoC. Así, una configuración tope de gama podría integrar dos núcleos ARM C1-Ultra de máximo rendimiento, junto a seis núcleos ARM C1-Pro de mayor eficiencia, pero sin perder de vista el rendimiento.

La nueva arquitectura soporta procesadores de un máximo de 14 núcleos mediante el nuevo sistema de interconexión, que ahora cuenta con una caché formada totalmente por celdas SLC para mejorar el rendimiento y la eficiencia. También se introduce el soporte para memoria RAM LPDDR6 con más eficiencia energética, aunque se mantiene el actual soporte para LPDDR5x con configuraciones de hasta 9600 MT/s.

Una CPU formada por los distintos núcleos C1 de ARM mejora de media un 15% su rendimiento en ámbitos de uso habituales, con unos ahorros de energía que rondan el 12%. Sin embargo, en tareas exigentes la mejora de rendimiento llega a medias de un 30%, con máximos del 45% en tareas multinúcleo.

No hay duda de que la IA se ha convertido en la última moda y se ha adherido a prácticamente cualquier dispositivo que tenga algo que ver con la tecnología. Eso ha dado lugar a nuevos elementos en los procesadores, como las NPU. Sin embargo, si bien estos nuevos SoCs podrán integrarse junto con NPU, será tecnologías externas, y ARM ha preferido optimizar el desempeño en IA en la propia CPU al adoptar la propia arquitectura ARMv9.3-A con las nuevas instrucciones SME2 (Scalable Matrix Extension 2).

La llegada del soporte nativo para las instrucciones SME2 es una de las novedades más importantes de la nueva arquitectura de núcleos de CPU en plataforma ARM Lumex. Más adelante le dedicaremos una sección para hablar más en detalle de lo que supone la llegada de SME2 a CPUs para dispositivos Android y Windows. A modo de adelanto, básicamente SME2 optimiza el procesamiento de tareas de Inteligencia Artificial en la CPU.

SME2 se integra de manera obligatoria en los nuevos núcleos ARM C1-Ultra y C1-Premium, siendo opcional su integración en los C1-Pro y C1-Nano, a elección del fabricante.

Estas novedades en arquitectura, que desgranaremos a lo largo de esta sección, junto con el soporte para SME2, consiguen mejoras de rendimiento en IA que pueden multiplicar por 3,7 veces el desempeño de modelos anteriores.

A nivel de IPC, o instrucciones por ciclo, el C1-Ultra, el núcleo más potente, mantiene la tendencia de crecimiento generación a generación, llegando a superar en un 75% a los primeros Cortex-X1

ARM C1-Ultra: 25% más de rendimiento en los núcleos más potentes

Para ello, se ha rediseñado y mejorado la arquitectura de los C1 en prácticamente todas las áreas, desde el Front-End (la parte encargada de prepararlas tareas y canalizar las instrucciones antes de su ejecución), hasta el Back-End (parte encargada de la ejecución de las órdenes preparadas por el Front-End, sin olvidarnos del propio diseño de los núcleos.

Los nuevos núcleos ARM C1-Ultra suponen la gama más alta para el máximo rendimiento. Sustituyen a los anteriores Cortex-X, como el Cortex-X925, sobre los que estos núcleos C1-Ultra prometen un 25% más de rendimiento en un hilo, algo que ayuda a conseguir el salto enorme de 45% más de rendimiento en multinúcleo de una CPU con clúster C1.

En la parte del Front-End se ha aumentado el ancho de banda de la caché L1 para la gestión de las instrucciones desde la memoria. También se han aplicado mejoras para potenciar la precisión en la predicción de condiciones, algo que redunda en una mejor eficiencia y mayor rendimiento.

En el núcleo, se ha conseguido un 25% de aumento en el crecimiento de la ventana de ejecuciones fuera de orden, es decir, el tamaño del conjunto de instrucciones que el procesador puede analizar para saber cuales pueden ejecutar.

Eso se comprende mejor al definir lo que es la ejecución fuera de orden, que no es otra cosa que la capacidad del procesador para priorizar el proceso de instrucciones según tenga los datos necesarios listos, en vez de centrarse en el orden de llegada (donde se podrían producir bloqueos al esperar a tener los datos necesarios).

Estos núcleos son capaces de ejecutar en torno a 2.000 instrucciones fuera de orden.

Con esta capacidad de ejecución fuera de orden, el Back-End también se ha mejorado para poder aprovecharla. Tenemos el doble de capacidad den la caché L1, llegando a 128 KB para poder aumentar la ventana de ejecución fuera de orden. También se han implementado reducciones en la latencia con mejoras generacionales en los "prebuscadores de datos"

Estos núcleos tienen también una mejora de un 33% en la capacidad de lectura de su caché L1.

ARM C1-Premium

Estos núcleos siguen teniendo una clara orientación hacia el rendimiento puro, pero tienen un tamaño más contenido para dispositivos de gama alta que se sitúen un paso por debajo de los buques insignia. En concreto, los núcleos C1-Premium son un 35% más pequeños que los C1-Ultra.

ARM C1-Pro

Los núcleos C1-Pro serán los encargados de combinar rendimiento con potencia multinúcleo de manera sostenido. Son los predecesores de los núcleos Cortex-A725 o A-78, optimizados en conseguir el mismo nivel de coste. Comparándolos con los A725, los Cortex C1-Pro prometen un 11% más de rendimiento con el mismo consumo.

ARM promete un aumento de rendimiento del 16% en gaming, por ejemplo, comparado con la pasada generación

Estos núcleos son capaces de rendir un 16% más con el mismo consumo que sus predecesores. Al mismo rendimiento, su eficiencia es un 12% superior.

Dado que los C1-Pro son unos núcleos clave para conseguir un equilibrio entre rendimiento y eficiencia, se han aplicado mejoras en el Front-End para la preparación de los datos a procesar en entornos de uso reales. Se ha mejorado la capacidad de predicción estática y se ha implementado un sistema más grande de predicción de direcciones y ramas condicionales.

La capacidad de la caché de predicción de saltos (BTB) se ha multiplicado por 16 en 1 ciclo, y por 2 en 0 ciclos, aún más rápida.

En la parte del Back-End encargada de procesar las instrucciones previamente preparadas, tenemos un mayor ancho de banda de caché L1D manteniendo el mismo espacio y energía. También se ha reducido la latencia en la caché L2 cuando se acierta una predicción, e introducido un nuevo sistema de predicción más preciso y rápido.

Todo este diseño se ha optimizado para ocupar el menor espacio posible, y se incluye la posibilidad de integrar motores para la ejecución de instrucciones SME2 también en estos núcleos.

Con estas mejoras, los núcleos ARM C1-Pro sustituirán a los Cortex-A725 ofreciendo un 11% más de rendimiento por vatio, y un 26% más de ahorro energético en el mismo nivel de rendimiento.

ARM C1-Nano: 26% más eficiencia en el mínimo espacio

Los núcleos C1-Nano son los más eficientes y de menor consumo y tamaño de esta nueva plataforma. Van un paso más allá siguiendo este mantra, prometiendo un consumo un 26% menor que sus predecesores. Apenas aumentan su tamaño un 2% respecto de la generación anterior (Cortex-A520), pero aumentan su eficiencia energética en un 26&.

Para ello, se ha mejorado la arquitectura en la parte del procesamiento previo de las instrucciones del Front-End de los núcleos de bajo consumo, desacoplando el proceso de predecir las instrucciones siguientes del proceso de buscarlas en la memoria. De esta manera, se mejora el rendimiento llevando las instrucciones antes a la caché L1 y reduciendo la espera ante predicciones erróneas, además de mejorar también la eficiencia.

Otras mejoras en el sistema de predicción de saltos, mejoras en la capacidad para apagar partes del núcleo en momentos donde se requieran pocas instrucciones por ciclo, o una mejor capacidad para gestionar dos fallos seguidos en la predicción también ayudan a mejorar el rendimiento y la eficiencia.

En el propio núcleo, se han mejorado la capacidad del sistema de procesamiento vectorial, mejorando la energía y el rendimiento, también hay cambios en la manera en la que gestiona las secuencias de operaciones vectoriales, y se ha mejorado el ahorro de energía apagando partes del núcleo cuando se atasca la cadena de procesamiento de datos.

En el subsistema de memoria, hay mejoras en el pre cargador de datos, ahora más preciso y eficaz; también se han mejorado la eficiencia al reducir el tráfico entre la caché L3 y la memoria RAM, con una mejora que ronda un 21% menos de tráfico medio en benchmarks, y hasta un 39% de reducción de tráfico en cargas de trabajo individuales.

C1-DSU. Así funciona un clúster con los nuevos núcleos ARM C1

Como ya explicamos cuando analizamos la arquitectura previa de los núcleos Cortex-X4 que preceden a esta nueva generación, el DSU o (DynamIQ Shared Unit) es el sistema de interconexión de núcleos con el que se pueden crear distintas configuraciones de clústeres basados en estos núcleos ARM C1.

El C1-DSU se encarga de gestionar e interconectar los núcleos para que funcionen de manera coordinada bajo una única caché L3 compartida. A su vez, es el puente que une los núcleos con el resto del SoC, incluyendo RAM o GPU.

El nuevo C1-DSU se hja diseñado para reducir hasta en un 11% el consumo típico del sistema, y hasta un 7 % el de la memoria RAM.

Además, en la nueva plataforma ARM Lumex, el DSU también permite integrar las unidades de aceleración SME2, ya que son un elemento externo al núcleo

Como ya hemos comentado, los sistemas con núcleos C1-Ultra y C1-Premium integran sí o sí este acelerador SME2 (o aceleradores, ya que pueden integrase hasta 2 en las configuraciones más potentes). Sin embargo, en los núcleos C1-Pro y C1-Nano, los a celeradores SME-2 son opcionales y depende de cada configuración escogida el tenerlos o no.

De esta manera, el sistema C1-DSU permite un gran número de posibilidades y configuraciones dependiendo de las necesidades de cada fabricante. Podemos tener un procesador de altas prestaciones con 2 núcleos C1-Ultra y 6 C1-Pro con varias unidades SME2, también un pequeño procesador con tan solo dos núcleos C1-Pro y cuatro C1-Nano sin aceleración SME2; y, si fuera necesario, se podría crear un procesador con dos núcleos C1-Nano con acelerador SME2 para añadir capacidades de IA.

Todos los núcleos pueden acceder a estos aceleradores SME2 si están disponibles.

El C1-DSU se ha construido heredando varias tecnologías del anterior DSU-120 pero mejorándolas, un ejemplo es el sistema actualizado del modo de ultra bajo consumo "L3 Quick Nap", o "siesta rápida". Básicamente, es un sistema que minimiza el derroche de energía de la caché L2 incluso cuando no se está utilizando. Para ello, se divide el acceso a la caché de la RAM en zonas más pequeños, permitiendo que solo se despierten los bloques necesarios.

Todas estas mejoras hacen que la plataforma con C1-DSU y SME2 pueda conseguir mejoras de eficiencia energética de hasta el 26% en C1-Nano, con hasta un 11% más de rendimiento en el C1-Pro, comparados con la generación anterior.

Naturalmente, la ventaja del SME2 la encontramos, sobre todo, en el procesamiento de IA en local en la CPU, que duplica por dos el rendimiento incluso en procesadores de gama media con núcleos Nano y Pro.

Mali G1-Ultra: Así es la GPU que duplicará el rendimiento en raytracing e IA

Como cada nueva plataforma de ARM, los núcleos de CPU no son lo único que dará vida a un SoC completo. La GPU es, cada vez más, uno de los elementos más importantes de cualquier nuevo procesador para dispositivos móviles.

Si en los núcleos dejábamos atrás la nomenclatura Cortex para pasar a los ARM C1, en el caso de la GPU sí que se mantiene la denominación Mali (aunque se desecha la de "inmortalis" de las últimas generaciones), pero la familia pasa a simplificarse con el nombre de Mali G1 con modelos G1-Ultra, G1-Premium y G1-Pro.

Los modelos Mali G1-Ultra ofrecen 10 o más núcleos junto a una unidad de raytracing completamente rediseñada.
Las Mali G1-Premium se quedan sin raytracing y tendrán entre 6 y 9 núcleos dependiendo del modelo.
En el caso de las Mali G1-Pro tendremos modelos que van desde 1 solo núcleo hasta 5 núcleos.

El buque insignia, por tanto, será la Mali G1-Ultra, todo un portento que se coloca en la GPU más potente y eficiente para gráficos e Inteligencia Artificial de la compañía, con su propia unidad de raytracing rediseñada de nueva generación.

Promete hasta un 20% más de rendimiento que la Mali más potente de la pasada generación, con un 20% más velocidad de inferencia en sistemas de IA y Machine Learning, 9 % menos de energía consumida por fotograma y hasta el doble de rendimiento en raytracing.

ARM promete mejoras de rendimiento de hasta un 26% en juegos que ya están disponibles a fecha de hoy como Mori o Arena Breakout. Juegos como Fortnite mejorarán un 11% Y Genshin Impact un 17% según los datos de la propia ARM.

Hasta un 104% más de rendimiento en ciertas tareas de Inteligencia Artificial

Aunque el mercado de juegos en smartphones abarca ya un 48% de los juegos a los que juega un usuario convencional en su día a día, lo cierto es que la mayoría sigue sin utilizar los smartphones para juegos. Sin embargo, eso no quiere decir que la GPU no sea útil.

Aunque hoy en día las NPU están presentes como una manera de acelerar tareas de IA con un bajo consumo, muchas de las tareas de IA que requieren más potencia delegan en la GPU esta tarea, al ser entidades con mucho mayor rendimiento.

La GPU soporta multiplicación FP16 de matrices, un cálculo clave en procesamiento de IA. Al añadir este soporte por hardware se puede reducir el consumo y maximizar el rendimiento.

Esta ARM Mali-G1 promete un aumento de rendimiento considerable en tareas de IA como reconocimiento del habla, donde duplica el rendimiento de la pasada generación. Otras tareas como segmentación semántica o procesamiento del lenguaje mejoran un 22% y un 19% respectivamente. Tareas como mejora de imagen o clasificación de imágenes consiguen una ventaja de un 17% más de rapidez

Mejoras de Arquitectura

Las nuevas Mali-G1 introducen a nivel de arquitectura soporte para nuevos métodos de procesamiento gráfico como pueden ser las "Dependencias de Región en Imágenes". En arquitecturas anteriores, cada pasada del motor de renderizado aplicaba los efectos de postprocesado a toda la imagen, haciendo que cada pasada fuera dependiente de la anterior, es decir, si se aplicaba un efecto en una pasada, la siguiente pasada aplicaba otro efecto sobre el efecto anterior.

Con la nueva arquitectura de la ARM Mali G1-Ultra se introducen las dependencias de región en imágenes, un sistema en el que cada pasada puede aplicar efectos de postprocesado a partes de la imagen, haciendo que las siguientes pasadas pueda solaparse en el tiempo aplicando efectos a otras regiones sin tener que esperar a que acabe la primera pasada.

El diseño de la GPU es escalable, pensado para poder integrarse en configuraciones de distintos núcleos y conseguir mejoras proporcionales en el rendimiento.

Se ha duplicado la red de comunicaciones interna de la GPU para reducir la congestión a la hora de procesar y transmitir los datos. También ayuda el uso del doble de zonas de caché L2.

Se ha implementado un sistema de doble pila de núcleos de sombreados, que organiza los distintos núcleos en grupos de tal forma que pueden fluir los datos de manera dual, duplicando el ancho de banda, lo que redunda en un mayor rendimiento.

Unidades de Raytracing de segunda generación: el doble de rendimiento

Otra de las mejoras de la arquitectura gráfica de las Mali G1-Ultra es su unidad de raytracing de nueva generación con la que la compañía busca subirse a la cresta de la ola de la llegada del raytracing a juegos de móviles. Una tecnología cada vez más presente en juegos exigentes.

Estas unidades de raytracing de segunda generación multiplican por dos el rendimiento en raytracing, y se integran en cada núcleo, es decir, cada núcleo de la GPU cuenta con una unidad de raytracing dedicada, por lo que a mayor número de núcleos, mayor rendimiento en rasterización y también en raytracing.

Esta integración, no obstante, se ha hecho de tal manera que se pueden apagar las unidades de raytracing cuando no están en uso, consiguiendo un importante ahorro de energía.

Si vemos como funcionaban antes las unidades de raytracing de primera generación, se puede ver que se realizaban las pruebas de intersección de rayos de iluminación en la RTUv1 recibiendo y enviando los datos a los Compute Shaders. Sin embargo, ahora con la nueva generación RTUv2, este proceso se realiza de manera interna en los propios Compute Shader

Llega SME2: La CPU toma protagonismo para la IA

El soporte para las instrucciones SME2 (Scalable Matrix Extension 2) es una de las novedades más llamativas de esta nueva plataforma de procesadores ARM. En un entorno donde la IA ha llegado para quedarse y los procesos de IA local ganan cada vez más peso, los fabricantes y desarrolladores lanzan nuevan solucioens que hacen uso del hardware de diferentes formas.

Dependiendo del tipo de procesado de IA, lo más eficiente y rápido es ir utilizando recursos como la GPU, la NPU (si la hubiera) y también la CPU, ya que cada elemento tiene sus pros y sus contras.

Las instrucciones SME2 suponen un empujón considerable al protagonismo decreciente de las CPU en estos procesos, permitiendo multiplicar el rendimiento en IA sin perder la flexibilidad ni la ausencia de latencia que supone procesar IA en CPU (no hay transferencia de datos a otros aceleradores). Hablamos de mejoras de rendimiento que pueden multiplicar por 5 las de modelos previos sin SME2, al mismo tiempo que triplican la eficiencia energética.

La multiplicación de matrices es una operación clave en los sistemas de Inteligencia artificial, y SME2 añade aceleración para funciones específicas como instrucciones de multiplicación de vectors múltiples, predicados múltiples, compresión 2b/4b o de captación previa de los rangos.

SME2 añade soporte para nuevos tipos de datos más allá del FP/INT de SME, además de nuevas operaciones y manejo de matrices avanzados. TOdo ello lleva a una mejora del rendimiento y la eficiencia, junto con una compatibilidad para combinar con estructuras vectoriales de SVE2.

Estas mejoras en números absolutos se pueden ver mejor aplicadas a usos más concretos. Por ejemplo, al utilizar SME2 se puede conseguir que los sistemas de reconocimiento de voz sean hasta 4,7 veces más rápidos, o que se genere audio mediante IA casi 3 veces más rápidos que sin SME2.

De media, ARM promete mejoras de 3,7 veces más rendimiento. Y todo ello reduciendo el consumo en un 27%.

A día de hoy, aplicaciones como Alipay Taobao ya han comenzado a soportar instrucciones SME2. Aunque se trata de aplicaciones chinas que no veremos aquí, pronto se irá implementando estas tecnologías en más aplicaciones gracias al soporte nativo de librerias para Unity o Unreal Engine; Frameword como PyTorch o TensorFlow para ARM KleidiAI, integración en el kernel de linux y de Android 16, etc.

Recordemos que estas nuevas CPUs no solo estarán orientadas a móviles, sino que podremos verlas en SoCs para portátiles ARM.

Plataforma ARM Lumex CSS: Poniendo todo junto a trabajar en un SoC personalizado

Como en generaciones anteriores, ARM dispone de su plataforma CSS; ahora actualizada a Lumex CSS; para facilitar la vida a las compañías que deseen desarrollar su propio procesador basado en esta nueva arquitectura.

Núcleos de CPU, nuevas GPU y toda la plataforma de propiedad intelectual y desarrollo de ARM se ponen al servicio de sus clientes para poder crear un SoC que se ajuste a sus necesidades sin necesidad de caros desarrollos desde 0 o adaptaciones a procesos de fabricación.

La plataforma CSS Lumex permitirá a estas compañías desarrollar su propio SoC, ya listo para fabricar a 3 nanómetros en los principales nodos, con soporte para las últimas tecnologías que hemos ido desgranando a lo largo de este artículo.

Las novedades más interesantes en Lumex CSS respecto de plataformas CSS anteriores las encontramos en su nueva arquitectura de interconexión y de diseños listos para producción fabricados a 3 nanómetros, tanto para la CPU como para la GPU y la RAM SLC de caché.

También son ventajas importantes la compatibilidad total con Android 16, el sistema de telemetría integrado en hardware, y la disponibilidad de una plataforma de referencia con la que se pueden tomar bases para los diseños.

Naturalmente, también tenemos las propias ventajas de las nuevas arquitecturas de CPU y GPU, con la llegada de SME2, las mejoras de rendimiento y eficiencia, soporte para raytracing avanzado y distintas optimizaciones para acelerar el procesamiento de IA y reducir el consumo.

Con todas estas novedades, Lumex CSS permitirá la creación de nuevos SoCs orientados a la Inteligencia Artificial tanto en la CPU como en la GPU, un entorno de desarrollo disponible desde el primer día, mejoras de rendimiento y de eficiencia importantes, y un diseño escalable que permite crear SoCs muy eficientes y económicos, pero también modelos de altas prestaciones con hasta 14 núcleos.

Fin del Artículo. ¡Cuéntanos algo en los Comentarios!