Por: Tushar Katarki, Director Global de Productos, Plataformas de Modelo Base GenAI, Red Hat
Lima, 02 de Marzo del 2026.- A medida que la realidad técnica de AI-RAN toma forma, muchos proveedores de servicios de telecomunicaciones se dan cuenta de que la pregunta ya no es solo si pueden ejecutar IA y red de acceso por radio (RAN) en el mismo hardware, sino cómo gestionar la IA a escala.
En la colaboración más reciente de Red Hat con SoftBank Corp., integramos llm-d al orquestador AI-RAN de la compañía, AITRAS. Fundado por Red Hat junto con otros líderes de la industria, llm-d es un framework de código abierto diseñado para distribuir de manera dinámica e inteligente la inferencia de grandes modelos de lenguaje (LLMs) dentro de una RAN, con mayor eficiencia y rendimiento.
El desafío: unificar cargas de trabajo de IA y RAN en el edge del proveedor de servicios
Las aplicaciones tradicionales de RAN son ampliamente implementadas por los proveedores de servicios en el edge en CPUs y GPUs, a menudo sobre plataformas de Kubernetes como Red Hat OpenShift. Sin embargo, el avance reciente de GenAI y los modelos de lenguaje basados en transformadores están posibilitando nuevas formas de procesamiento y generación de insights en el edge. Ahora, además de las RANs tradicionales, existen aplicaciones y agentes de RAN impulsados por IA que requieren entornos de ejecución y endpoints de inferencia en el edge.
La pregunta crítica para los proveedores, por lo tanto, es cómo permitir que las RANs tradicionales, los nuevos modelos de lenguaje y los agentes coexistan de forma eficiente en las mismas ubicaciones de RAN, para habilitar nuevos casos de uso, generar valor y monetización. Esta unificación es esencial para reducir los gastos operativos (OpEx) y acelerar el tiempo de comercialización (time-to-market) de nuevos servicios de edge generadores de ingresos.
Para que AI-RAN sea comercialmente viable, los proveedores deben tratar las cargas de trabajo de IA con la misma flexibilidad que las funciones de red nativas de la nube (CNFs) y las aplicaciones. Es en este contexto que entra la colaboración entre SoftBank y Red Hat, utilizando llm-d y vLLM para AI-RAN.
llm-d: el puente entre inferencia y orquestadores
vLLM se ha consolidado como referencia de código abierto para la inferencia de IA, ofreciendo implementación de modelos de alto rendimiento en un único nodo de GPU. Sin embargo, no fue diseñado para gestionar implementaciones en entornos complejos y distribuidos con múltiples nodos. Este es exactamente el problema que llm-d resuelve. Aprovechando Kubernetes, llm-d orquesta vLLM en múltiples nodos para viabilizar la inferencia de IA a escala de producción, extendiendo su eficiencia a entornos distribuidos.
Con la integración de llm-d al orquestador AITRAS de SoftBank, los proveedores pueden lograr avances significativos:
Por qué esto es importante para el futuro del 5G y 6G
La integración de llm-d a AITRAS funciona, en la práctica, como un sistema operativo para IA en el edge. Permite a SoftBank ejecutar inferencia de alto rendimiento y cargas de trabajo de RAN en arquitecturas energéticamente eficientes, incluidos los sistemas basados en Arm, demostrando que AI-RAN puede alcanzar la escalabilidad y flexibilidad exigidas por las redes móviles de próxima generación, como 5G y 6G. Al reemplazar las configuraciones manuales por un modelo automatizado orientado por llm-d, los proveedores eliminan la complejidad operativa que históricamente ha limitado la IA en el edge.
Los proveedores de servicios están entrando en una era en la que la red no solo transporta datos, sino que los procesa de forma inteligente y eficiente. Obtenga más información sobre los resultados de esta integración en el stand de Red Hat en el MWC Barcelona 2026, donde los especialistas estarán disponibles para explicar cómo llm-d y AITRAS están haciendo realidad la promesa de AI-RAN.
Mientras tanto, explore los beneficios de Red Hat AI y conozca más sobre la colaboración de Red Hat con SoftBank para desarrollar tecnologías AI-RAN y optimizar el rendimiento de la red.