Por Aida Delmar, publicado el 8 abril 2025
El 7 de abril de 2025, Meta presentó Llama 4, la nueva generación de su familia de modelos de lenguaje a gran escala (LLM). Con esta evolución, la tecnológica refuerza su apuesta por la inteligencia artificial multimodal, lanzando una gama de modelos capaces de entender y generar texto, imágenes y vídeo. Pero lo más relevante es su arquitectura innovadora: una red neuronal basada en “Mezcla de Expertos” (MoE) que permite optimizar el rendimiento y personalizar las respuestas según la tarea.
En este artículo te explicamos todo lo que necesitas saber sobre Llama 4, sus versiones Scout, Maverick y Behemoth, sus funcionalidades clave y su disponibilidad para desarrolladores y usuarios.
¿Qué es Llama 4 y por qué es relevante?
Llama 4 es la primera serie de modelos de Meta con multimodalidad nativa, lo que significa que ha sido diseñada desde cero para trabajar con distintos tipos de datos (texto, imagen y vídeo), sin que estas capacidades se añadan de forma externa o posterior.
Entre sus principales innovaciones destaca:
Mezcla de Expertos (MoE): cada modelo está compuesto por una red neuronal avanzada que activa solo los submodelos (“expertos”) necesarios para resolver cada consulta.
Fusión temprana: combina texto, imágenes y vídeo desde las primeras capas del modelo, permitiendo preentrenamiento conjunto con datos no etiquetados.
Mayor eficiencia y velocidad: al utilizar solo los expertos relevantes para cada tarea, se reduce la latencia y se optimizan los recursos.
Today is the start of a new era of natively multimodal AI innovation.
— AI at Meta (@AIatMeta) April 5, 2025
Today, we're introducing the first Llama 4 models: Llama 4 Scout and Llama 4 Maverick — our most advanced models yet and the best in their class for multimodality.
Llama 4 Scout
• 17B-active-parameter model… pic.twitter.com/Z8P3h0MA1P
Arquitectura MoE: inteligencia especializada y eficiente
La arquitectura MoE (Mixture of Experts) representa un cambio fundamental respecto a los modelos tradicionales de IA. En lugar de usar una única red neuronal para procesar cualquier entrada, Llama 4 utiliza múltiples subredes especializadas, o "expertos", que se activan selectivamente en función de la consulta.
Este enfoque permite:
Reducir el tiempo de respuesta (latencia).
Mejorar la eficiencia computacional.
Obtener respuestas más precisas y adaptadas al tipo de tarea.
Meta no es la única empresa que explora esta arquitectura: otros modelos como DeepSeek V3, Qwen2.5-Max o Gemini 1.5 Pro también utilizan MoE, lo que indica una tendencia creciente hacia IA especializadas y escalables.
Las tres versiones de Llama 4: Scout, Maverick y Behemoth
Meta ha lanzado tres variantes de Llama 4, cada una con propósitos y capacidades específicas.
Llama 4 Scout: potencia en formato compacto
Modelo más pequeño, optimizado para funcionar con una sola GPU.
17.000 millones de parámetros activos y 16 expertos.
Ventana de contexto de 10 millones de tokens.
Supera en pruebas a modelos como Gemma 3, Gemini 2.0 Flash-Lite y Mistral 3.1.
A pesar de su tamaño reducido, Scout es más potente que cualquier modelo anterior de Llama, lo que lo convierte en una opción ideal para proyectos con recursos limitados pero necesidades exigentes.
Llama 4 Maverick: equilibrio entre rendimiento y escalabilidad
También cuenta con 17.000 millones de parámetros activos, pero distribuidos entre 128 expertos.
Según Meta, es el mejor modelo multimodal de su clase, superando a GPT-4o y Gemini 2.0 Flash en numerosos benchmarks.
Competitivo incluso frente a DeepSeek V3 en tareas de razonamiento y codificación, con una relación rendimiento-coste destacable.
En su versión de chat experimental, alcanza una puntuación ELO de 1.417 en LMArena.
Llama 4 Behemoth: el modelo más potente de Meta
Actualmente en fase de desarrollo, pero ya considerado uno de los LLMs más avanzados del mundo.
288.000 millones de parámetros activos y casi 2 billones de parámetros totales.
Utiliza 16 expertos, como Scout, pero con una capacidad de procesamiento muy superior.
Supera en benchmarks STEM a GPT-4.5, Claude Sonnet 3.7 y Gemini 2.0 Pro.
Behemoth ha servido como base para entrenar las versiones Scout y Maverick, y continuará guiando el desarrollo de futuras iteraciones de la familia Llama.
Multimodalidad con fusión temprana: un salto cualitativo
Llama 4 no solo entiende distintos tipos de datos, sino que los procesa de forma conjunta desde el inicio, gracias a su técnica de fusión temprana. Esto le permite:
Integrar de forma nativa texto, imágenes y vídeo.
Preentrenarse con grandes cantidades de datos no etiquetados, lo que reduce la dependencia de datasets curados.
Mejorar su capacidad para razonar sobre entradas complejas o híbridas (por ejemplo, una pregunta basada en un gráfico o una imagen).
Además, el modelo ha sido dotado de un nuevo codificador de visión, basado en MetaCLIP pero adaptado con otro modelo Llama, lo que potencia su comprensión visual.
Disponibilidad y restricciones de uso
Meta ya ha lanzado Llama 4 Scout y Llama 4 Maverick para su descarga en:
También se han integrado en Meta AI, y están accesibles a través de:
WhatsApp
Messenger
Instagram
El sitio web de Meta AI
Restricciones para la Unión Europea
Meta especifica claramente en su política de uso que:
“No se otorgan derechos de uso ni distribución de Llama 4 a personas físicas o empresas cuya sede principal esté en la Unión Europea”.
Esta restricción no se aplica a usuarios finales de productos o servicios que ya integren estos modelos multimodales, lo que abre la puerta a un uso indirecto en la región, pero impide su implementación directa por parte de desarrolladores europeos.
Próximo evento: LlamaCon 2025
El próximo 29 de abril, Meta celebrará su evento para desarrolladores LlamaCon, donde se espera que se revele más información técnica, aplicaciones prácticas y posibles actualizaciones de los modelos Llama 4.
Conclusión: una IA más eficiente, flexible y especializada
Con Llama 4, Meta demuestra que la próxima frontera de la IA pasa por la eficiencia, la especialización y la multimodalidad nativa. Gracias a su arquitectura MoE, la activación selectiva de expertos y la capacidad de razonar con distintos tipos de datos de forma conjunta, esta nueva generación de modelos está diseñada para resolver tareas concretas con mayor precisión y menor coste computacional.
A medida que se amplíe su disponibilidad y se explore su potencial, Llama 4 podría convertirse en un pilar clave para desarrolladores, empresas tecnológicas y plataformas que buscan construir experiencias inteligentes realmente personalizadas.