Hoy quería hablarte sobre la evolución de los modelos de lenguaje de gran escala o LLMs.
¿Qué son los Modelos de Lenguaje de Gran Escala (LLMs)?
Por si acaso no sabes lo que es un LLM, la tecnología detrás del modelo de lenguaje de ChatGPT, Gemini, Claude, Llama…son LLMs. Modelos de lenguaje de gran escala.
En otras palabras, son programas informáticos gurdus gurdus, que se han nutrido de enormes cantidades de texto (en su mayoría de internet) y han aprendido a generar textos muy coherentes.
Recordatorio: coherente no quiere decir, veraz.
“Las vacas son capaces de comer camiones enteros»
es una frase coherente desde el punto de vista lingüístico, pero no es una frase verídica.
Desentrañando los LLMs con un diagrama muy interesante.
Continúo y para eso, quiero apoyarme en esta imagen. Al final del artículo te cuento por qué me gusta este diagrama.

En este diagrama podemos ver la evolución de este tipo de modelos desde principios de 2018 hasta 2023, que es donde se detiene la imagen.
La imagen también muestra qué modelos son open source, y cuáles no.
Que los LLMs sean cerrados significa que no tenemos los detalles de cómo han sido construidos y, por tanto, es poco probable que se puedan reproducir.
Otro de los detalles más interesantes que podemos observar es la cantidad de modelos que se han ido desarrollando en función de cada arquitectura de transformer y, a la vista está que la arquitectura decoder-only es una de ramas que más ha evolucionado.
De hecho, OpenAI fue la empresa que empezó a implementar modelos con el decoder-only, con la primera versión de GPT, el GPT-1.
Y como dirían en los relatos épicos…el resto ya es historia.
Para ir terminando, te cuento por qué me gusta tanto esta imagen.
Como representar en un diagrama múltiples variables de manera atractiva
Este gráfico representa al menos siete variables distintas relacionadas con la evolución de los modelos de lenguaje a lo largo del tiempo:
1. Fecha de lanzamiento: indicada por la posición vertical de los modelos a lo largo de la línea de tiempo, que se extiende desde 2018 hasta 2023.
2. Tipología del modelo: representada por las ramas de colores en las que se sitúan los modelos. Los colores indican si son modelos de solo codificación (encoder-only), solo decodificación (decoder-only), o modelos de codificación-decodificación (encoder-decoder).
3. Código abierto vs. Código cerrado: diferenciado por las formas de los íconos de los modelos; los modelos de código abierto están representados por cuadrados sólidos y los modelos de código cerrado por íconos huecos.
4. Relaciones entre modelos: indicadas por las líneas que conectan los modelos. Las líneas cercanas o bifurcaciones sugieren una relación o evolución de un modelo a otro.
5. Cantidad de modelos por empresa: representado por el gráfico de barras apiladas en la esquina inferior derecha, que muestra el número de modelos de diferentes empresas e instituciones.
6. Empresa o institución desarrolladora: Indicado por los logotipos junto a cada modelo, mostrando qué compañía o institución desarrolló cada modelo.
7. Transformers y otros modelos: La distinción entre modelos basados en transformers y otros tipos de modelos.
Actualización: qué ha cambiado desde 2024 hasta mayo de 2026
El diagrama del artículo sigue siendo útil para entender el origen de todo esto, pero se queda en 2023. Y en inteligencia artificial, 2023 ya parece otra época.
Si actualizamos la foto a 21 de mayo de 2026, la evolución reciente de los LLMs se resume bastante bien en cinco movimientos:
- OpenAI abrió dos frentes a la vez. El 14 de abril de 2025 presentó GPT-4.1, con mejoras claras en código, seguimiento de instrucciones y contexto largo de hasta 1 millón de tokens. Dos días después, el 16 de abril de 2025 lanzó o3 y o4-mini, empujando el razonamiento con uso de herramientas.
- Anthropic reforzó la idea del modelo-agente. El 22 de mayo de 2025 anunció Claude Opus 4 y Claude Sonnet 4, con mucho foco en programación, razonamiento avanzado y trabajos largos con memoria operativa.
- Google consolidó Gemini 2.5. El 17 de junio de 2025 estabilizó Gemini 2.5 Pro y Flash y añadió Flash-Lite en vista previa. La apuesta aquí es clara: modelos híbridos, multimodales, conectados a herramientas y también con contexto de hasta 1 millón de tokens.
- Meta llevó la conversación abierta a otra fase. El 5 de abril de 2025 presentó Llama 4 Scout y Maverick, dos modelos open-weight, multimodales y basados en arquitectura MoE, mientras Behemoth seguía en entrenamiento.
- Mistral siguió presionando por el lado abierto. Con Mistral 3 y Mistral Large 3, la tesis se refuerza: la carrera ya no es solo de laboratorios cerrados; también va de modelos abiertos, multimodales y razonablemente desplegables.
La lectura rápida de esta nueva fase
La competición ya no va solo de generar mejor texto. Ahora los ejes importantes son razonamiento, contexto largo, multimodalidad, uso de herramientas y eficiencia.
Dicho de otra forma: hemos pasado de hablar de modelos que completan texto muy bien a hablar de sistemas que razonan, ven, oyen, usan herramientas y ejecutan tareas con bastante autonomía. Ese es, para mí, el verdadero cambio de etapa.
Si quieres más, tienes una mejor opción que este blog. Ojo, no digo que este blog sea una mala opción, no me malinterpretes.
Con los artículos de mi blog puedes aprender sobre inteligencia artificial, análisis de datos, ventas o el mundo de la empresa.
Y voy a parar de decir cosas para que sea creíble, pero habría más. De verdad.
Lo que digo es que si quieres contenido exclusivo y enterarte de otra serie de cosas te puedes suscribir a mi boletín de correo gratuito.
¿Cómo? Dejando tu correo aquí abajo:
Recibe los correos.
Chao.






