¿Cansado de escuchar noticias acerca de que hay una nueva versión de un LLM que es mucho mejor que el resto? No pierdas más el tiempo, ve a la fuente directamente. Lo mejor es consultar los leaderboards y rankings de LLM, y estos son los mejores a día de hoy (febrero de 2025):
Open LLM Leaderboard de Hugging Face: Clasifica modelos de lenguaje de código abierto basándose en su rendimiento en tareas clave como comprensión del lenguaje natural y matemáticas.
En esta imagen podemos ver la lista ordenada por "Average", que viene a ser: La puntuación promedio en todos los benchmarks se calcula mediante un promedio ponderado de las puntuaciones normalizadas de todas las pruebas de referencia. Cada benchmark individual se normaliza a una escala de 0 a 100 para garantizar una comparación justa entre diferentes métricas. Una vez normalizados, se calcula el promedio de todos estos benchmarks, lo que resulta en una única puntuación global. Este método permite una evaluación integral del rendimiento de un modelo de lenguaje a través de diversas tareas y métricas, proporcionando una visión equilibrada de sus capacidades generales.
LMSYS Chatbot Arena Leaderboard: Evalúa modelos de chatbots, enfocándose en su capacidad para mantener conversaciones naturales y coherentes.
El sistema de clasificación Elo de LMSYS es un método para evaluar y comparar el rendimiento de modelos de lenguaje (LLMs) en tareas conversacionales. Se realizan comparaciones por pares entre diferentes modelos en una serie de "batallas" conversacionales. Cada modelo recibe una puntuación Elo inicial. Después de cada comparación, las puntuaciones se actualizan basándose en el resultado esperado vs. el real. La diferencia entre las puntuaciones Elo de dos modelos predice la probabilidad de que uno supere al otro en una comparación. Este sistema permite crear un ranking dinámico y escalable de modelos de lenguaje.
La relación con Hugging Face es doble. Por un lado, LMSYS utiliza Hugging Face para hospedar datasets relacionados con su leaderboard, como el "lmsys/chatbot_arena_conversations", que contiene 33,000 conversaciones con preferencias humanas pareadas. Por otro lado, el leaderboard de LMSYS incluye modelos disponibles en Hugging Face, permitiendo a los investigadores comparar fácilmente el rendimiento de diferentes LLMs en un marco estandarizado.
Este sistema proporciona una forma objetiva y reproducible de evaluar modelos de lenguaje, beneficiando tanto a desarrolladores como a investigadores en el campo de la IA conversacional.
Massive Text Embedding Benchmark (MTEB) Leaderboard: Evalúa modelos basados en sus capacidades de incrustación de texto, crucial para tareas como búsqueda semántica y sistemas de recomendación.
CanAiCode Leaderboard: Para mi este es uno de los más útiles, y sobre todo, dentro de esta serie de artículos. Se centra en evaluar las capacidades de codificación de los modelos de IA, ayudando a los desarrolladores a integrar IA en el desarrollo de software.

Vellum AI LLM Leaderboard: Muestra una comparación de capacidades, precio y ventana de contexto para LLMs comerciales y de código abierto líderes, basándose en datos de referencia.
Estos leaderboards proporcionan evaluaciones objetivas y reproducibles, ayudando a los desarrolladores e investigadores a comparar el rendimiento de diferentes modelos en diversas tareas y aplicaciones.