Benchmark HumanEval: Evaluación de los LLM en programación
- Falk Thomassen
- 26 mar
- 1 Min. de lectura
El benchmark HumanEval es una herramienta importante para evaluar modelos de lenguaje (LLM).
Evalúa qué tan bien los LLM generan código preciso a partir de docstrings, lo que lo convierte en una medida clave de competencia en programación.
Vamos a profundizar.
Mejor LLM según el benchmark HumanEval
Comparativa de los principales modelos de vanguardia en el ranking del benchmark HumanEval.

Última actualización: marzo de 2025
GPT-4o de OpenAI lidera con un impresionante 90,2%, demostrando su fortaleza en capacidades de programación.
Llama 3.1 405B de Meta (89,0%) y Grok-2 de xAI (88,4%) son competidores cercanos, lo que refleja la intensa carrera por desarrollar el mejor LLM según HumanEval.
¿Qué es el benchmark HumanEval?
HumanEval evalúa qué tan bien los LLM pueden generar código correcto a partir de docstrings.
Fue introducido por Chen et al. (2021) como una forma de medir la capacidad de programación de un modelo utilizando tareas de programación del mundo real.
La prueba incluye 164 problemas de programación que constan de:
Firmas de funciones
Docstrings
Cuerpos de código
Pruebas unitarias
La puntuación final de HumanEval es la precisión media del LLM en todas las tareas.
Otros benchmarks de LLM
En BRACAI, seguimos de cerca el rendimiento de los principales modelos de vanguardia en múltiples benchmarks.
Si tienes alguna pregunta sobre estos benchmarks o sobre cómo empezar a implementar IA en tu empresa, no dudes en contactarnos.
留言