top of page

Benchmark HumanEval: Evaluación de los LLM en programación

  • Falk Thomassen
  • 26 mar
  • 1 Min. de lectura

El benchmark HumanEval es una herramienta importante para evaluar modelos de lenguaje (LLM).


Evalúa qué tan bien los LLM generan código preciso a partir de docstrings, lo que lo convierte en una medida clave de competencia en programación.


Vamos a profundizar.



Mejor LLM según el benchmark HumanEval

Comparativa de los principales modelos de vanguardia en el ranking del benchmark HumanEval.


Benchmark HumanEval en los LLM de vanguardia

Última actualización: marzo de 2025

Company

Model

Score

Source

OpenAI

GPT-4o

90.2%

Meta

Llama 3.1 405B

89.0%

xAI

Grok-2

88.4%

Anthropic

Claude3 Opus

84.9%

Google

Gemini 2.0

Unknown

GPT-4o de OpenAI lidera con un impresionante 90,2%, demostrando su fortaleza en capacidades de programación.

Llama 3.1 405B de Meta (89,0%) y Grok-2 de xAI (88,4%) son competidores cercanos, lo que refleja la intensa carrera por desarrollar el mejor LLM según HumanEval.



¿Qué es el benchmark HumanEval?

HumanEval evalúa qué tan bien los LLM pueden generar código correcto a partir de docstrings.


Fue introducido por Chen et al. (2021) como una forma de medir la capacidad de programación de un modelo utilizando tareas de programación del mundo real.


La prueba incluye 164 problemas de programación que constan de:

  • Firmas de funciones

  • Docstrings

  • Cuerpos de código

  • Pruebas unitarias


La puntuación final de HumanEval es la precisión media del LLM en todas las tareas.



Otros benchmarks de LLM

En BRACAI, seguimos de cerca el rendimiento de los principales modelos de vanguardia en múltiples benchmarks.


Si tienes alguna pregunta sobre estos benchmarks o sobre cómo empezar a implementar IA en tu empresa, no dudes en contactarnos.

留言


bottom of page