Benchmark HumanEval: LLM

El benchmark HumanEval es una herramienta importante para evaluar modelos de lenguaje (LLM).

Evalúa qué tan bien los LLM generan código preciso a partir de docstrings, lo que lo convierte en una medida clave de competencia en programación.

Vamos a profundizar.

Mejor LLM según el benchmark HumanEval

Comparativa de los principales modelos de vanguardia en el ranking del benchmark HumanEval.

Benchmark HumanEval en los LLM de vanguardia

Última actualización: marzo de 2025

Company	Model	Score	Source
OpenAI	GPT-4o	90.2%	link
Meta	Llama 3.1 405B	89.0%	link
xAI	Grok-2	88.4%	link
Anthropic	Claude3 Opus	84.9%	link
Google	Gemini 2.0	Unknown	link

GPT-4o de OpenAI lidera con un impresionante 90,2%, demostrando su fortaleza en capacidades de programación.

Llama 3.1 405B de Meta (89,0%) y Grok-2 de xAI (88,4%) son competidores cercanos, lo que refleja la intensa carrera por desarrollar el mejor LLM según HumanEval.

¿Qué es el benchmark HumanEval?

HumanEval evalúa qué tan bien los LLM pueden generar código correcto a partir de docstrings.

Fue introducido por Chen et al. (2021) como una forma de medir la capacidad de programación de un modelo utilizando tareas de programación del mundo real.

La prueba incluye 164 problemas de programación que constan de:

Firmas de funciones
Docstrings
Cuerpos de código
Pruebas unitarias

La puntuación final de HumanEval es la precisión media del LLM en todas las tareas.

Otros benchmarks de LLM

En BRACAI, seguimos de cerca el rendimiento de los principales modelos de vanguardia en múltiples benchmarks.

Si tienes alguna pregunta sobre estos benchmarks o sobre cómo empezar a implementar IA en tu empresa, no dudes en contactarnos.

Benchmark HumanEval: Evaluación de los LLM en programación

Mejor LLM según el benchmark HumanEval

¿Qué es el benchmark HumanEval?

Otros benchmarks de LLM

Entradas recientes

留言