Índice de Fallos IA

Cómo se comportan los principales modelos de IA al alucinar, llamar funciones y competir entre sí.

252 modelos · 7 métricas · 3 fuentes · Actualización: 12 jun 2026, 07:00 UTC

Cómo leer este Índice. Cada tarjeta es una métrica de fiabilidad medida por un grupo de investigación independiente. Cuanto mejor el valor, más fiable es el modelo en esa tarea concreta. Pasa el ratón sobre cualquier tarjeta o gráfico para ver una explicación corta. El bloque Datos técnicos al final detalla cada métrica, su fuente y por qué importa.
Precision al usar herramientasbfcl
77.5%
Sin histórico todavía
109 modelos · Claude-Opus-4-5-20251101 (FC) lidera #1
Varias herramientas distintasbfcl
97.0%
Sin histórico todavía
109 modelos · Qwen3-32B (Prompt) lidera #1
Varias herramientas a la vezbfcl
96.0%
Sin histórico todavía
109 modelos · Arch-Agent-32B lidera #1
Una sola herramientabfcl
80.7%
Sin histórico todavía
109 modelos · Qwen3-30B-A3B-Instruct-2507 (Prompt) lidera #1
Preferencia humana (Elo)lmsys
1510
Sin histórico todavía
38 modelos · claude-fable-5 lidera #1
Consistencia factualvectara
98.2%
Sin histórico todavía
105 modelos · antgroup/finix_s1_32b lidera #1
Tasa de inventovectara
1.8%
Sin histórico todavía
105 modelos · antgroup/finix_s1_32b lidera #1
RankingQuién va primero en la métrica seleccionada
Datos técnicos