Índice de Fallos IA

Cómo se comportan los principales modelos de IA al alucinar, llamar funciones y competir entre sí.

320 modelos · 7 métricas · 3 fuentes · Actualización: 28 jul 2026, 04:46 UTC

Cómo leer este Índice. Cada tarjeta es una métrica de fiabilidad medida por un grupo de investigación independiente. Cuanto mejor el valor, más fiable es el modelo en esa tarea concreta. Pasa el ratón sobre cualquier tarjeta o gráfico para ver una explicación corta. El bloque Datos técnicos al final detalla cada métrica, su fuente y por qué importa.

Precision al usar herramientasbfcl

77.5%

Sin histórico todavía

109 modelos · Claude-Opus-4-5-20251101 (FC) lidera #1

Varias herramientas distintasbfcl

97.0%

Sin histórico todavía

109 modelos · Qwen3-32B (Prompt) lidera #1

Varias herramientas a la vezbfcl

96.0%

Sin histórico todavía

109 modelos · Arch-Agent-32B lidera #1

Una sola herramientabfcl

80.7%

Sin histórico todavía

109 modelos · Qwen3-30B-A3B-Instruct-2507 (Prompt) lidera #1

Preferencia humana (Elo)lmsys

1508

Sin histórico todavía

106 modelos · claude-fable-5 lidera #1

Consistencia factualvectara

98.2%

Sin histórico todavía

105 modelos · antgroup/finix_s1_32b lidera #1

Tasa de inventovectara

1.8%

Sin histórico todavía

105 modelos · antgroup/finix_s1_32b lidera #1

RankingQuién va primero en la métrica seleccionada

Datos técnicos▶

Otros datasets de La AutopsIA: Incidentes de IA en español · Alertas de seguridad CVE en IA