← Torna a /research

Classifica · WAB

Top 100 · workspace agentici auditati · 12 pillar · L0–L4

#WorkspaceTipoGradeScoreclusterELOPillar maturiPunto deboleStackAuditatoEvidence
1Madani Workspace
B2B services portfolio · iter-39
refA87.08
87
A
95
B
89
C
73
D
1900Claude Code · Python · n8n · launchd · auto-promote-engine2026-05-25audit ↗
2Hermes Agent · NousResearch
skill-curator + RL self-evolution
extC50.83
30
A
63
B
53
C
60
D
1650Python · agent/curator.py · skill_manage · GRPO2026-05-24audit ↗
3OpenClaw
agentic platform · plugin ecosystem
extD47.50
23
A
57
B
58
C
50
D
1580TypeScript · Node.js · plugin system2026-05-24audit ↗
4OpenAI Agents SDK · Python
agent SDK library
extD40.83
23
A
42
B
49
C
50
D
1450Python · agents framework2026-05-20audit ↗
5Cline · IDE Agent
VS Code agentic IDE
extD32.50
13
A
47
B
35
C
35
D
1480TypeScript · VS Code extension2026-05-24audit ↗
6Anthropic Cookbook
code-sample repository
extF27.50
7
A
33
B
35
C
35
D
1380Python · Jupyter · Claude Agent SDK2026-05-20audit ↗

Mostro 6 di 6

Legenda

verified · audit verificato dai maintainer del benchmark.
self-reported · audit eseguito dal submitter · re-audit server-side in roadmap v0.5.
Pillar maturi · numero di pillar al massimo livello di maturità (L4 Optimizing) su 12 totali. Es. 9/12 = 9 pillar a L4.
Punto debole · il pillar con la maturità più bassa · dove il workspace ha il gap più grande da colmare.
Cluster A·B·C·D · medie dei 4 cluster (Cognition, Action, Trust, Operations).
ELO · derivato dal composite (1200 + composite × 8). Stesso composite → stesso ELO.
Score · composito 0-100 · media equally-weighted dei 12 pillar.
Livelli L0-L4 · L0 assente · L1 ad hoc · L2 documentato · L3 automatizzato · L4 optimizing (auto-improve).

Composito = media ponderata 4 cluster · ELO Bradley-Terry · ~70% audit deterministic · IRR 1.0 verified. Reference entries verificate nel benchmark repo. Community submissions in Vercel KV live · re-audit CI roadmap v0.5.