Madani Lab · WAB v0.3.4 · open source

L’Harness è la leva più potente di qualsiasi LLM.

Benchmark open-source per architetture workspace agentic. Valutiamo 7 workspace di riferimento su 12 pillar e pubblichiamo metodologia + 18 paper.

$ incolla in qualsiasi LLM ceomadani/workspace-agentic-benchmark ↗

Run full WAB on my agentic workspace · https://github.com/ceomadani/workspace-agentic-benchmark

§ 02 · il problema

L’harness è il collo di bottiglia. Non il modello.

I tassi di fallimento dei pilot non sono migliorati nemmeno quando i modelli sono migliorati. Quattro dati mostrano dove gli agent in produzione si rompono davvero.

95%

tasso di fallimento

dei pilot AI enterprise non arriva mai in produzione.

Non perché i modelli siano deboli, ma perché i workspace attorno sono fragili. Il 5% che va in produzione ha progettato l’infrastruttura per essere portatile, esportabile e ri-fondabile dal giorno zero.

MIT Sloan 2025 · Gartner Q4 2025 · Madani field study (47 enterprise EU, WSB-08)

92%

varianza spiegata

della varianza nei risultati degli agent è spiegata dalla qualità dell’harness.

Passare da Claude Sonnet a Opus produce un lift di circa il 15%. Raddoppiare la qualità del workspace (α = Q × Q) produce un lift dell’83%. Il capitale allocato alla scelta del modello ha rendimenti decrescenti; quello allocato all’engineering dell’harness compone.

Madani Lab · 142 task in produzione · R² = 0,78 (WSB-04)

7 of 8

win rate

single-thread batte multi-agent a parità di budget token.

Replicando il principio Data Processing Inequality (DPI) di Stanford in produzione: un single agent ben strutturato vince 7 confronti su 8. L’unica vittoria multi-agent è su un task naturalmente parallelo — esattamente dove la teoria DPI lo prevede.

Replicazione Madani di Tran & Kiela · arXiv:2604.02460 (WSB-05)

38%

quota fallimenti

dei fallimenti sono violazioni di idempotenza · solo l’11% sono allucinazioni.

pass@k nasconde cosa si rompe davvero in produzione. Applicata la tassonomia MAST a 14 modalità di fallimento, il quadro si ribalta: la reliability è una disciplina dell’harness (chiavi di idempotenza, scritture atomiche, re-grounding mid-task), non una proprietà del modello.

Madani · 1.200 run in produzione · baseline MAST Cleric & Yu 2025 (WSB-07)

§ 03 · metodologia

Dodici pillar, quattro cluster, cinque livelli di maturità.

Ogni pillar viene valutato su una scala di maturità L0–L4 ispirata a CMMI. Il composito è una media pesata sui quattro cluster, normalizzata 0–100, con voti letterali (A ≥75 · B 60–74 · C 45–59 · D 30–44 · F <30).

Cluster A3 pillar

Cognition

la mente dell’agent

01Context
Profondità, freschezza e accessibilità delle informazioni disponibili all’agent al momento della decisione.
03Memory
Stato persistente tra sessioni · disciplina di retrieval · compattazione consapevole del decay.
04Multi-Agent DPI
Single-thread di default · delega basata su evidenze quando le condizioni DPI sono soddisfatte.

Cluster B3 pillar

Action

come esegue

02Skills
Capabilities modulari, componibili, hot-swappable che l’agent può invocare senza re-engineering.
05Metacognition
Auto-valutazione pre-task · update post-task · loop di feedback cibernetico.
10Portability
Prompt model-agnostic · stato esportabile · zero vendor lock-in.

Cluster C4 pillar

Trust

sicurezza e governance

06Reliability
pass@k + tassonomia 14-failure MAST · chiavi di idempotenza · replay harness.
07Governance
Hard rules · gate di compliance · audit trail · checkpoint human-in-the-loop.
08Credentials
Riferimenti vault op:// · zero secret in chiaro · token scoped e rotabili.
09Observability
Logging strutturato · metriche · trace ID · telemetria sul token-spend.

Cluster D2 pillar

Operations

production readiness

11Auto-Improvement
Loop di Reflexion · dreams · skill discovery · evoluzione del capability profile.
12Forward-Deploy
Replicabile tra contesti · onboarding documentato · install deterministico.

scala di maturità · valutata per pillar

L0Ad-hocNessun processo definito

L1InitialEsiste, non documentato

L2ManagedDocumentato + misurato

L3DefinedStandardizzato a livello org

L4OptimizedIn miglioramento continuo

§ 04 · research papers

Architetture workspace agentic · paper dal campo.

18 paper-grade · clicca per espandere l’abstract.

WSB-00

Un manifesto first-principles per il Workspace Agentic Benchmark

Perché l'intelligenza del modello non è più il collo di bottiglia — e cosa lo è.

Madani Lab · Nour Matine et al.·agentic-architecture·forward-deploy·first-principles·CMMI·WAB-9

2026-05-20

40 min di lettura

WSB-01

L'architettura a 12 Pillar dei workspace agentic: una derivazione cluster-teorica dai primi principi

Quattro Cluster ortogonali · dodici dimensioni · derivate dall'analisi dei failure in produzione su 142 task.

Madani Lab · w/ Cognition (steel-man review)·cluster-analysis·12-pillar·forward-deploy·workspace-design·factor-analysis

2026-05-20

40 min di lettura

WSB-02

L0–L4: adattare i modelli di maturità CMMI all'infrastruttura software agentic

Una matrice di accettazione a 60 celle che operazionalizza «AI-ready» oltre la certificazione di marketing.

Madani Lab·CMMI·maturity-model·agentic-workspace·capability·acceptance-matrix

2026-05-20

40 min di lettura

WSB-03

Un catalogo di 50+ adapter pattern che collegano la ricerca agentic alla pratica nel workspace

Dal paper alla produzione — traduzioni esplicite dalle primitive accademiche a componenti deployabili.

Madani Lab·adapter-patterns·literature-review·paper-grounded·reproducibility·translation-layer

2026-05-20

40 min di lettura

WSB-04

α = Q × Q: un framework information-theoretic per la qualità del context del workspace

L'informazione mutua di Shannon applicata all'astrazione workspace-come-canale · R² 0,78 su 142 task.

Madani Lab·information-theory·context-engineering·shannon·signal-to-noise·master-variable

2026-05-20

40 min di lettura

WSB-05

Replicare la DPI di Stanford sotto vincoli di produzione: la supremazia del single-thread a token budget uguale

arXiv:2604.02460 nel contesto PMI italiano · 7/8 vittorie single-thread · la penalità multi-agent cresce non-linearmente per hop.

Madani Lab · baseline Tran/Kiela 2026 Stanford·DPI·multi-agent·single-thread·non-linear-hop-penalty·cognition-steel-man

2026-05-20

38 min di lettura

WSB-06

MetaCogAgent in produzione: adattare Wang & Shu (arXiv:2605.17292) alle operazioni PMI italiane

La calibrazione collassa 2,6× dai task Easy agli Hard · la peer evaluation cross-agent contribuisce quasi quanto l'autointrospezione · ECE 0,24 → 0,087 in 4 giorni.

Madani Lab · adapter for Wang & Shu arXiv:2605.17292v1·metacognition·ECE·calibration·difficulty-stratified-calibration·cross-agent-evaluation

2026-05-20

34 min di lettura

WSB-07

Adottare MAST in produzione: applicare la tassonomia a 14 modi dei multi-agent failure di Cemri et al. al Madani Workspace

Il 78,7% dei multi-agent failure NON è un problema di modello · Step Repetition (15,7%) è il modo di failure singolo numero 1 · l'Allucinazione è esclusa deliberatamente dalla tassonomia.

Madani Lab · MAST baseline Cemri et al. NeurIPS 2025 (arXiv:2503.13657)·reliability·MAST·multi-agent-failures·taxonomy·cemri-et-al

2026-05-20

38 min di lettura

WSB-08

Il Portability Gap: perché il 95% dei pilot AI enterprise non arriva mai in produzione

Studio sul campo di 47 enterprise UE · la portability spiega il 64% della varianza di outcome · una checklist a 23 artefatti che separa il 5% da tutti gli altri.

Madani Lab · field study 47 EU enterprises·portability·forward-deploy·enterprise·production·lock-in

2026-05-20

40 min di lettura

WSB-09

Signal-to-Noise negli agent long-lived: uno studio empirico di 6 mesi sul context decay

1,2M agent turn · 340M token · half-life dell'SNR di 340 turn al baseline · tre interventi compongono moltiplicativamente fino a una half-life di 950 turn.

Madani Lab·signal-to-noise·context-decay·long-lived·memory·reflexion

2026-05-20

40 min di lettura

WSB-10

L'anti-pattern multi-agent: uno studio sul campo in produzione sulla diluizione del context nella comunicazione inter-agent

Steel-man Cognition validato · audit su 14 deployment · 12 dei 14 deployment multi-agent rolled back o abbandonati · diluizione del context dominante in 11 su 14.

Madani Lab · steel-man Cognition Labs · field study 14 MA deployments·multi-agent·anti-pattern·context-dilution·Cognition·production

2026-05-20

40 min di lettura

WSB-11

Verbal Reinforcement Learning negli agent long-lived del workspace: un'architettura di continuous-improvement basata su Reflexion

Adattare Shinn et al. (NeurIPS 2023, arXiv:2303.11366) dai benchmark short-horizon ai cicli di produzione pluri-mensili · +17pp di task-success sostenuti su 12 mesi.

Madani Lab · adapter for Shinn et al. NeurIPS 2023 (arXiv:2303.11366)·reflexion·verbal-RL·continuous-improvement·cybernetic-loop·long-lived

2026-05-20

40 min di lettura

WSB-12

Cache-aware loop cadences: il TTL del prompt cache come variabile decisionale first-class del workspace

La decisione 270s vs 1200s · perché finestre di cache da 5 minuti ridisegnano ogni architettura di loop autonomo · −87% di costo con zero impatto sull'accuratezza.

Madani Lab · empirical study Anthropic prompt cache · 24 production loops · 6 months·prompt-caching·autonomous-loops·cost-optimization·TTL·cache-aware

2026-05-20

40 min di lettura

WSB-13

Automated retrieval evaluation nei workspace agentic in produzione: adattare RAGAS agli agent long-lived

Da RAGAS benchmark-time a un retrieval QA continuamente in esecuzione · perché ogni agent long-lived ha bisogno di una CI per la propria memoria · l'asse di recall drift che Es et al. non hanno misurato.

Madani Lab · adapter for Es, James, Espinosa-Anke, Schockaert EACL 2024 (arXiv:2309.15217)·RAGAS·retrieval·continuous-eval·automated-eval·production

2026-05-20

40 min di lettura

WSB-14

Loop di ricerca autonoma self-paced: scoring composito a 4 assi e cadenze di sleep adattive per l'acquisizione strategica della conoscenza

Adattare l'autoresearch di Karpathy dalla sperimentazione individuale a uno skill durevole del workspace · 6 mesi di production run · 7 finding controintuitivi su scoring composito e sleep adattivo.

Madani Lab · adapter for Karpathy autoresearch 2024 · 47 production projects · 6 months·autoresearch·self-paced·composite-scoring·autonomous-loops·git-backed

2026-05-20

40 min di lettura

WSB-15

Governance as code: hard rule, compliance gate e audit trail nell'architettura del workspace agentic

Come codificare regole «mai fare X» così che gli agent in produzione le rispettino in ogni condizione, anche adversarial · 41.302 decisioni di gate · zero violazioni osservate · 7 prese controintuitive.

Madani Lab · Constitutional AI lineage · 6 months production · 41302 decisions·governance·hard-rules·compliance-gates·audit-trail·prompt-injection

2026-05-20

40 min di lettura

WSB-16

Igiene delle credentials a scala: il pattern op:// vault per workspace agentic a zero plaintext

23 servizi · zero secret nel repo · risoluzione runtime via 1Password CLI · 12 mesi di produzione · 7 prese controintuitive sulle credentials a scala.

Madani Lab · 23 services · 12 months production · zero plaintext incidents·credentials·op-uri·1Password·vault·zero-plaintext

2026-05-20

40 min di lettura

WSB-17

La skill system architecture: capability agentic modulari a scala (42 skill attivi in produzione)

Perché gli «skill» battono «tool» e «ability» come unità di composizione delle capability agentic · 42 skill attivi · uso power-law · 7 prese controintuitive sul design degli skill.

Madani Lab · 42 active skills · 12 months production · power-law usage·skill-system·modular-capabilities·hot-swap·composability·agent-architecture

2026-05-20

40 min di lettura

WSB-18

La maggior parte degli agenti non ha memoria. Quelli che ce l'hanno, la trattano come un unico secchio. Cinque tier separano un sistema da un pesce rosso.

Perché la memory di un agente ha bisogno di cinque tier separati — semantic, episodic, procedural, personalized, environment-dynamics — e perché collassarli è la ragione silenziosa per cui gli agent di produzione falliscono alla terza settimana.

Madani Lab · iter-39 5-tier audit · 102 personalized files · 13 daily reflexions·memory-architecture·5-tier·reflexion·voyager·CoALA

2026-05-23

40 min di lettura

WSB-19

Eccellenza diagnostica senza apply è teatro. Un decision engine a cinque layer permette all'agent di auto-promuovere cambi al workspace senza pollare l'operatore.

Curator, Dreams, Reflexion producevano 50 proposte per run e ne applicavano zero. L'engine a cinque layer — gate PP · gate alpha · gate LLM-behavior · snapshot · log — chiude il gap codificando quando una decisione macchina è più sicura di una umana.

Madani Lab · iter-39 auto-promote rollout · 42 actions applied 24/05 · 196 corrections detected · 50 proposals/run·auto-promote·decision-engine·curator·dreams·reflexion

2026-05-24

35 min di lettura

WSB-20

Exit 0 non è funzionare. Un harness auto-migliorante può girare verde ogni notte e non imparare niente. La chiusura a tre strati che lo sistema.

Audit di 7 giorni di un harness agentic i cui loop di autenticazione, apprendimento e governance si misuravano fallire e non cambiavano nulla — e il fix chiave che ha trasformato il teatro del monitoring in un loop cibernetico chiuso. Dreams EXTRACT 0→5 · review 0/5→5/5 · violazioni W22:178→W25:14.

Madani Lab · iter harness-health 2026-06-13→19 · auth keystone + reinforcement loop + governance radar·self-improving-agent·cybernetic-loop·reflexion·reinforcement-learning·governance

2026-06-19

32 min di lettura

WSB-21

Un prompt è un desiderio; un contratto è un calcolo. Ogni costante di /goal(P) è una citazione, non una scelta stilistica.

Il contratto operativo agentico completo — gate, metrica del gap, operatore di retrieval composto, loop di convergenza, write-back cross-goal — derivato parametro-per-parametro dalla letteratura primaria, in due forme, con un blocco copia-e-lancia. 32 citazioni.

Madani Lab · /goal(P) operating contract · 32 primary citations·agentic-contract·prompt-engineering·retrieval·RAG·hybrid-retrieval

2026-06-24

30 min di lettura

§ 05 · contribuisci

Sottoponi un workspace. Leggi la spec. Apri una PR.

Il benchmark è aperto · la metodologia è aperta · il tooling di audit è aperto. Tre modi per partecipare.

01 · github

Leggi la spec

WAB v0.3.4 · architettura a 12 pillar · maturità L0–L4 · matrice di audit · tutto nel repo pubblico.

ceomadani/workspace-agentic-benchmark ↗

02 · pull request

Sottoponi uno score

Audita il tuo workspace contro la matrice a 60 celle · apri una PR su /workspaces/{slug}.md · rispondiamo entro 7 giorni.

apri una PR ↗

03 · email

Collabora

Draft di paper · studi di replicazione · procurement enterprise · audit in stile MAST · leggiamo tutto.

lab@madani.agency

Madani Lab · WAB v0.3.4Licenza MIT · spec aperta · tooling di audit aperto