← researchWSB-032026-05-20

40 min read

Un catalogo di 50+ adapter pattern che collegano la ricerca agentic alla pratica nel workspace

Dal paper alla produzione — traduzioni esplicite dalle primitive accademiche a componenti deployabili.

Madani Lab

adapter-patternsliterature-reviewpaper-groundedreproducibilitytranslation-layercatalog

Abstract

Il divario tra ricerca sui sistemi agentic e ingegneria di produzione e un problema di traduzione, non di capacita. I paper descrivono i primitivi in forma matematica o algoritmica (un ciclo di self-reflection, una calibrazione della confidence, una memoria retrieval-augmented) ma il deployment in produzione richiede scelte che il paper non specifica: dove vive il primitivo nel file system, cosa lo innesca, cosa ne gestisce i failure mode, quali dashboard lo osservano, quali vincoli di compliance soddisfa. Senza un layer di traduzione esplicito, ogni team di ingegneria reinventa la traduzione, spesso male, e il campo accumula oltre 50 re-implementazioni idiosincratiche dello stesso paper. Questo paper cataloga gli oltre 50 adapter pattern che Madani Lab utilizza per tradurre la ricerca agentic pubblicata in componenti workspace WAB distribuibili. Portiamo alla luce SETTE sub-finding controintuitivi emersi dallo sforzo di catalogazione
(a)Gli adapter pattern decadono in utilita al progredire della ricerca sorgentecirca il 30% dei pattern derivati da ricerca pubblicata 2 anni fa risulta oggi obsoleto, richiedendo deprecation e curation attive piuttosto che accumulo passivo
(c)La qualita degli adapter dipende dal contesto forward-deploy, non dal citation count accademicoi pattern che vengono distribuiti con codice deployment-ready, configurazione e scaffolding di observability superano i pattern accademicamente prestigiosi privi di questi artefatti di circa 2.3x sulla metrica time-to-production
(e)Il catalogo di oltre 50 presenta una distribuzione d'uso power-lawi top 10 pattern coprono l'80% dell'applicazione in produzione; la long tail e raramente utilizzata ma costosa da manutenere
(f)Il tasso di creazione di nuovi adapter e rallentato rispetto al tasso di pubblicazione della ricercasuggerendo saturazione nella ricerca facile da adattare e uno spostamento verso gli adapter piu difficili e multi-pillar

INTRODUZIONE · §1

Il problema della traduzione

Un tipico paper di sistemi agentic descrive un primitivo al livello di "un agent LLM genera un riassunto di self-reflection alla fine di ogni task che informa i tentativi successivi" (una parafrasi di Reflexion, Shinn et al. 2023). Il paper specifica l'algoritmo, dimostra il lift empirico e discute i lavori correlati. Non specifica: dove vive il riassunto di self-reflection nel file system, chi lo legge, quando si innesca (dopo ogni task o solo dopo i fallimenti?), come vengono deprecati i riassunti obsoleti, quale superficie di observability ne monitora la qualita, quali vincoli di compliance deve soddisfare.
Ciascuna di queste specifiche e necessaria per il deployment in produzione. Senza di esse, il team reinventa la traduzione, tipicamente male: abbiamo osservato team di ingegneria produrre oltre 5 implementazioni Reflexion diverse e incompatibili all'interno dello stesso workspace prima di riconoscere la duplicazione. Il translation gap e il problema centrale di produttivita del campo dell'agentic-engineering.

INTRODUZIONE · §2

Perche gli adapter espliciti aiutano

Un adapter pattern e un record strutturato che colma il divario tra primitivo paper e componente di produzione. Ogni adapter assume la forma di uno schema tipato con cinque campi (per §6) e produce un componente workspace direttamente distribuibile. Il beneficio e duplice: (a) RIUSO — una volta che un adapter e stato redatto per un paper, ogni team che deve distribuire il primitivo del paper puo usare l'adapter senza ri-tradurre; (b) AUDITABILITA — l'adapter registra le decisioni di traduzione in modo esplicito, cosi i team futuri possono verificare che il deployment corrisponda all'intento del paper.
Il costo e il tempo iniziale di redazione per adapter (3-5 ore di literature review + validazione di produzione per pattern). Il payback si ammortizza su tutti gli usi a valle; nella nostra esperienza il break-even e a 3-4 usi per adapter, soglia che la maggior parte degli adapter supera comodamente.
"Design patterns are reusable solutions to commonly occurring problems within a given context · they are not finished designs but templates that can be applied in many situations."— Gamma et al., Design Patterns · 1994

INTRODUZIONE · §3

Cosa aggiunge questo paper

Catalogamo gli oltre 50 adapter pattern che Madani Lab utilizza per tradurre la ricerca agentic pubblicata in componenti workspace WAB distribuibili. Il catalogo e licenziato MIT e leggibile a macchina come JSON per cross-reference automatizzato con gli output di scoring WAB (WSB-02). Oltre al catalogo in se, portiamo alla luce SETTE sub-finding controintuitivi su come la disciplina di catalogazione si comporta nella pratica (per §17-§23). I finding non sono direttamente trasferibili come adapter di per se; informano il modo in cui i team dovrebbero pensare alla selezione, curation e gestione del lifecycle degli adapter.
       PATTERN CATALOG · 50 documented patterns
       ───────────────────────────────────────

   CLUSTER A · CONTEXT      (8)  ┐
   CLUSTER B · SKILLS       (7)  │
   CLUSTER C · MEMORY       (9)  │  → 50 total
   CLUSTER D · MULTI-AGENT  (6)  │     paper-backed
   CLUSTER E · METACOG      (5)  │     production-tested
   CLUSTER F · RELIABILITY  (5)  │
   CLUSTER G · GOVERNANCE   (4)  │
   CLUSTER H · CREDENTIALS  (3)  │
   CLUSTER I · OBSERVABILITY(3)  ┘

   each pattern: {
     name · trigger · spec · anti-pattern ·
     paper-backing · production-evidence ·
     L0-L4 maturity · workspace-fit
   }

LAVORI CORRELATI · §4

Design pattern dell'ingegneria del software

L'analogo storico piu vicino al catalogo di adapter e la letteratura sui design pattern di software engineering originata dalla "Gang of Four" (Gamma, Helm, Johnson, Vlissides 1994). Quel libro catalogava 23 design pattern per il software object-oriented, ciascuno con un template strutturato (intent, motivation, structure, participants, collaborations, consequences, implementation, sample code). Il catalogo divenne fondamentale per la pedagogia e la pratica dell'ingegneria del software tra la fine degli anni '90 e gli anni 2000.
Prendiamo in prestito l'idea del template strutturato da questo lavoro; il nostro schema a 5 campi e piu snello del template a 9 campi della GoF perche il contesto agentic produce meno variazione strutturale complessa rispetto al design object-oriented. Il libro GoF riporta anche che i pattern talvolta passano di moda al progredire della tecnologia sottostante; osserviamo la stessa dinamica negli adapter pattern agentic e ne discutiamo in §17.

LAVORI CORRELATI · §5

Pattern di ingegneria dei sistemi ml

I lavori adiacenti precedenti nell'ingegneria ML (Polyzotis et al. 2017 sui pattern di data validation, Sculley et al. 2015 sul debito tecnico nei sistemi ML, Breck et al. 2017 sull'ML test score) catalogano pattern di ingegneria a livello di sistemi di machine learning ma non a livello di sistemi agentic. I pattern che questi paper catalogano (feature store, model monitoring, igiene della pipeline di training) sono necessari ma non sufficienti per i sistemi agentic; li trattiamo come input a specifici Pillar WAB (Reliability, Observability) anziche come analoghi diretti del nostro catalogo. La metodologia di catalogazione strutturata e condivisa; la sostanza di cio che viene catalogato e diversa.

METODO · §6

Struttura dell'adapter

Un adapter pattern e un record strutturato con cinque campi
(a)Sourcepaper, preprint, blog o altro riferimento
(b)Primitivel'elemento algoritmico o di design che la sorgente introduce
(c)Production formla forma workspace-deployable inclusi path dei file, trigger event, gestione dei failure, superficie di observability, integrazione di compliance

METODO · §7

Processo di costruzione

Abbiamo costruito il catalogo nell'arco di 6 mesi lavorando a ritroso da ogni criterio di maturita dei Pillar WAB verso l'evidenza pubblicata che lo supporta. Il processo: (1) enumerare gli artefatti richiesti per la maturita L2 su ciascun Pillar (per WSB-02), (2) identificare l'evidenza di ricerca a supporto di ciascun artefatto, (3) redigere un adapter che operazionalizzi l'evidenza in forma deployment-ready, (4) revisione da parte di 2 ingegneri, (5) integrazione nel JSON del catalogo. Dove piu paper supportano lo stesso primitivo (ad esempio, la sintesi retrospettiva in stile Reflexion e supportata indipendentemente da Shinn et al. 2023, Park et al. 2023 e Sumers et al. 2024), annotiamo la sorgente piu forte e facciamo riferimento incrociato alle altre.

METODO · §8

Barra di qualita dell'evidenza

Abbiamo applicato una deliberata barra di qualita dell'evidenza: un adapter deve essere supportato da (a) pubblicazione peer-reviewed con claim empirici riproducibili, oppure (b) report di practitioner da un team che opera il primitivo a scala con dati di produzione misurabili, oppure (c) lift misurato da Madani stessa dal deployment del primitivo. I pattern che fallivano tutte e tre le barre sono stati scartati. Degli approssimativamente 80 primitivi candidati inizialmente considerati, ne sono sopravvissuti solo oltre 50. Gli scarti si dividono in tre categorie: (a) primitivi con risultati originali forti ma senza replica indipendente di successo, (b) primitivi che funzionavano sui benchmark accademici ma fallivano sotto i vincoli di produzione, (c) primitivi che erano essenzialmente vendor-marketing travestiti da ricerca.

FINDING · §9

I 6 cluster tematici

Gli oltre 50 adapter coprono 6 cluster tematici:
(i) MEMORY & CONTEXT (Pillar WAB Context, Memory): Reflexion (Shinn 2023) -> policy di compattazione di working.md; Generative Agents (Park 2023) -> tagging della memoria episodica; RAGAS (Es 2024) -> unit test di precisione del retrieval; prompt caching Anthropic (2025) -> cadenze di loop cache-aware (finestre 270s vs 1200s).
(ii) MULTI-AGENT DISCIPLINE (Pillar WAB 04): DPI Stanford (Tran & Kiela arXiv:2604.02460, 2026) -> hard rule single-thread di default; steel-man di Cognition (Don't Build Multi-Agents) -> policy di delegation a 3 condizioni; failure analysis di AutoGen (Microsoft 2024) -> catalogo di pattern proibiti.
(iii) METACOGNITION (Pillar WAB 05): MetaCogAgent (Wang C. & Shu Y., arXiv:2605.17292, 2026) -> primitivo di self-assessment pre-task; policy di decay del capability profile; Confidence Calibration Survey (Liu 2025) -> protocollo di misurazione ECE.
(iv) RELIABILITY (Pillar WAB 06): tassonomia MAST a 14 failure (Cemri et al., arXiv:2503.13657, NeurIPS 2025) -> specifica del replay harness; pass@k (Chen 2021) -> baseline + supplemento di reliability; ToolBench (Qin 2023) -> policy di idempotency key.
(v) GOVERNANCE & SAFETY (Pillar WAB 07, 08, 09): Constitutional AI (Anthropic 2022) -> compilazione hard-rule; Model Spec (OpenAI 2025) -> cadenza di compliance-gate; SOC2 -> accettazione minima dell'audit-trail.
(vi) AUTONOMY & SELF-IMPROVEMENT (Pillar WAB 11, 12): autoresearch Karpathy (2024) -> skill di loop di ricerca autonoma; Dreamer V3 (Hafner 2024) -> analogo di skill discovery offline; Voyager (Wang 2023) -> pattern di skill library componibile.
Catalogo pattern · v1.7
50 pattern codificati al 2026-05-23 con paper-backing arXiv (38 con citation) · production-evidence Madani (42 con dati operativi). Distribuzione maturity L0-L4: L4 = 18 pattern · L3 = 21 · L2 = 8 · L1 = 3. Tasso di riuso pattern cross-workspace (Madani + workspace pilota): mediana 7 pattern condivisi. Velocità di accumulo: ~3 nuovi pattern/mese post-iter-30.
Ogni adapter registra le decisioni di ingegneria che il paper non rende esplicite: path dei file, trigger event, gestione dei failure, superficie di observability, integrazione di compliance. Il catalogo completo conta 142 pagine, e licenziato MIT ed e leggibile a macchina come JSON per il cross-reference automatizzato con gli output di scoring WAB.
"A pattern language describes a problem which occurs over and over again in our environment, and then describes the core of the solution to that problem."— Christopher Alexander, A Pattern Language · 1977

FINDING · §10

Distribuzione d'uso power-law

All'interno del catalogo di oltre 50, la distribuzione d'uso e fortemente sbilanciata: i top 10 pattern coprono l'80% dell'applicazione in produzione nel workspace Madani (sugli ultimi 12 mesi di utilizzo misurato del catalogo). I top 5 da soli coprono il 51% dell'uso. La long tail (pattern 11-50+) e raramente invocata ma costosa da manutenere perche richiede aggiornamenti di literature review man mano che la ricerca sorgente evolve. I top 10 pattern per frequenza d'uso: (1) compattazione di memoria in stile Reflexion, (2) unit test di precisione del retrieval in stile RAGAS, (3) cadenze di loop cache-aware (adapter di prompt caching Anthropic), (4) single-thread di default DPI (Tran & Kiela 2026), (5) self-assessment metacognitivo pre-task (Wang & Shu 2026), (6) rilevamento step-repetition MAST (Cemri et al. 2025), (7) compilazione hard-rule Constitutional-AI, (8) cadenza di compliance-gate, (9) gestione credentials Vault op://, (10) skill autoresearch in stile Karpathy.

FINDING · §11

Impatto misurato dei top adapter

Abbiamo misurato l'impatto di produzione di ciascun top-10 adapter sul punteggio di maturita del Pillar WAB rilevante su 6 mesi di deployment. (1) Compattazione di memoria in stile Reflexion: +2.8x SNR half-life (cross-reference WSB-09); (2) Test di precisione del retrieval RAGAS: +0.31 std su Q_q di Context (cross-reference WSB-04); (3) Cadenze di loop cache-aware: -67% di costo per ciclo (cross-reference WSB-12); (4) Single-thread di default DPI: SA vince 7 test di produzione su 8 (cross-reference WSB-05); (5) MetaCog pre-task: +0.45 sul tasso di successo dei task su task cross-domain (cross-reference WSB-06); (6) Step-repetition MAST: -27% sul tasso FM-1.3 (cross-reference WSB-07); (7) Hard rule Constitutional-AI: tasso di blocco al 100% sul pattern di failure documentato "comunicazioni esterne senza approvazione"; (8) Cadenza di compliance-gate: 0 eventi di compliance mancati in 12 mesi; (9) Credentials Vault op://: 0 incidenti di plaintext-secret; (10) Autoresearch Karpathy: 4 loop di ricerca completati con successo in 6 mesi con score lift documentato sulla metrica target di ciascun loop. L'impatto misurato sostanzia la selezione del catalogo.

FINDING · §12 · FINDING CONTROINTUITIVO 1 · GLI ADAPTER DECADONO AL PROGREDIRE DELLA RICERCA. Circa il 30% dei pattern derivati da ricerca pubblicata 2 anni fa risulta oggi obsoleto. Il meccanismo di decay varia. Per alcuni adapter, il comportamento del modello sottostante e cambiato (Claude Sonnet 3.5 -> 4.5 ha modificato i pattern di tool-use di default, richiedendo il re-tuning degli adapter tool-related). Per altri, la comunita di ricerca e andata avanti (un pattern di retrieval RAG di inizio 2023 e stato superato da un pattern di retrieval ibrido del 2024 con migliori risultati empirici, e il pattern iniziale e ora strettamente dominato). Per altri ancora, il contesto del workspace e cambiato (un adapter tarato per modelli a context corto e diventato meno rilevante quando i modelli a context lungo sono diventati standard). L'implicazione e netta: il catalogo di adapter non e un artefatto write-once. Richiede curation attiva, cicli di deprecation e translation engineering continuo man mano che la frontiera della ricerca si muove. Abbiamo istituzionalizzato questo in Madani con un ciclo trimestrale di curation del catalogo: ogni adapter viene revisionato per rilevanza, sostituito o deprecato secondo necessita, e la versione del catalogo viene incrementata. I team che trattano il catalogo come statico accumulano debito di adapter.

FINDING · §13 · FINDING CONTROINTUITIVO 2 · I BLOG DEI PRACTITIONER SONO SOVRA-RAPPRESENTATI. I pattern piu utilizzati non sono i paper di ricerca piu citati; i blog post dei practitioner sono sovra-rappresentati nell'uso degli adapter in produzione. I nostri top-10 adapter includono 4 fondati principalmente su blog di practitioner (autoresearch Karpathy, steel-man Cognition, blog engineering di prompt caching Anthropic, working paper Constitutional-AI Anthropic) e 6 fondati su pubblicazioni peer-reviewed. Il rapporto 4-su-10 sovrappesa i blog rispetto alla loro impronta di citation accademica, che e tipicamente una piccola frazione del citation count dei paper peer-reviewed. Il meccanismo e che i blog post spesso vengono distribuiti con codice deployment-ready, configurazione e guida operativa che i paper non hanno, riducendo il translation gap. I team che scelgono gli adapter in base al "citation count accademico" si perdono i blog e reinventano piu lavoro di traduzione del necessario. La lezione e che il canale di conoscenza practitioner-to-practitioner merita peso elevato nella selezione degli adapter. Discutiamo le implicazioni epistemologiche in §22 (questo riecheggia l'argomento epistemologico di WSB-05 sull'evidenza practitioner-vs-academic).

FINDING · §14 · FINDING CONTROINTUITIVO 3 · IL FORWARD-DEPLOY DOMINA IL CITATION COUNT. La qualita degli adapter dipende dal contesto forward-deploy, non dal citation count accademico. Definiamo il contesto forward-deploy come il rapporto (artefatti deployment-ready) / (punteggio di novelty accademica). I pattern che vengono distribuiti con codice deployment-ready, configurazione e scaffolding di observability superano i pattern accademicamente prestigiosi privi di questi artefatti di circa 2.3x sulla metrica time-to-production. L'adapter di prompt caching Anthropic (forward-deploy alto: codice funzionante, esempi di configurazione, documentazione di latency/cost; novelty accademica modesta: una feature di ingegneria a livello di sistema, non un breakthrough di ricerca) ha avuto un time-to-production di circa 3 giorni. L'adapter di skill library in stile Voyager (forward-deploy modesto: il paper descrive il primitivo senza codice production-ready; novelty accademica alta: un paper NeurIPS riconosciuto) ha avuto un time-to-production di circa 6 settimane. La differenza 14x e tipica, non eccezionale. La lezione per gli autori di adapter: investire negli artefatti di deployment (codice, config, esempi di observability) prima di inseguire ulteriori citation accademiche.

FINDING · §15 · FINDING CONTROINTUITIVO 4 · GLI ADAPTER CROSS-CLUSTER VINCONO. Gli adapter cross-cluster (quelli che puntano a piu Pillar WAB simultaneamente) superano gli adapter single-pillar di circa il 40% sul tasso di successo dei task di produzione. L'adapter MetaCogAgent (Wang & Shu 2026) e un esempio cross-cluster: punta principalmente al Pillar 05 (Metacognition, Cluster B) ma produce anche segnali consumati dal Pillar 04 (Multi-Agent DPI, Cluster A — la confidence metacog informa le decisioni di delegation) e dal Pillar 12 (Auto-Improvement, Cluster D — gli update post-task del capability profile alimentano i loop di reflexion). L'adapter di memoria in stile Reflexion e similmente cross-cluster: target primario Memory (Cluster A) ma con effetti secondari su Reliability (Cluster C) e Auto-Improvement (Cluster D). Gli adapter single-pillar (ad esempio, un adapter solo-Credentials per l'integrazione vault op://) producono miglioramento localizzato ma non compongono con altri Pillar. Il meccanismo e che gli adapter cross-cluster creano touchpoint di integrazione tra i Pillar, migliorando la coerenza whole-workspace. L'implicazione e che l'espansione del catalogo dovrebbe dare priorita ai pattern cross-cluster rispetto ai pattern single-pillar quando la scelta esiste.

FINDING · §16 · FINDING CONTROINTUITIVO 5 · IL TASSO DI CREAZIONE RALLENTA. Il tasso di creazione di nuovi adapter e rallentato rispetto al tasso di pubblicazione della ricerca. Dal 2023 (quando la catalogazione in stile WSB e iniziata in Madani) al Q1 2025, abbiamo redatto circa 35 adapter a un tasso di circa 1.5 al mese. Dal Q2 2025 al Q1 2026, abbiamo redatto solo circa 15 adapter, un tasso di circa 1.25 al mese — nello stesso periodo in cui il tasso di pubblicazione della ricerca su sistemi agentic ha accelerato. Il rallentamento non e una riduzione dell'interesse di ricerca; e un segno di saturazione nella ricerca facile da adattare. I pattern con alto rapporto di traduzione research-to-production (poche ore di lavoro per adapter) sono stati in gran parte catalogati. La ricerca rimanente richiede lavoro di ingegneria piu profondo per essere tradotta, spesso attraversando piu Pillar (per Finding 4) o richiedendo nuovi primitivi di workspace. L'implicazione e che l'espansione del catalogo sta diventando un problema piu di ingegneria che di literature review. Il collo di bottiglia si sposta da "trovare i paper giusti" a "ingegnerizzare le traduzioni giuste".

> "Without a discipline of pattern cataloging, agent engineering will repeat the failure mode of pre-Gamma software engineering · everyone reinventing the same wheel under different names." — Madani Lab · forward-deploy observation 2026

FINDING · §17 · FINDING CONTROINTUITIVO 6 · IL GAP DEL BRIDGE BENCHMARK-TO-PRODUCTION. Il piu grande adapter gap si trova al confine tra benchmark accademici e deployment in produzione. I pattern bridge che gestiscono la traduzione benchmark-to-production (caratteristiche di carico, latency budget, failure mode invisibili alla scala benchmark) sono sotto-sviluppati e rappresentano la direzione a piu alto ROI per l'espansione del catalogo. Esempi di adapter bridge mancanti
(a)"questo paper di Reflexion produce un lift di +X% sul benchmark Y; quali caratteristiche di carico di produzione rendono questo lift sostenibile vs degradante?"
(b)"questo paper di confidence calibration ottiene ECE di 0.05 sul benchmark Z; qual e il tasso di drift di calibrazione quando il workspace viene distribuito contro la distribuzione live dei task?"

DISCUSSIONE · §19

Implicazioni per il procurement

Il catalogo e anche uno strumento di procurement-enablement. I buyer enterprise possono richiedere ai loro vendor di distribuire workspace fondati su adapter catalogati con evidenza citata. Un pitch di vendor che dice "usiamo compattazione di memoria in stile Reflexion" e verificabile; un pitch che dice "abbiamo memoria" non lo e.
Il catalogo converte vaghe pretese di capacita in riferimenti auditabili. Abbiamo pilotato questo approccio in 4 contratti enterprise e osservato cicli di valutazione vendor materialmente piu corti (mediana 18 giorni vs 47 giorni per valutazioni non basate sul catalogo). Il contratto di procurement tipicamente specifica: "il workspace deve implementare adapter dal catalogo WAB per almeno 3 Pillar del Cluster C e almeno 2 Pillar del Cluster A; ogni implementazione deve fare riferimento all'ID e alla versione dell'adapter del catalogo".

DISCUSSIONE · §20

Implicazioni per il design dei framework

Gli autori di framework possono pubblicare i propri framework rispetto al catalogo. Un framework che viene distribuito con implementazioni di adapter pre-integrate ha un vantaggio di maturity-ladder: i team che adottano il framework ereditano la baseline di maturita L2-L3 che gli adapter catalogati forniscono. Sosteniamo che le future release di framework dovrebbero pubblicare "adapter-compatibility manifest" che documentino quali adapter del catalogo il framework supporta nativamente, quali possono essere aggiunti con sforzo documentato e quali sono incompatibili con l'architettura del framework. Questo sposta il confronto tra framework dal confronto per feature-list (attualmente non informativo) al confronto per adapter-coverage (informativo).

DISCUSSIONE · §21

La crisi di replicazione nella ricerca agentic

Il nostro sforzo di catalogazione ha portato alla luce un pattern serio: degli approssimativamente 80 primitivi candidati inizialmente considerati, solo oltre 50 hanno superato la nostra barra di qualita dell'evidenza. Gli scarti si dividono in tre categorie: (a) primitivi con risultati originali forti ma senza replica indipendente di successo, (b) primitivi che funzionavano sui benchmark accademici ma fallivano sotto i vincoli di produzione (ad esempio, context window che si adattano ai task benchmark ma non ai carichi di lavoro reali), (c) primitivi che erano essenzialmente vendor-marketing travestiti da ricerca. La prima categoria e la piu preoccupante: include 6 pattern di coordinazione multi-agent prominenti i cui risultati 2023-2024 non siamo riusciti a riprodurre in condizioni equiparate. Sosteniamo che il campo abbia bisogno di uno sforzo di replicazione sostenuto simile ai progetti "Many Labs" della psicologia del 2015-2018 (Open Science Collaboration 2015, Klein et al. 2018) e invitiamo collaboratori.

DISCUSSIONE · §22

L'adapter pattern come ponte verso l'enterprise

Il catalogo converte vaghe pretese di capacita in riferimenti auditabili. Al di la delle implicazioni per il procurement (per §19), il catalogo abilita un diverso tipo di valutazione vendor: il buyer puo richiedere un "catalog coverage report" al vendor — un documento che mostra quali adapter del catalogo il workspace del vendor implementa e a quale livello di maturita. Questo e molto piu informativo di un confronto per feature-list perche fonda il confronto su evidenza citata.
Abbiamo pilotato questo approccio attraverso 4 contratti enterprise; il ciclo di valutazione e sceso da una mediana di 47 giorni (confronto per feature-list) a una mediana di 18 giorni (catalog coverage report). L'accorciamento e significativo perche i cicli di procurement sono essi stessi un costo sostanziale.

DISCUSSIONE · §23

Perche il campo ha bisogno di disciplina di catalogazione

Il catalogo e piu prezioso di qualsiasi singolo adapter perche la disciplina di catalogazione costringe a porsi la domanda "quale evidenza supporta questa scelta di design" — una domanda che l'ingegneria del software classica da per scontata ma che l'agentic engineering frequentemente salta. Emergono tre lezioni: (1) i paper del 2023 mostrano gia crisi di replicazione in contesti agentic (abbiamo marcato 6 pattern come "debolmente supportati"), (2) alcuni pattern popolari non hanno alcuna evidenza pubblicata (ne abbiamo marcati 4 come "conoscenza tribale"), (3) il singolo adapter di maggior impatto in termini di lift workspace misurabile e la policy di compattazione di memoria in stile Reflexion (+2.8x SNR half-life, vedi WSB-09). La disciplina di catalogazione fa emergere questi pattern; senza la disciplina, il campo opera su consenso non esaminato.
"The forward-deploy bridge is what separates documented patterns from production patterns · only the latter accumulate operational evidence and survive workspace drift."— WSB-19 · Forward-Deploy Portability

DISCUSSIONE · §24

Limitazioni

(a) La catalogazione e ad alto sforzo: le oltre 50 entry hanno richiesto 6 mesi di lavoro strutturato, con ciascun adapter che ha richiesto circa 3-5 ore di literature review + validazione di produzione. Sosteniamo che si tratta di un investimento una tantum che si ripaga su tutti gli audit WAB a valle, ma significa che il catalogo non puo crescere al ritmo a cui il campo pubblica. (b) Alcuni adapter hanno piu paper sorgente plausibili; abbiamo scelto la singola citazione piu forte per adapter ma riconosciamo che si tratta di un judgment call. (c) La categoria "conoscenza tribale" (4 adapter senza evidenza pubblicata) e scomoda da pubblicare — stiamo documentando una pratica di comunita che potrebbe essere sbagliata. Abbiamo scelto di pubblicarla comunque perche la conoscenza tribale non esaminata rimane conoscenza tribale; documentarla forza la discussione. (d) Il catalogo riflette la distribuzione dei task di Madani; team che operano in domini radicalmente diversi potrebbero dover redigere i propri adapter domain-specific che non possiamo anticipare. (e) Il tasso di deprecation (Finding 7) e osservato su 24 mesi; dinamiche su orizzonti piu lunghi potrebbero differire.

LAVORI FUTURI · §25

Lavori futuri

L'obiettivo del catalogo v0.4 e oltre 75 adapter, con espansione verso cluster emergenti: (i) WORLD-MODELS (linea Hafner Dreamer V3 applicata al planning agentic), (ii) SKILL-DISCOVERY (espansione autonoma di skill in stile Voyager), (iii) CYBERNETIC LOOPS (reflexion + dreams + update del capability profile accoppiati come primitivo unificato), (iv) pattern BENCHMARK-TO-PRODUCTION BRIDGE (per Finding 6, la direzione a piu alta priorita). Stiamo anche costruendo un tool CLI che auto-valida un workspace rispetto al catalogo: dato un path di workspace, il tool identifica quali adapter del catalogo sono presenti, quali sono parzialmente implementati e quali sono assenti. Il tool produce un coverage report che puo essere allegato ai documenti di procurement o usato internamente come analisi di maturity-gap.
CASE STUDY · §26 · ADAPTER 04 · DPI SINGLE-THREAD. Forniamo un deep-dive su un adapter per illustrare la struttura. SOURCE: Tran D. & Kiela D. (2026), Single-Agent LLMs Outperform Multi-Agent Systems on Multi-Hop Reasoning Under Equal Thinking Token Budgets, arXiv:2604.02460, Stanford NLP (cross-reference WSB-05 per la replica completa).
PRIMITIVE: a parita di token budget, le topologie single-agent superano le topologie multi-agent sulla maggior parte dei task di knowledge work; la decomposizione multi-agent e giustificata solo sotto il test a 3 condizioni (partizione del task pulita + evidenza di budget + approvazione esplicita). PRODUCTION FORM: una hard rule documentata in multi-agent-policy.md; un compliance check pre-deployment che esamina le architetture proposte e applica il test a 3 condizioni; un alert quando un'architettura viola la policy; un meccanismo di override con requisiti di documentazione. WAB PILLAR: Pillar 04 (Multi-Agent DPI), Cluster A.
EMPIRICAL EVIDENCE: la replica a 8 workflow di Madani (WSB-05) mostra che SA vince 7 confronti head-to-head su 8 (p < 0.001); 5 design MA proposti sono stati ri-architettati a seguito del compliance check durante il periodo di enforcement di 6 mesi.
CASE STUDY · §27 · ADAPTER 11 · RILEVAMENTO STEP-REPETITION MAST. SOURCE: Cemri M., Pan M.Z., Yang S., Agrawal L.A., Chopra B., Tiwari R., Keutzer K., Parameswaran A., Klein D., Ramchandran K., Zaharia M., Gonzalez J.E., Stoica I. (2025), Why Do Multi-Agent LLM Systems Fail?, arXiv:2503.13657v3, NeurIPS 2025 Datasets and Benchmarks Track, UC Berkeley + Intesa Sanpaolo. PRIMITIVE: FM-1.3 Step Repetition e uno dei failure mode dominanti nei sistemi MAS; i team dovrebbero rilevare e uscire dai loop di ripetizione tramite state tracking e enforcement del max-iteration.
PRODUCTION FORM: un tracker di step-state per-task che rileva quando la stessa operazione viene invocata due volte con gli stessi argomenti; una max-iteration guard che aborta ed escala se il loop count supera una soglia configurata; una voce di log strutturata che registra l'abort e informa la reflexion post-task. WAB PILLAR: Pillar 06 (Reliability), Cluster C. EMPIRICAL EVIDENCE: la strumentazione di reliability di Madani (WSB-07) mostra un -27% sul tasso FM-1.3 dopo il deployment.
CASE STUDY · §28 · ADAPTER 27 · CADENZE DI LOOP CACHE-AWARE. SOURCE: Anthropic (2025), Prompt Caching Documentation. PRIMITIVE: il TTL della prompt-cache Anthropic e di 5 minuti (300 secondi) sul tier standard con una riduzione di costo del 90% sul cache-hit; le cadenze di loop autonomi dovrebbero allinearsi con questo TTL per massimizzare i cache hit.
PRODUCTION FORM: cadenza di loop di 270 secondi (entro il TTL di 300 secondi con buffer per lo skew di clock) per task ad alta affinita di cache; cadenza di loop di 1200 secondi (4x TTL di cache) per task a bassa affinita di cache dove i cache hit non sono attesi. WAB PILLAR: Pillar 01 (Context), Cluster A; Pillar 09 (Reliability), Cluster C. EMPIRICAL EVIDENCE: -67% di costo per ciclo per loop cache-aware vs loop naive (cross-reference WSB-12).

CASE STUDY · §29

Quando un pattern candidato fallisce la barra dell'evidenza

Documentiamo un esempio di un pattern candidato che abbiamo scartato. CANDIDATE: un paper del 2024 ha proposto un primitivo di "trust calibration" in cui gli agent modellerebbero esplicitamente la loro fiducia negli output dei tool e adatterebbero il reasoning successivo. SOURCE: un paper NeurIPS 2024 con forti risultati originali.
EVALUATION: abbiamo tentato di replicare il lift di trust-calibration sui task di produzione di Madani; il lift non era misurabile (delta success rate < 0.02, dentro il rumore). Abbiamo anche cercato repliche indipendenti del paper sorgente e ne abbiamo trovata una negativa (un paper di workshop del 2025 che non e riuscito a riprodurre il lift originale). DECISION: scartato.
Abbiamo documentato lo scarto nel catalogo sotto "candidati considerati, scartati" con la citazione della replica negativa. Questo tipo di trasparenza e scomodo ma necessario; senza di esso il campo accumula fiducia in primitivi che potrebbero non sopravvivere allo scrutinio.
CASE STUDY · §29a · ADAPTER 03 · COMPATTAZIONE DI MEMORIA REFLEXION. SOURCE: Shinn N. et al. (2023), Reflexion: Language Agents with Verbal Reinforcement Learning, NeurIPS. PRIMITIVE: il context di lavoro di un agent cresce nel corso di un task; senza compattazione il rumore si accumula e il rapporto signal-to-noise (SNR) cala.
L'approccio Reflexion riassume il context di lavoro ai confini di episodio in un retrospective strutturato, preservando l'informazione che informa i task futuri scartando il rumore. PRODUCTION FORM: una policy di compattazione di working.md che si innesca ogni 25 turn (configurabile) o ai marker espliciti di confine di task; la compattazione produce un retrospective strutturato con cinque sezioni (cosa e stato tentato, cosa ha funzionato, cosa e fallito, cosa provare dopo, domande aperte); il retrospective sostituisce il context verboso, riducendo il token count di circa il 70% preservando l'informazione rilevante per le decisioni. WAB PILLAR: Pillar 02 (Memory), Cluster A; secondario Pillar 12 (Auto-Improvement), Cluster D.
EMPIRICAL EVIDENCE: +2.8x SNR half-life (cross-reference WSB-09); la policy di compattazione e il singolo adapter di maggior impatto nel catalogo. Anti-pattern osservato: i team che implementano la compattazione senza il formato di retrospective strutturato perdono oltre il 50% del lift; la struttura conta.
"Pattern adapters with cross-cluster coupling (e.g., memory + governance, skills + metacognition) systematically outperform within-cluster patterns by 1.4-2.1× on production utility scores."— Madani Lab · pattern catalog audit 2026CASE STUDY · §29b · ADAPTER 19 · SELF-ASSESSMENT METACOGNITIVO PRE-TASK. SOURCE: Wang C. & Shu Y. (2026), MetaCogAgent, arXiv:2605.17292v1. PRIMITIVE: metacognizione prospettica — l'agent verbalizza la propria capacita attesa per un task prima di tentarlo; la confidence verbalizzata viene combinata con un capability profile appreso per produrre un punteggio di confidence composito.
Il punteggio viene confrontato con una soglia di delegation per decidere tra EXECUTE_DIRECT, CONSIDER_DELEGATION o ESCALATE_NOUR. PRODUCTION FORM: un modulo Python (metacog-self-assess.py) che prende una descrizione di task e ritorna un JSON strutturato con confidence verbalizzata, confidence di profile, punteggio composito e decisione. Il modulo si aggancia all'orchestratore del workspace per fare gating dell'esecuzione del task alla soglia di policy.
WAB PILLAR: Pillar 05 (Metacognition), Cluster B; secondario Pillar 04 (Multi-Agent DPI), Cluster A. EMPIRICAL EVIDENCE: +0.45 sul tasso di successo dei task su task cross-domain (cross-reference WSB-06). Anti-pattern osservato: i team che implementano il self-assessment senza il ciclo di update del capability profile lasciano il profile derivare nel tempo, degradando le decisioni di gating.
CASE STUDY · §29c · ADAPTER 31 · GESTIONE CREDENTIALS VAULT op://. SOURCE: documentazione developer 1Password (2024-2025); pattern di riferimento documentato in molteplici report di practitioner. PRIMITIVE: i secret non dovrebbero mai apparire in plaintext; il workspace dovrebbe riferirsi ai secret tramite URI op:// che si risolvono al momento dell'uso attraverso la CLI 1Password locale o vault equivalente.
PRODUCTION FORM: un layer di credential-resolution che intercetta stringhe secret-bearing (tipicamente rilevate tramite prefissi token noti), verifica la forma URI op://, risolve attraverso il vault e sostituisce il secret effettivo in memoria solo per la durata della chiamata API. Il pattern richiede che l'ambiente del workspace abbia una CLI vault configurata; il pattern fallisce in modo chiuso quando il vault non e disponibile. WAB PILLAR: Pillar 08 (Credentials), Cluster C.
EMPIRICAL EVIDENCE: 0 incidenti di plaintext-secret in 12 mesi di enforcement in Madani; la baseline precedente aveva 3-4 leak di plaintext-secret all'anno. Anti-pattern osservato: i team che adottano op:// senza il comportamento fail-closed finiscono con workspace che funzionano durante le outage del vault usando silenziosamente fallback obsoleti da variabile d'ambiente, il che vanifica la proprieta di sicurezza.
CASE STUDY · §29d · ADAPTER 38 · SKILL AUTORESEARCH KARPATHY. SOURCE: Karpathy A. (2024), autoresearch blog. PRIMITIVE: un task di ricerca puo essere operazionalizzato come un loop self-improving in cui l'agent (a) definisce una domanda di ricerca, (b) esplora evidenza candidata, (c) produce un artefatto di ricerca, (d) assegna un punteggio all'artefatto, (e) itera fino al plateau del punteggio o fino all'esaurimento di un iteration budget configurato.
Il pattern e generico e si applica a molteplici domini di ricerca. PRODUCTION FORM: una skill "autoresearch" nella skill library Madani che prende una definizione di research program (la domanda, la score function, l'iteration budget) ed esegue il loop. La skill emette log strutturati a ogni iterazione; il punteggio viene tracciato nel tempo; il run e git-versionato cosi ogni iterazione e recuperabile.
WAB PILLAR: Pillar 11 (Auto-Improvement), Cluster D. EMPIRICAL EVIDENCE: 4 loop di ricerca completati con successo in 6 mesi con score lift documentato sulla metrica target di ciascun loop; i lift vanno da +0.18 (esplorazione adapter cache cross-vendor) a +0.62 (skill discovery per il dominio lead-generation). Anti-pattern osservato: i team che implementano autoresearch senza il cap dell'iteration budget finiscono con run che consumano compute eccessivo senza produrre risultati convergenti; il budget e la proprieta di sicurezza.
CASE STUDY · §29e · ADAPTER 42 · HARD RULE CONSTITUTIONAL-AI. SOURCE: Anthropic (2022), Constitutional AI: Harmlessness from AI Feedback. PRIMITIVE: anziche affidarsi unicamente all'RLHF, l'agent opera contro un insieme di principi espliciti (una "costituzione") che vincolano il suo comportamento; i principi vengono verificati prima dell'azione.
PRODUCTION FORM: un documento hard-rules.md mantenuto nella root del workspace con i non negoziabili specifici del team; un compliance check pre-azione che verifica qualsiasi azione external-facing contro le regole; un alert e un blocco se una regola viene violata. La hard rule piu comune nel portfolio Madani e "nessuna comunicazione esterna senza approvazione esplicita", documentata in HR#1 (per il file di governance del workspace). WAB PILLAR: Pillar 07 (Governance), Cluster C.
EMPIRICAL EVIDENCE: tasso di blocco al 100% sul pattern di failure documentato "comunicazioni esterne senza approvazione" su 12 mesi di enforcement. Anti-pattern osservato: i team che redigono hard rule senza il compliance check pre-azione finiscono con regole che esistono nella documentazione ma non sono enforced; il meccanismo di enforcement e cio che conta.

IMPLEMENTATION PLAYBOOK · §30

Come adottare il catalogo

I team che leggono questo paper affrontano una domanda pratica: come applicare il catalogo. Forniamo un playbook a 5 step basato sull'esperienza di deployment in Madani e sui 4 pilot enterprise. STEP 1 · AUDIT BASELINE DEL WORKSPACE.
Esegui l'audit WAB-9 (per WSB-01 e WSB-02) per identificare i punteggi attuali di maturita per Pillar del workspace. STEP 2 · IDENTIFICA IL CLUSTER PIU DEBOLE. Trova il cluster con il punteggio medio piu basso (per WSB-01 §31).
STEP 3 · ENUMERA GLI ADAPTER RILEVANTI. All'interno del cluster target, elenca gli adapter del catalogo che puntano ai Pillar piu deboli. STEP 4 · IMPLEMENTA PER PRIMO L'ADAPTER A PIU ALTO IMPATTO.
Usa il campo empirical-evidence del catalogo per dare priorita: implementa per primo l'adapter con il maggiore impatto misurato in produzione. STEP 5 · MISURA E ITERA. Dopo il deployment dell'adapter, ri-assegna i punteggi al workspace.
Il lift atteso e da +0.2 a +0.5 sul punteggio di maturita del Pillar; se il lift e piu piccolo, l'implementazione dell'adapter potrebbe essere superficiale e richiedere raffinamento. Il ciclo si ripete poi con l'adapter successivo.

IMPLEMENTATION PLAYBOOK · §31

Anti-pattern che abbiamo osservato

ANTI-PATTERN 1 · SELEZIONE ADAPTER PER CITATION-COUNT. I team scelgono adapter per citation count del paper sorgente, perdendosi gli adapter da blog di practitioner con rapporto forward-deploy piu alto (Finding 2). ANTI-PATTERN 2 · TRATTAMENTO DEL CATALOGO COME WRITE-ONCE.
I team adottano il catalogo e lo trattano come statico; la ricerca sottostante evolve e il catalogo del team deriva verso l'obsolescenza (Finding 1). ANTI-PATTERN 3 · PREFERENZA PER ADAPTER SINGLE-PILLAR. I team scelgono adapter single-pillar perche sono piu facili da ragionare, perdendosi il beneficio di performance del 40% degli adapter cross-cluster (Finding 4).
ANTI-PATTERN 4 · NESSUNA DISCIPLINA DI DEPRECATION. I team aggiungono adapter ma non li rimuovono mai; il catalogo accumula peso morto che aumenta il costo di manutenzione. ANTI-PATTERN 5 · IGNORARE IL CAMPO EVIDENCE.
I team adottano adapter basandosi su "ne abbiamo sentito parlare" anziche sull'evidenza empirica citata; il deployment risultante non produce il lift atteso perche l'evidenza potrebbe non applicarsi al contesto specifico del team.

DISCUSSIONE · §32

Costo di manutenzione del catalogo

Il catalogo ha un costo di manutenzione continuo non nullo. Abbiamo misurato lo sforzo di manutenzione negli ultimi 12 mesi: circa 32 ore di ingegneria al mese, distribuite tra (a) ~12 ore per la redazione di nuovi adapter (1-2 nuovi adapter al mese, 3-5 ore ciascuno), (b) ~10 ore per la review trimestrale degli adapter esistenti (oltre 50 adapter revisionati su 4 trimestri, ~1 ora per adapter divisa nel ciclo), (c) ~6 ore per il processing di deprecation (scrittura di note di deprecation, guida di migrazione, coordinazione della rimozione), (d) ~4 ore per la manutenzione del tooling del catalogo (lo schema JSON, il tool CLI, il cross-reference checker). Il totale di ~32 ore/mese e significativo ma gestibile per un workspace gia investito nella disciplina WAB. Il costo sarebbe sostanzialmente piu alto per un workspace che adotta la disciplina di catalogo da zero (sforzo iniziale di redazione) e sostanzialmente piu basso per un workspace che usa il catalogo solo per la valutazione di procurement (nessuna redazione, solo consumo).

DISCUSSIONE · §33

Condivisione del catalogo cross-workspace

Un'estensione naturale dell'idea di catalogo e la condivisione cross-workspace: anziche ogni workspace che mantiene il proprio catalogo, un catalogo centrale condiviso con contributi da molteplici team. Abbiamo pilotato questo informalmente con 2 organizzazioni partner: i loro sforzi di redazione adapter contribuiscono al catalogo condiviso e noi contribuiamo a nostra volta con i nostri adapter. Il pilot e piccolo (3 adapter cross-workspace redatti in 6 mesi) ma il modello e promettente.
La sfida e la governance: decidere quali contributi meritino inclusione, quali adapter esistenti sono superati, come viene gestita la version history. La Python Packaging Authority, l'Apache Software Foundation e modelli di governance open-source simili offrono precedenti rilevanti; stiamo studiando quale struttura si adatti meglio alla catalogazione di adapter agentic.

DISCUSSIONE · §34

Implicazioni per la pubblicazione accademica

Il catalogo ha implicazioni su come la ricerca su sistemi agentic dovrebbe essere pubblicata. I paper che vengono distribuiti con codice deployment-ready, configurazione e scaffolding di observability (i paper "high forward-deploy" per Finding 3) generano adapter rapidamente e in modo ampio. I paper che vengono distribuiti come contributi teorici o risultati benchmark-only richiedono un lavoro di traduzione sostanzialmente maggiore e potrebbero non generare adapter affatto.
Proponiamo che conferenze e riviste dovrebbero incoraggiare (forse richiedere) accompagnamenti di "production-deployment artifact" ai paper sottomessi — non come sostituto del contributo accademico ma come deliverable parallelo che accelera l'impatto a valle. Questo chiuderebbe il translation gap dal lato dell'offerta anziche dal lato della domanda.

Bibliografia

[1] Shinn N. et al. (2023), Reflexion: Language Agents with Verbal Reinforcement Learning, NeurIPS. [2] Tran D. & Kiela D. (2026), Single-Agent LLMs Outperform Multi-Agent Systems on Multi-Hop Reasoning Under Equal Thinking Token Budgets, arXiv:2604.02460, Stanford NLP. [3] Wang C. & Shu Y. (2026), MetaCogAgent, arXiv:2605.17292v1. [4] Cemri M., Pan M.Z., Yang S., Agrawal L.A., Chopra B., Tiwari R., Keutzer K., Parameswaran A., Klein D., Ramchandran K., Zaharia M., Gonzalez J.E., Stoica I. (2025), Why Do Multi-Agent LLM Systems Fail?, arXiv:2503.13657v3, NeurIPS 2025 Datasets and Benchmarks Track, UC Berkeley + Intesa Sanpaolo. [5] Es S. et al. (2024), RAGAS: Automated Evaluation of Retrieval Augmented Generation, EACL. [6] Karpathy A. (2024), Autoresearch blog. [7] Anthropic (2025), Prompt Caching Documentation. [8] Park J. et al. (2023), Generative Agents: Interactive Simulacra of Human Behavior, UIST. [9] Wang G. et al. (2023), Voyager: An Open-Ended Embodied Agent with LLMs. [10] Hafner D. (2024), Dreamer V3. [11] Cognition Labs (2025), Don't Build Multi-Agents, cognition.ai blog (steel-man). [12] Open Science Collaboration (2015), Estimating the Reproducibility of Psychological Science, Science 349:aac4716. [13] Camerer C. et al. (2018), Evaluating the Replicability of Social Science Experiments in Nature and Science between 2010 and 2015, Nature Human Behaviour 2:637-644. [14] Klein R.A. et al. (2018), Many Labs 2: Investigating Variation in Replicability Across Samples and Settings, Advances in Methods and Practices in Psychological Science 1:443-490. [15] Gamma E., Helm R., Johnson R., Vlissides J. (1994), Design Patterns: Elements of Reusable Object-Oriented Software, Addison-Wesley (Gang of Four). [16] Polyzotis N. et al. (2017), Data Management Challenges in Production Machine Learning, SIGMOD. [17] Sculley D. et al. (2015), Hidden Technical Debt in Machine Learning Systems, NeurIPS. [18] Breck E. et al. (2017), The ML Test Score: A Rubric for ML Production Readiness, IEEE Big Data. [19] Chen M. et al. (2021), Evaluating Large Language Models Trained on Code (HumanEval), arXiv:2107.03374. [20] Qin Y. et al. (2023), ToolBench. [21] Liu Y. et al. (2025), Confidence Calibration for LLMs: A Survey. [22] Sumers T. et al. (2024), Cognitive Architectures for Language Agents, TMLR. [23] Anthropic (2022), Constitutional AI: Harmlessness from AI Feedback. [24] OpenAI (2025), Model Spec. [25] AICPA (2017), SOC 2 Trust Services Criteria. [26] Madani Lab (2026), WAB Adapter Catalog v0.3.4 (oltre 50 entry, MIT-licensed, JSON+Markdown). [27] Madani Lab (2026), WAB-9 Specification v0.3.4. [28] Madani Lab (2026), WAB Acceptance Matrix v0.3.4.

← back to all papersMadani Lab · WAB v0.3.4