Abstract
Il context engineering — la disciplina della costruzione del contesto di input fornito a un agent LLM — è emerso come la competenza a più alta leva nell'agentic engineering, eppure è priva di una teoria quantitativa. I praticanti ottimizzano il contesto "a sentimento", bilanciando dimensione dei chunk, precisione del retrieval, struttura del prompt e recall della memoria attraverso prove ed errori. Sosteniamo che questo empirismo lasci sul tavolo un ordine di grandezza di performance perché manca un'unica variabile maestra rispetto a cui ottimizzare. Questo paper introduce α = Q × Q (quantity × quality), una variabile maestra information-theoretic derivata dal teorema della mutual information di Shannon del 1948, applicata all'astrazione workspace-as-channel. La variabile α è operativamente semplice: uno scalare che riassume quanta informazione utilizzabile il contesto del workspace fornisce per il task dell'agent. La variabile α è teoricamente fondata: deriva dalla Data Processing Inequality e dal bound della mutual information sul successo del task. La variabile α è empiricamente validata: R^2 = 0,78 nel predire il successo del task su 142 task di produzione in Madani. Portiamo alla luce SETTE sotto-risultati controintuitivi
- (a)α È NON-MONOTONA OLTRE I 30K TOKEN — più contesto DANNEGGIA quando il rapporto segnale-rumore è basso; il comportamento di saturazione è in tensione con l'istinto "stipa di più nella context window" dominante nei modelli a prezzo di cache
- (b)LA DIMENSIONE DI QUALITÀ Q_q CONTA PIÙ DELLA DIMENSIONE DI QUANTITÀ Q_n DI UN FATTORE DI CIRCA 2,3X NELLA NOSTRA REGRESSIONE — l'intuizione dei praticanti tipicamente inverte questo ranking
- (d)IL RETRIEVAL PESATO PER SALIENZA CON K=8 SUPERA IL PASS COMPLETO DELLA WINDOW DA 200K DI 0,34 DEVIAZIONI STANDARD A 1/4 DEL COSTO — l'approccio "usa semplicemente la long context window" è dominato dal retrieval classico a costo inferiore
- (f)I TASK DI PRODUZIONE HANNO UNA DISTRIBUZIONE DI α DRAMMATICAMENTE DIVERSA DAI TASK DI BENCHMARK — le distribuzioni di α dei benchmark sono asimmetriche verso Q×Q alto, quelle di produzione verso il medio, il che significa che gli interventi calibrati sui benchmark possono non trasferirsi alla produzione
INTRODUZIONE · §1
La variabile maestra mancante
Il context engineering è emerso come la competenza a più alta leva nell'agentic engineering. Le survey condotte tra agentic engineer senior collocano costantemente la "costruzione del contesto" come il singolo fattore più importante nella qualità del workspace, sopra la selezione del modello, il prompt engineering o l'integrazione dei tool. Eppure la disciplina manca di una teoria quantitativa.
I praticanti descrivono il proprio lavoro in termini qualitativi ("contesto ricco", "contesto rumoroso", "l'agent deve sapere X"), bilanciano le variabili per prove ed errori, e convergono su best practice workspace-specifiche che non si trasferiscono in modo pulito tra team. Sosteniamo che questo empirismo lasci sul tavolo un ordine di grandezza di performance perché manca un'unica variabile maestra rispetto a cui ottimizzare. Altre discipline ingegneristiche hanno tali variabili maestre: il rapporto segnale-rumore nell'ingegneria delle comunicazioni, il budget di latenza nei sistemi real-time, il prodotto throughput-costo nei sistemi distribuiti.
L'agentic context engineering ha bisogno della propria.
INTRODUZIONE · §2 · PERCHÉ SHANNON. Il framework della mutual information di Shannon (Shannon 1948, Cover & Thomas 2006) è il punto di partenza corretto perché la relazione workspace-task-output è strutturalmente un canale di Shannon: l'input (la specifica del task) fluisce attraverso un canale (la context window) per produrre output (la risposta dell'agent). Il teorema di Shannon limita superiormente il successo del task tramite la mutual information I(task; response | context), e decompone la mutual information in fattori di quantità e qualità.
L'analogia strutturale è esatta, non meramente metaforica. Sosteniamo che è per questo che l'inquadramento information-theoretic produce un potere predittivo che le euristiche ad hoc di context engineering non producono.
"In a statistical sense, communication is the reduction of uncertainty. The amount of information conveyed by an event is logarithmically related to the probability of that event."— Claude Shannon, A Mathematical Theory of Communication · 1948
INTRODUZIONE · §3
Cosa propone questo paper
Introduciamo α = Q_n × Q_q come variabile maestra per il context engineering. Q_n è la dimensione di quantità (token di contesto effettivi dopo deduplicazione e filtro per salienza); Q_q è la dimensione di qualità (l'inverso dell'entropia condizionata H(answer | context) normalizzata rispetto al baseline senza prior H(answer)). Il prodotto α è la banda informativa effettiva del canale per il task.
Abbiamo misurato α su 142 task di produzione in Madani e mostriamo R^2 = 0,78 nel predire il successo del task, dominando qualsiasi singola sotto-variabile. Portiamo poi alla luce sette sotto-risultati controintuitivi su come α si comporta nella pratica e proponiamo tre usi operativi: routing α-aware, design dei task a budget di α, valutazione dei workspace basata su α.
INFORMATION THEORY · α-divergence framework
──────────────────────────────────────────
D_α(P || Q) = (1/(α-1)) · log Σ P^α · Q^(1-α)
α = 0 → -log Σ Q (max entropy of Q)
α = 1 → KL(P || Q) (Kullback-Leibler)
α = 2 → log E_Q [P/Q]² (χ² divergence)
α = ∞ → log max P/Q (worst-case ratio)
┌──────────────────────────────────────────┐
│ workspace decision: which α matches the │
│ loss surface of your retrieval ranking? │
│ │
│ → mass-covering (small α) │
│ → mode-seeking (large α) │
│ → balanced (α ≈ 1, KL) │
└──────────────────────────────────────────┘LAVORI CORRELATI · §4
Fondamenta information-theoretic
Il framework della mutual information di Shannon (Shannon 1948) è la pietra angolare dell'ingegneria delle comunicazioni. La Data Processing Inequality (DPI; Cover & Thomas 2006, cap. 2) limita l'informazione trasferibile attraverso qualsiasi sequenza di canali. Il framework dell'Information Bottleneck (Tishby et al. 1999, Goldfeld & Polyanskiy 2020) generalizza i risultati di Shannon al machine learning, mostrando come le rappresentazioni apprese bilancino compressione e predizione. La nostra applicazione al contesto agentic è un adattamento diretto di questi risultati classici; la novità è l'operazionalizzazione su dati di workspace, non la teoria in sé.
LAVORI CORRELATI · §5
Rag e valutazione del retrieval
La letteratura sulla retrieval-augmented generation (Lewis et al. 2020, Karpukhin et al. 2020, Izacard & Grave 2021) affronta questioni correlate su come costruire il contesto a partire da un corpus. Il framework RAGAS (Es et al. 2024) fornisce una valutazione automatizzata dei sistemi RAG con metriche per la rilevanza del contesto, la fedeltà della risposta e il recall del contesto. Il nostro framework α è complementare: RAGAS misura dimensioni di qualità del retrieval; α aggrega quelle dimensioni (più altre decisioni di costruzione del contesto) in un'unica variabile maestra predittiva del successo del task. Un team che usa RAGAS per la valutazione del retrieval può usare α per sintetizzare l'effetto a livello di workspace.
LAVORI CORRELATI · §6
Modelli long-context e lost in the middle
Liu et al. (2024) hanno dimostrato che l'attenzione dei large language model è non uniforme attraverso la context window, con le informazioni a metà di contesti lunghi attese in modo meno affidabile rispetto a quelle all'inizio o alla fine. Questo effetto "lost in the middle" è un meccanismo di rumore intra-context-window che la nostra dimensione Q_q cattura empiricamente: i contesti con alto punteggio di rilevanza al centro ottengono Q_q più basso rispetto a contesti con lo stesso contenuto totale ma con il contenuto ad alta rilevanza ai bordi. Il nostro framework non deriva teoricamente l'effetto lost-in-the-middle ma lo accoglie attraverso la misurazione empirica di Q_q.
LAVORI CORRELATI · §7
Framework dei praticanti
Diversi framework dei praticanti hanno proposto dimensioni qualitative o semi-quantitative della qualità del contesto: la guida "context engineering" di Anthropic (2025), i pattern di "context construction" della documentazione LangChain, gli esempi di structured-context dell'OpenAI Assistants API. Questi framework sono utili ma mancano di una variabile maestra unificata. La nostra formulazione di α può essere vista come il consolidamento quantitativo dei framework dei praticanti: ogni raccomandazione nei framework qualitativi corrisponde a uno specifico intervento su α.
METODO · §8
La formulazione workspace-as-channel
Modelliamo il workspace come un canale di Shannon: l'input è il task dell'utente, lo stato del canale è la context window, l'output è la risposta dell'agent. Il tasso di successo del task dell'agent è limitato superiormente dalla mutual information I(task; response | context), che il teorema di Shannon decompone in due fattori: (a) quantità Q_n — il numero effettivo di token di contesto dopo deduplicazione e filtro per salienza, e (b) qualità Q_q — l'inverso dell'entropia condizionata H(answer | context) normalizzata rispetto al baseline senza prior H(answer). Il prodotto α = Q_n × Q_q è la banda informativa effettiva del canale per il task.
METODO · §9
Pipeline di misurazione empirica
Abbiamo misurato α su 142 task di produzione del workspace Madani (i) strumentando la pipeline di costruzione del contesto per registrare i conteggi di token pre- e post-deduplicazione, (ii) calcolando H(answer | context) empiricamente tramite generazione a 8 campioni a temperatura 0,7 e calcolando l'entropia della distribuzione delle risposte, (iii) registrando il successo del task come outcome binario (giudicato da valutatori umani indipendenti rispetto alla specifica del task). Lo stimatore di entropia a 8 campioni proviene dalla pratica statistica standard; abbiamo validato la convergenza eseguendo varianti a 16 e 32 campioni su un sotto-insieme di 20 task e confermando che la stima a 8 campioni è entro 0,04 dalla stima a 32 campioni in media.
"The Data Processing Inequality states that no matter how a random variable is processed, the mutual information with the original signal cannot increase."— Cover & Thomas, Elements of Information Theory · 2006
METODO · §10
Specificazione della regressione
Adattiamo una regressione lineare dell'outcome binario del task rispetto ad α come unico predittore. L'R^2 di 0,78 è la varianza spiegata dalla sola α. Adattiamo anche regressioni separate rispetto a Q_n da solo (R^2 = 0,41) e Q_q da solo (R^2 = 0,49) per valutare il contributo di ciascuna sotto-variabile.
Il prodotto α domina entrambi, indicando che l'interazione tra quantità e qualità è reale e non catturata da nessuno dei due da solo. Abbiamo testato specificazioni non lineari (regressione logistica, gradient-boosted trees) e abbiamo trovato un miglioramento marginale rispetto al fit lineare (R^2 aumenta a 0,81-0,83), suggerendo che l'approssimazione lineare è adeguata per la maggior parte degli scopi operativi.
RISULTATI · §11 · HEADLINE: α PREDICE CON R^2 = 0,78. α predice il successo del task con R^2 = 0,78, dominando qualsiasi singola sotto-variabile (Q_n da solo: R^2 = 0,41; Q_q da solo: R^2 = 0,49).
α-tuning · retrieval ranking Madani
Ne seguono tre corollari. (1) OLTRE I 30K TOKEN, LA QUANTITÀ SATURA. Mantenendo costante la qualità, aumentare Q_n oltre i 30.000 token non produce alcun lift misurabile. Sotto i 30K, l'elasticità del tasso di successo rispetto a token aggiuntivi è +0,18 per +5K token.
Questo significa che i modelli a prezzo di cache con long-context economico (Anthropic prompt caching a 1/10 del costo su cache-hit, vedi WSB-12) non giustificano lo "stipare il contesto" oltre i 30K; il token marginale contribuisce zero. (2) GLI INTERVENTI SULLA QUALITÀ DOMINANO GLI INTERVENTI SULLA QUANTITÀ. Potare un blocco da 5K token a bassa salienza (alzando Q_q di 0,08 deviazioni standard) produce un lift del tasso di successo di +0,23; aggiungere un blocco da 5K token ad alta salienza (alzando Q_n) produce solo +0,09. L'implicazione: il retrieval pesato per salienza (reranking top-K, BM25 + dense hybrid, MMR re-scoring) è l'attività ingegneristica a ROI più alto nel context engineering. (3) GLI SWAP DI MODELLO PRODUCONO LIFT MINORI DEI MIGLIORAMENTI DI α.
Mantenendo costante α, scambiare Claude Sonnet con Opus produce un lift del tasso di successo di +15%. Mantenendo costante il modello, raddoppiare α (tramite deduplicazione + filtro per salienza) produce un lift di +83%. Questa è la confutazione empirica dell'istinto "usa semplicemente un modello più intelligente": a parità di classe di modello, il workspace domina.
RISULTATI · §12 · RISULTATO CONTROINTUITIVO 1 · α È NON-MONOTONA OLTRE I 30K. Il risultato controintuitivo più conseguenziale: α è non-monotona oltre i 30K token. Più contesto DANNEGGIA quando l'SNR è basso.
Il meccanismo è che i token a bassa salienza diluiscono il budget di attenzione dell'agent, riducendo l'uso effettivo dei token ad alta salienza che sono anch'essi nel contesto. Oltre i 30K token, l'effetto di diluizione domina qualsiasi beneficio marginale da contenuto ad alta salienza aggiuntivo. La non-monotonicità è in tensione diretta con l'istinto dominante dei praticanti (rafforzato anche dai modelli a prezzo di cache) di "stipare di più nella context window" perché il costo marginale è basso.
Il costo marginale è basso, ma il beneficio marginale è negativo oltre la saturazione dei 30K. I team che seguono l'istinto dei praticanti spesso degradano la performance del proprio workspace mentre aumentano i costi.
RISULTATI · §13 · RISULTATO CONTROINTUITIVO 2 · Q_q CONTA 2,3X PIÙ DI Q_n. La dimensione di qualità (Q_q) conta PIÙ della dimensione di quantità (Q_n) di un fattore di circa 2,3x nella nostra regressione. Il 2,3x è il rapporto dei coefficienti standardizzati: 1 deviazione standard di Q_q produce circa 2,3x il lift del tasso di successo di 1 deviazione standard di Q_n.
L'intuizione dei praticanti tipicamente inverte questo ranking — quando viene chiesto di investire nel context engineering, gli engineer si rivolgono ad "aggiungere più contesto" (Q_n) prima che a "filtrare il contesto" (Q_q). Il rapporto 2,3x inverte quella priorità. I team che investono in filtro per salienza, reranking del retrieval e deduplicazione del contenuto producono più lift per ora di engineering rispetto ai team che investono in context window espanse.
La priorità empirica dovrebbe essere prima Q_q, Q_n solo dopo che Q_q è saturato.
RISULTATI · §14 · RISULTATO CONTROINTUITIVO 3 · α DECADE NEL CORSO DELLA VITA DELL'AGENT. α decade nel corso della vita dell'agent. L'emivita dell'SNR è di 340 turn al baseline (riferimento incrociato WSB-09). Il meccanismo di decadimento è l'accumulo di contesto: man mano che il contesto di lavoro dell'agent cresce, il materiale a bassa salienza si accumula più rapidamente di quanto il materiale ad alta salienza venga filtrato.
L'emivita di 340 turn è un baseline per il workspace Madani; task specifici con alta densità di turn (voice-channel) decadono più velocemente; task specifici con compaction esplicita (con memory adapter in stile Reflexion) decadono più lentamente. Il decadimento non è un bug ma una conseguenza strutturale dell'accumulo di contesto senza compaction attiva. I team che non implementano una disciplina di compaction osservano i propri agent long-running degradarsi in modi misurabili nel corso della vita dell'agent — e frequentemente attribuiscono erroneamente il degrado a "model drift" quando la causa reale è l'accumulo di contesto nel workspace.
RISULTATI · §15 · RISULTATO CONTROINTUITIVO 4 · RETRIEVAL K=8 BATTE WINDOW 200K. Il retrieval pesato per salienza con K=8 supera il pass completo della window da 200K di 0,34 deviazioni standard a 1/4 del costo. Il setup: stesso task, stesso modello, stesso corpus rilevante per il task.
CONDIZIONE A: passare l'intero corpus da 200K token nella context window direttamente; lasciare che il modello long-context vi presti attenzione. CONDIZIONE B: eseguire un filtro per salienza (abbiamo usato un retrieval ibrido BM25+dense con reranking MMR) e selezionare i top K=8 passaggi (~12K token totali) per la context window. La Condizione B supera la Condizione A di 0,34 deviazioni standard sulla metrica del tasso di successo del task, a circa 1/4 del costo per-task (perché il conteggio di token in input è l'8% della Condizione A).
L'approccio "usa semplicemente la long context window" è dominato dal retrieval classico a costo inferiore. Questo risultato è coerente con il lavoro lost-in-the-middle (Liu et al. 2024) ma lo estende: il divario non riguarda solo la qualità dell'attenzione ma il guadagno di α dovuto alla rimozione completa del materiale a bassa salienza. I team che adottano modelli long-context senza disciplina di retrieval spesso regrediscono sia in performance che in costo.
RISULTATI · §16 · RISULTATO CONTROINTUITIVO 5 · α PREDICE MEGLIO DI pass@k PER CROSS-DOMAIN. La variabile maestra α predice il successo del task meglio di pass@k per task cross-domain (R^2 0,78 vs 0,43). pass@k aggrega i tassi di successo attraverso i task ma perde la struttura task-specifica; α cattura il segnale per-task di qualità del contesto che spiega perché alcuni task riescono e altri falliscono. Per distribuzioni di task cross-domain (un mix di lead generation, sales, finance, content production), il potere predittivo di pass@k si degrada perché media su caratteristiche di task eterogenee.
Il potere predittivo di α è robusto perché cattura esplicitamente il segnale per-task che conta. L'implicazione è che la valutazione dei workspace dovrebbe riportare le distribuzioni di α e non solo pass@k — la distribuzione di α è più informativa per la selezione di workspace cross-domain. I team che riportano solo pass@k stanno fornendo un quadro parziale che può fuorviare le decisioni di procurement.
"Rényi α-divergence generalizes the Kullback-Leibler divergence and provides a one-parameter family of distances that interpolate between mass-covering and mode-seeking behavior."— Alfréd Rényi · On Measures of Information and Entropy · 1961
RISULTATI · §17 · RISULTATO CONTROINTUITIVO 6 · LA DISTRIBUZIONE DI α IN PRODUZIONE DIFFERISCE DAL BENCHMARK. I task di produzione hanno una distribuzione di α drammaticamente diversa dai task di benchmark. Abbiamo caratterizzato la distribuzione di α sul set di produzione Madani di 142 task e confrontato con la distribuzione di α su 4 benchmark agent standard (AgentBench, MultiWOZ, WebShop, HumanEval-Agentic).
La distribuzione di produzione è asimmetrica verso α medio (la maggior parte dei task ha α tra 0,3 e 0,7 deviazioni standard); le distribuzioni dei benchmark sono asimmetriche verso α alto (la maggior parte dei task ha α sopra 0,6, spesso sopra 1,0). I benchmark selezionano per task in cui la storia della qualità del contesto è pulita — esattamente il regime ad α alto. I task di produzione hanno rumore più ricco, specifiche ambigue e contesto accumulato, producendo una distribuzione ad α medio.
Gli interventi calibrati sui benchmark ottimizzati per regimi ad α alto possono non trasferirsi al regime ad α medio dove vive la maggior parte dei task di produzione. Questa è un'intuizione chiave per interpretare i risultati dei benchmark: un miglioramento del benchmark di +X% può non produrre un miglioramento corrispondente in produzione se la distribuzione di α in produzione si colloca in un regime diverso.
RISULTATI · §18 · RISULTATO CONTROINTUITIVO 7 · IL ROUTING α-AWARE RISPARMIA IL 22%. Il routing α-aware (task ad α alta a Sonnet, ad α media a Opus, ad α bassa a review umana) risparmia il 22% di spesa in token con +14% di accuracy. Il razionale del routing: i task ad α alta hanno qualità del contesto sufficiente perché il modello più piccolo ed economico li gestisca bene; i task ad α media beneficiano della capacità di reasoning del modello più grande; i task ad α bassa hanno qualità del contesto insufficiente e non dovrebbero essere tentati da nessuno dei due modelli — dovrebbero essere migliorati (eseguire retrieval per salienza + deduplicazione) o escalati a review umana.
Abbiamo dispiegato questo routing per 6 mesi in Madani e misurato: -22% di spesa totale in token (rispetto al baseline uniforme Opus-per-tutto), +14% di tasso di successo aggregato del task. La decisione di routing è computata dalla stima di α del workspace per task, richiedendo circa 100-150ms di computazione per task per la stima. La latenza marginale è ben ammortizzata dai risparmi di costo e dai miglioramenti di accuracy.
DISCUSSIONE · §19
Implicazioni per la pratica
Tre implicazioni per la pratica. Primo, α dà al campo un'unità di conto: ogni intervento di context engineering può essere espresso come "questo cambia α di X deviazioni standard". Secondo, α è operativa: l'implementazione di riferimento (un modulo Python di 340 righe, licenza MIT) la calcola dai log strumentati dell'agent in O(N) dove N è il numero di turn.
Terzo, α espone un misprice di mercato: la conversazione tra AI engineer riguarda "quale modello usare" ma la risposta empirica è "quale workspace usare, e come mantenere α alta". L'inquadramento di α sposta la conversazione dalla selezione del modello (la parte della decisione ingegneristica controllata dal vendor) alla costruzione del workspace (la parte controllata dal team).
DISCUSSIONE · §20 · OTTIMIZZAZIONE PRATICA · INTERVENTI ORDINATI PER ROI. Dal dataset strumentato di 142 task abbiamo ordinato gli interventi di context engineering per lift atteso di α per ora di engineering investita. Top 5: (1) retrieval pesato per salienza (reranking top-K + MMR re-scoring) — delta-alpha = +0,42 std a circa 16 ore di engineering; (2) deduplicazione del prompt (potatura LLM-aided di segmenti di contesto ridondanti) — delta-alpha = +0,28 std a circa 6 ore; (3) output strutturati dei tool (validazione di schema JSON sui ritorni dei tool) — delta-alpha = +0,23 std a circa 12 ore; (4) re-grounding periodico (riformulazione mid-task della specifica del task ogni ~25 turn) — delta-alpha = +0,19 std a circa 8 ore; (5) compaction in stile Reflexion a intervalli fissi — delta-alpha = +0,31 std a circa 20 ore. In fondo alla classifica (alto sforzo, basso lift): swap di modello (Sonnet a Opus), tornei di prompt engineering senza targeting misurabile di α.
DISCUSSIONE · §21 · OTTIMIZZAZIONE PRATICA · ROUTING ALPHA-AWARE. Abbiamo dispiegato un router multi-task che stima α per task in ingresso e seleziona tra tre percorsi di esecuzione: (a) task ad α alta (α > 0,8 std) instradati a single-thread Sonnet per efficienza di costo, (b) task ad α media (0,4-0,8) instradati a single-thread Opus, (c) task ad α bassa (α < 0,4) escalati o al miglioramento di α (eseguire retrieval per salienza + deduplicazione) prima del retry o a review umana. Il router ha ridotto la spesa totale in token del 22% migliorando al contempo il successo aggregato del task del 14%. La combinazione di α come variabile di decisione + logica di escalation rappresenta una generalizzazione di MetaCogAgent (WSB-06) dalla confidence alla capacità information-theoretic.
DISCUSSIONE · §22 · α COME SEGNALE DI PROCUREMENT. Il framework α ha implicazioni per il procurement enterprise di AI. I vendor tipicamente riportano le capacità in termini qualitativi ("il nostro sistema gestisce task complessi") o con benchmark pass@k (che abbiamo mostrato essere inferiori ad α per la predizione cross-domain).
Un segnale di procurement basato su α sarebbe: "mostrami la distribuzione di α su un campione rappresentativo dei miei tipi di task." Questo è verificabile, falsificabile e informativo. Abbiamo pilotato questo con 2 procurement enterprise: al vendor è stato chiesto di strumentare la misurazione di α su un campione dei task dell'acquirente; la distribuzione di α risultante ha informato la decisione di procurement più direttamente di qualsiasi report pass@k. Il passaggio da pass@k ad α come segnale di procurement è un'estensione naturale della traiettoria complessiva del framework WAB "dal qualitativo al falsificabile".
DISCUSSIONE · §23 · CONNESSIONE A MULTI-AGENT DPI (WSB-05). Il framework α si connette direttamente all'evidenza DPI in WSB-05. La decomposizione multi-agent è una sequenza di canali; ogni handoff inter-agent è un riassunto lossy; la banda informativa totale (che è la somma dei valori di α per-agent) è limitata inferiormente dalla data processing inequality di Shannon.
Le topologie single-agent operano contro l'intero budget di α; le topologie multi-agent operano contro un budget di α ridotto a causa della perdita di handoff. Per questo DPI vincola: α single-agent supera α multi-agent allo stesso budget totale di token. Il framework α fornisce il substrato quantitativo per l'argomento qualitativo DPI.
Le topologie multi-agent sono α-subottimali tranne quando il task ammette partizioni indipendenti (quando la mutual information inter-partizione è sotto 0,1 nat, per WSB-05 §22).
"Long-context models exhibit Lost-in-the-Middle behavior · the model retrieves information from the beginning and end of the context but degrades on middle positions."— Liu et al., Lost in the Middle · TACL 2024
DISCUSSIONE · §24 · LIMITI · APPROFONDIMENTO. (a) α presuppone che l'entropia del contesto sia ben stimata; per task con dati di training sparsi (domini nuovi, eventi recenti) lo stimatore di entropia ha alta varianza e α perde potere predittivo. Abbiamo osservato R^2 scendere a 0,51 su task in domini nuovi. (b) α è attualmente single-turn; per workflow agentic multi-turn, α deve essere ricalcolata per turn, aumentando il costo di strumentazione. (c) Il filtro per salienza richiede o un modello di embedding o una chiamata LLM-judge; entrambi aggiungono latenza (~50-150ms per turn) che deve essere ammortizzata rispetto al lift di α. (d) La soglia di saturazione di 30K è empirica per la distribuzione di task Madani; altre distribuzioni di task possono saturare a soglie diverse. (e) Il rapporto 2,3x tra Q_q e Q_n è calibrato per la specificazione lineare; modelli non lineari (che producono R^2 marginalmente migliore) possono produrre stime diverse dell'importanza delle sotto-variabili.
LIMITI · §25
Assunzioni e loro conseguenze
Il framework α poggia su tre assunzioni che vale la pena esplicitare. ASSUNZIONE 1 · LA SPECIFICA DEL TASK È BEN DEFINITA. α confonde lo spec-drift con bassa qualità. Quando il task è genuinamente ambiguo (l'agent non sa che aspetto abbia il successo), α può riportare bassa qualità anche quando il contesto del workspace è ricco.
Il framework dovrebbe essere accoppiato con una disciplina esplicita di specificazione del task. ASSUNZIONE 2 · LO STIMATORE DI ENTROPIA HA BASSA VARIANZA. Lo stimatore a 8 campioni funziona per task tipici ma si rompe per task con risposte corrette molto rare (dove è improbabile che 8 campioni facciano emergere la risposta corretta).
Il campionamento adattivo potrebbe mitigarlo ma aumenta il costo. ASSUNZIONE 3 · LA METRICA DI SUCCESSO È BINARIA. Usiamo successo binario per la semplicità della regressione.
Metriche di successo continue (es. punteggi di qualità) possono produrre relazioni α-outcome più nette ma richiedono calibrazione più accurata.
LAVORI FUTURI · §26
Lavori futuri
Tre estensioni pianificate: (1) STIMA ONLINE DI α VIA IMPORTANCE SAMPLING — elimina il requisito degli 8 campioni ripesando un campione più piccolo. (2) ALLOCAZIONE DEL BUDGET DI α VIA OTTIMIZZAZIONE LAGRANGIANA PER TASK AGENT MULTI-STEP — quando un agent opera su più turn, il budget di α deve essere allocato tra i turn; l'allocazione ottimale è un problema lagrangiano che stiamo iniziando a formalizzare. (3) VALIDAZIONE CROSS-LANGUAGE DI α — i risultati attuali sono solo inglesi su dati di produzione IT/FR/EN di Madani; la replica in italiano + francese + arabo è in corso. Direzioni aggiuntive: (4) CERTIFICAZIONE DEL WORKSPACE BASATA SU α — estendendo WAB-9 con criteri di maturità basati sulla distribuzione di α; (5) SELEZIONE DI TOOL α-AWARE — estendendo il routing α-aware dalla selezione del modello alla selezione del tool all'interno di un task.
METODO · §10b · DETTAGLIO DEL CALCOLO DI α. Il calcolo di α procede in quattro passi. (1) TOKENIZZAZIONE. Il contesto grezzo viene tokenizzato usando il tokenizer dispiegato del workspace (il tokenizer di Anthropic per i workspace Claude, il tiktoken di OpenAI per i workspace GPT).
Il conteggio dei token viene registrato. (2) DEDUPLICAZIONE. Applichiamo deduplicazione a due passaggi: un passaggio di exact-match (sequenze di token identiche di lunghezza 20+ sono collassate) seguito da un passaggio di near-duplicate (similarità coseno sopra 0,92 usando embedding a livello di frase). Il conteggio di token deduplicato Q_n viene registrato. (3) FILTRO PER SALIENZA.
Ogni segmento di contesto rimanente viene valutato per salienza tramite una chiamata LLM-judge (usiamo Claude Haiku per efficienza di costo) che valuta la rilevanza per il task su una scala 0-1. I segmenti sotto la soglia 0,3 vengono rimossi; il conteggio rimanente è il Q_n filtrato per salienza. (4) STIMA DELL'ENTROPIA. Campioniamo 8 output dall'agent con il contesto filtrato per salienza a temperatura 0,7, calcoliamo l'entropia della distribuzione dell'output tramite analisi tokenizzata di n-gram, e normalizziamo rispetto al baseline senza prior (l'entropia dell'output dell'agent con contesto vuoto).
L'entropia inversa-normalizzata è Q_q. Il prodotto α = Q_n × Q_q è il punteggio finale.
METODO · §10c · POTENZA STATISTICA E DIMENSIONE DEL CAMPIONE. La dimensione del campione di 142 task è stata scelta tramite analisi di potenza: assumendo un vero R^2 = 0,6 (stima conservativa basata su dati pilota), 142 task danno il 95% di potenza per rilevare a α = 0,01. L'R^2 osservato = 0,78 supera sostanzialmente la stima conservativa, indicando ampia potenza.
Abbiamo anche calcolato intervalli di confidenza bootstrap: l'IC al 95% di R^2 è [0,72, 0,83], confermando che la stima puntuale è stabile. Il campione è abbastanza piccolo da essere replicabile in altre organizzazioni (un team può eseguire uno studio di strumentazione di α su 142 task in circa 2 settimane di tempo di engineering) e abbastanza grande da essere statisticamente robusto.
CASE STUDY · §27 · DISTRIBUZIONE DI α NELLA LEAD-GENERATION. Approfondiamo un dominio di task per dare consistenza. La lead-generation in Madani è di circa 180 task/giorno con distribuzione di α misurata: mediana α = 0,51 std, 25° percentile = 0,32, 75° percentile = 0,71.
La distribuzione è unimodale ma leggermente asimmetrica a destra. La coda ad α bassa (alpha < 0,3) corrisponde a prospect con contesto di discovery molto sottile (nessun dato LinkedIn, nessuna storia di interazione precedente); questi task hanno alto tasso di fallimento anche con upgrade del modello. La coda ad α alta (alpha > 0,8) corrisponde a prospect con contesto ricco e ben strutturato (discovery completa, interazioni precedenti, segnali di pain chiari); questi task riescono in modo affidabile.
Il grosso centrale (0,3 < alpha < 0,8) è dove l'investimento nel context engineering produce il maggiore lift. Specificamente, il retrieval pesato per salienza della storia di interazione precedente (passare il contesto precedente da dump cronologico a sintesi ordinata per rilevanza) ha alzato la mediana di α da 0,42 a 0,58, con corrispondente lift del tasso di successo da 0,61 a 0,78.
CASE STUDY · §28 · DISTRIBUZIONE DI α NELLA RICONCILIAZIONE FINANCE. La riconciliazione finance in Madani è di circa 60 task/giorno. Distribuzione di α misurata: mediana α = 0,38 std, 25° percentile = 0,21, 75° percentile = 0,55.
La distribuzione è significativamente spostata a sinistra rispetto alla lead-generation, riflettendo la difficoltà intrinseca dei task finance (transazioni ambigue, contesto mancante, riconciliazione multi-sorgente). La maggior parte dei task finance vive nel regime ad α basso-medio dove il context engineering ha la leva più alta. Abbiamo dispiegato due interventi: (a) deduplicazione di dati strutturati (rimozione LLM-aided di voci di ledger ridondanti dal contesto), alzando Q_q di 0,11 std; (b) riformulazione esplicita della spec del task (l'agent riformula l'obiettivo di riconciliazione ogni 10 turn), alzando Q_q di 0,06 std.
L'intervento combinato ha alzato la mediana di α da 0,38 a 0,51, con corrispondente lift del tasso di successo da 0,58 a 0,76. Il lift di 18 punti del tasso di successo si traduce in circa 11 errori di riconciliazione in meno al giorno al volume di Madani — impatto operativo materiale.
"Retrieval at k=8 with a small focused window beats a 200K full-context dump on the same evaluation · information density per token matters more than raw window size."— Madani Lab · α-divergence audit 2026
CASE STUDY · §29 · DISTRIBUZIONE DI α NELLA CONTENT PRODUCTION. La content production in Madani è di circa 12 task/giorno (volume più basso ma alta complessità di task). Distribuzione di α misurata: mediana α = 0,72 std, 25° percentile = 0,58, 75° percentile = 0,84.
La distribuzione è spostata a destra rispetto ad altri domini, riflettendo la natura deliberata e ricca di contesto della content production in Madani: ogni pezzo di contenuto è fondato su estensivo contesto brand/voice, documenti di source-of-truth e storia dei contenuti precedenti. La distribuzione ad α alta spiega perché la content production ha il più alto tasso di successo dei task in Madani (0,84 al baseline). L'investimento nel context engineering è sostanziale (circa 4 ore per pezzo di contenuto per la costruzione del contesto) ma l'α alta e il corrispondente tasso di successo giustificano l'investimento.
La lezione: i domini con contesto strutturalmente ricco possono raggiungere α alta con investimento deliberato, e il differenziale di affidabilità risultante si compone attraverso l'output di contenuto.
PLAYBOOK DI IMPLEMENTAZIONE · §30 · ADOTTARE α IN UN WORKSPACE. I team che leggono questo paper affrontano una domanda pratica: come iniziare a usare α. Forniamo un playbook in 5 passi.
STEP 1 · STRUMENTARE LA MISURAZIONE DI α. Scaricare l'implementazione di riferimento (modulo Python di 340 righe, licenza MIT) e integrarla con la pipeline di logging del workspace. Calcolare α per task.
La strumentazione aggiunge circa 100-150ms di latenza per task. STEP 2 · CARATTERIZZARE LA DISTRIBUZIONE DI α. Misurare α su un campione rappresentativo di task.
Tracciare la distribuzione. Identificare la mediana, il 25° e il 75° percentile. STEP 3 · IDENTIFICARE IL TARGET DI INTERVENTO.
I task sotto il 25° percentile sono il frutto a portata di mano; i task sopra il 75° percentile sono già nel regime ad α alta. Il grosso centrale è dove l'intervento produce il maggiore lift. STEP 4 · IMPLEMENTARE PRIMA L'INTERVENTO A ROI PIÙ ALTO.
Riferimento §20 per gli interventi ordinati. Il retrieval pesato per salienza è tipicamente l'intervento a ROI più alto per team senza disciplina di retrieval esistente. STEP 5 · MISURARE IL LIFT E ITERARE.
Ri-misurare α dopo l'intervento. Il lift atteso è di circa da +0,1 a +0,4 std sulla mediana. Se il lift è inferiore, l'intervento può essere stato mal indirizzato (es. applicare retrieval pesato per salienza a un workspace che lo aveva già).
PLAYBOOK DI IMPLEMENTAZIONE · §31
Anti-pattern osservati
ANTI-PATTERN 1 · ""STIPARE LA CONTEXT WINDOW"". I team con accesso a modelli long-context a prezzo di cache aggiungono più contesto indiscriminatamente, oltrepassando la soglia di saturazione dei 30K e degradando α. Il token marginale contribuisce zero oltre la saturazione.
ANTI-PATTERN 2 · OTTIMIZZARE Q_n PRIMA DI Q_q. I team investono in context window espanse prima di investire nel filtro per salienza, mal allocando per il Risultato 2. L'intervento su Q_q è circa 2,3x più impattante per ora di engineering.
ANTI-PATTERN 3 · IGNORARE IL DECADIMENTO. I team misurano α al momento del deploy e assumono che la misurazione tenga. Per il Risultato 3, α decade nel corso della vita dell'agent; i team dovrebbero ri-misurare α periodicamente.
ANTI-PATTERN 4 · TRASFERIMENTO DI α DAL BENCHMARK. I team misurano α su task di benchmark e assumono che i risultati si trasferiscano alla produzione. Per il Risultato 6, la distribuzione di α in produzione è diversa; i risultati possono non trasferirsi.
ANTI-PATTERN 5 · ROUTING DI MODELLO UNIFORME. I team instradano tutti i task al modello più costoso (Opus) senza routing α-aware, mancando il risparmio del 22% di spesa in token del routing differenziato.
CASE STUDY · §29b · DISTRIBUZIONE DI α NEL VOICE-CHANNEL. Il voice-channel in Madani è di circa 35 chiamate/giorno. Distribuzione di α misurata: mediana α = 0,45 std, 25° percentile = 0,28, 75° percentile = 0,62.
La distribuzione è spostata più in basso rispetto ai domini text-based, riflettendo due fattori cumulativi: (a) le trascrizioni vocali hanno rumore intrinseco (filler words, errori di trascrizione, frasi parziali) che abbassa Q_q; (b) il budget di latenza sub-secondo limita quanto contesto l'agent può processare per turn, abbassando Q_n effettivo. Due interventi hanno alzato α materialmente: (a) post-processing ASR con il vocabolario di dominio del workspace (ha alzato Q_q di 0,13 std riducendo il rumore di trascrizione); (b) contesto turn-bounded (l'agent processa solo gli ultimi 5 turn conversazionali più una sintesi di contesto statica, alzando Q_n effettivo migliorando la distribuzione dell'attenzione). L'intervento combinato ha alzato la mediana di α da 0,45 a 0,61, con corrispondente lift del tasso di successo da 0,71 a 0,83.
CASE STUDY · §29c · DISTRIBUZIONE DI α NEL DELIVERY ONBOARDING. Il delivery onboarding è di circa 45 task/giorno, strutturalmente complesso (cross-domain: writing + project planning + categorizzazione finance). Distribuzione di α misurata: mediana α = 0,49 std, 25° percentile = 0,31, 75° percentile = 0,68.
La distribuzione è eterogenea, riflettendo la struttura multi-cluster del task. Alcune componenti dell'onboarding (generazione di template) hanno α alta; altre (interpretazione dei requisiti) hanno α bassa. L'intervento di mapping strutturato reasoning-action (per WSB-07 §30) ha alzato la mediana di α da 0,49 a 0,60 migliorando Q_q attraverso l'allineamento esplicito reasoning-action.
Il lift in α si è tradotto direttamente nel lift del tasso di successo documentato in WSB-07: da 0,71 a 0,84.
CASE STUDY · §29d · CONFRONTO α CROSS-DOMAIN. Abbiamo confrontato le distribuzioni di α attraverso gli 8 domini di task Madani. Il pattern cross-domain: content production (più alta, mediana 0,72), lead-generation (0,51), delivery onboarding (0,49), sales (0,47), voice-channel (0,45), organization (0,42), finance (0,38), setting (0,36).
Il pattern correla con il tasso di successo del dominio (rho di Pearson = 0,79) e con l'investimento di engineering per task (rho = 0,71). I domini ad α alta sono quelli in cui Madani ha investito di più: la content production ha 4 ore per pezzo di costruzione del contesto; la finance ha investimento minimo perché i task sono tipicamente riconciliazioni rispetto a dati preesistenti. Il pattern suggerisce che il livello di α è esso stesso un output dell'investimento di engineering, non solo una misurazione.
DISCUSSIONE · §32 · α E IL FRAMEWORK WAB. Il framework α si integra con il più ampio framework WAB-9 (WSB-01) in tre modi. INTEGRAZIONE 1 · α COME METRICA DEL PILLAR 01.
I criteri di maturità L3+ del Context pillar possono includere "distribuzione di α misurata e tracciata"; questo operazionalizza il qualitativo Context pillar con una metrica quantitativa. INTEGRAZIONE 2 · α COME SEGNALE CROSS-PILLAR. Il risultato del decadimento di α si connette al Pillar 02 (Memory), Pillar 06 (Reliability) e Pillar 11 (Auto-Improvement); i workspace con disciplina di compaction (Memory adapter) preservano α; i workspace con cicli di reflexion (Auto-Improvement) rinfrescano α attraverso la rotazione del learned-from-failure.
INTEGRAZIONE 3 · ROUTING α-AWARE COME PILLAR 05. Il routing α-aware estende MetaCogAgent (Wang & Shu 2026, WSB-06) dalla delegazione basata su confidence alla delegazione basata su capacità information-theoretic. Il framework α non è quindi standalone; è un substrato quantitativo che arricchisce simultaneamente molteplici Pillar WAB-9.
DISCUSSIONE · §33 · α COME STRUMENTO PEDAGOGICO. Il framework α ha un valore pedagogico inatteso. Abbiamo usato il framework α per onboardare nuovi engineer in Madani; il linguaggio della variabile unificante ("questo intervento ha cambiato α?") accelera la curva di apprendimento rispetto alle descrizioni qualitative ("questo intervento ha reso il contesto migliore?").
I nuovi engineer raggiungono una pratica competente di context engineering in circa 4-6 settimane con il framework α rispetto a circa 10-12 settimane con il mentoring solo qualitativo. Il lift pedagogico è esso stesso un ritorno significativo sull'investimento nel framework.
DISCUSSIONE · §34 · α COME GRAMMATICA DI VALUTAZIONE. Oltre al punteggio di α per-task e alla distribuzione di α a livello di workspace, il framework supporta una grammatica di valutazione più ricca. α(t) è l'α per-turn (calcolata a ogni turn di un task multi-turn) e ci permette di studiare come la qualità del contesto evolve nel corso della vita dell'agent; il risultato del decadimento dell'SNR (Risultato 3) è la regolarità empirica che emerge da questa grammatica. α(t,d) estende a una distribuzione di α per-turn-per-dominio e ci permette di studiare il context engineering cross-domain a granularità fine. α(t,d,m) estende a per-turn-per-dominio-per-modello e ci permette di studiare gli effetti di interazione modello-α. Abbiamo implementato la grammatica α(t) in produzione in Madani e la troviamo diagnosticamente utile; α(t,d) e α(t,d,m) sono in fase di ricerca e saranno produzionalizzate in v0.4. La grammatica estesa è coerente con il substrato information-theoretic originale (la mutual information di Shannon è essa stessa una funzione su stato del canale, tempo e osservazione) e non richiede nuovo apparato matematico, solo una strumentazione più accurata.
DISCUSSIONE · §35
La relazione con la mutual information
Notiamo per completezza teorica che α è uno stimatore della mutual information I(task; response | context), non la vera mutual information in sé. Lo stimatore ha bias e varianza che non abbiamo caratterizzato rigorosamente. L'evidenza empirica (R^2 = 0,78) suggerisce che lo stimatore sia abbastanza buono per scopi operativi, ma un paper teorico che dimostri le proprietà dello stimatore rafforzerebbe il framework.
Siamo a conoscenza di due lavori non pubblicati (uno a Stanford, uno al MIT) che stanno lavorando a tali dimostrazioni; citiamo come comunicazione personale in attesa di pubblicazione. La versione di engineering pratico di α (questo paper) è forward-deployable; le fondamenta teoriche sono lavori in corso.
DISCUSSIONE · §36 · α E MODELLI A PREZZO DI CACHE. Un'interazione sottile vale la pena evidenziare: i modelli a prezzo di cache (Anthropic prompt caching, OpenAI prompt caching, vedi WSB-12) cambiano il tradeoff costo-α. Con il caching, il costo marginale di token di contesto aggiuntivi è circa il 10% del costo non-cached.
Ingenuamente, questo dovrebbe incoraggiare ad aggiungere più contesto; per il Risultato 1, il lift satura oltre i 30K token, quindi il contesto aggiuntivo a prezzo di cache produce zero beneficio marginale ma costo marginale non-zero. La combinazione di pricing del cache e saturazione di α produce una regola ingegneristica chiara: le cadenze di loop cache-aware (per WSB-12) dovrebbero essere progettate per massimizzare α per ciclo di cache, non massimizzare la dimensione grezza del contesto per ciclo. Abbiamo elaborato questa regola nella policy di compaction Reflexion cache-aware: ogni 270 secondi (entro il TTL del cache di 300 secondi di Anthropic), il contesto dell'agent viene compattato per preservare il materiale ad alta Q_q mentre si scarta l'accumulo a bassa salienza.
La policy di compaction è α-aware (prioritizza i segmenti ad alta Q_q) e cache-aware (si allinea con il TTL del cache). La combinazione è la singola decisione di workspace più impattante che abbiamo spedito.
Bibliografia
[1] Shannon C.E. (1948), A Mathematical Theory of Communication, Bell System Tech. J. 27(3-4):379-423,623-656. [2] Cover T.M. & Thomas J.A. (2006), Elements of Information Theory (2nd ed.), Wiley-Interscience. [3] Tishby N., Pereira F., Bialek W. (1999), The Information Bottleneck Method, Proc. 37th Allerton Conf. on Communication, Control and Computing. [4] Goldfeld Z. & Polyanskiy Y. (2020), The Information Bottleneck Problem and Its Applications in Machine Learning, IEEE Journal on Selected Areas in Information Theory. [5] Es S. et al. (2024), RAGAS: Automated Evaluation of Retrieval Augmented Generation, EACL. [6] Lewis P. et al. (2020), Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks, NeurIPS. [7] Karpukhin V. et al. (2020), Dense Passage Retrieval for Open-Domain Question Answering, EMNLP. [8] Izacard G. & Grave E. (2021), Leveraging Passage Retrieval with Generative Models for Open Domain Question Answering, EACL. [9] Bommasani R. et al. (2021), On the Opportunities and Risks of Foundation Models, Stanford CRFM. [10] Liu N.F. et al. (2024), Lost in the Middle: How Language Models Use Long Contexts, TACL. [11] Tran D. & Kiela D. (2026), Single-Agent LLMs Outperform Multi-Agent Systems on Multi-Hop Reasoning Under Equal Thinking Token Budgets, arXiv:2604.02460, Stanford NLP. [12] Wang C. & Shu Y. (2026), MetaCogAgent, arXiv:2605.17292v1. [13] Cemri M., Pan M.Z., Yang S., Agrawal L.A., Chopra B., Tiwari R., Keutzer K., Parameswaran A., Klein D., Ramchandran K., Zaharia M., Gonzalez J.E., Stoica I. (2025), Why Do Multi-Agent LLM Systems Fail?, arXiv:2503.13657v3, NeurIPS 2025 Datasets and Benchmarks Track. [14] Chen M. et al. (2021), Evaluating Large Language Models Trained on Code (HumanEval), arXiv:2107.03374. [15] Anthropic (2025), Prompt Caching Documentation. [16] Anthropic (2025), Context Engineering Guide. [17] OpenAI (2025), Assistants API Documentation, Structured Context Examples. [18] LangChain (2024), Context Construction Patterns. [19] Shinn N. et al. (2023), Reflexion: Language Agents with Verbal Reinforcement Learning, NeurIPS. [20] Cognition Labs (2025), Don't Build Multi-Agents, cognition.ai blog. [21] Madani Lab (2026), α-Reference Implementation v0.3.4 (Python, MIT). [22] Madani Lab (2026), 142-Task α Validation Dataset (anonimizzato, rilascio MIT in attesa). [23] Madani Lab (2026), WAB-9 Specification v0.3.4.
