
L’AI agentica mantiene il contesto a lungo termine invece di eliminare lo stato dopo ogni query. Ciò significa che le cache KV (Key-Value) devono persistere su più passaggi, come spiegato in questo articolo di The Register, il che vuol dire che il tempo di residenza della memoria passa da millisecondi a ore o giorni. Tuttavia, le GPU si bloccano se il contesto non può essere accessibile abbastanza rapidamente. Questo trasforma la memoria nel principale vincolo di scalabilità.
La domanda di HBM aumenterà perché le cache KV rimangono idealmente in HBM per via della velocità, ma i carichi agentici richiedono una capacità molto maggiore rispetto all’HBM attuale. Nonostante l’HBM sia costosa, rimane la categoria più veloce e sarà la prima a essere saturata. Ci si può quindi aspettare una forte domanda di stack HBM di maggiore capacità (HBM4, HBM4E).
La domanda di DRAM di sistema (DDR5/DDR6) crescerà, in quanto la DRAM fungerà da livello di overflow quando l’HBM non sarà sufficiente. L’AI agentica aumenta l’impronta totale della memoria per nodo GPU. Di conseguenza, saranno necessari più moduli DRAM per server, DIMM con una larghezza di banda ancora più elevata e host CPU con una maggiore capacità di memoria.
La domanda di memoria collegata tramite CXL cresce perché il CXL consente di ottenere una memoria disaggregata e condivisa con una latenza inferiore a 100 ns. Spostare le cache KV nella memoria CXL può ridurre l’uso di memoria GPU fino all’87% e più agenti possono condividere lo stesso contesto senza duplicazioni. Ci si aspetta, quindi, una rapida crescita di moduli di memoria CXL, dei dispositivi per il pooling e delle reti coerenti.
In questo contesto, la domanda è in aumento perché i nuovi livelli “G3.5” colmano il divario tra HBM e SSD. Questi sono progettati per grandi letture di cache KV in streaming e permettono di espandere il contesto senza latenza eccessiva. Ci si può quindi aspettare un aumento della domanda di NVMe ad alte prestazioni, di flash collegato via RDMA e di dispositivi specializzati per lo storage dei contesti di inferenza.
La domanda di interconnessioni ad alta larghezza di banda cresce perché i livelli di memoria funzionano solo se le GPU possono accedervi con un jitter minimo. L’aumento del traffico di memoria tra i nodi dovuto all’AI agentica si traduce in una crescita della domanda di hardware di networking ultra-low-latency e di architetture di rete incentrate sulla memoria.
L’AI agentica sposterà l’industria da “più calcolo” a “più memoria più vicina al calcolo”. I maggiori beneficiari saranno:
Gli hyperscaler guideranno e continueranno a guidare la prima e più grande ondata di domanda, in particolare per quanto riguarda l’HBM e i fabric di memoria CXL. Le aziende seguiranno con un aumento più modesto, ma costante, di DRAM, moduli CXL e NVMe per l’inferenza locale. La maggior parte delle aziende impiegherà:
Perché? Ciò è dovuto al fatto che molti casi d’uso di AI agentica coinvolgono:
Quindi le aziende aumenteranno la memoria per server, ma non ai livelli degli hyperscaler.
L’HBM è il maggior beneficiario, in quanto l’AI agentica mantiene le cache KV “vive” a lungo e richiede larghezza di banda estrema. La domanda proviene principalmente dagli hyperscaler.
SK Hynix
Samsung
Micron
L’AI agentica sposta più memoria dalla GPU verso la DRAM host e i pool CXL. La domanda di DRAM crescerà soprattutto per i server con 1–2 TB per nodo.
Samsung, SK Hynix, Micron
Tutti e tre dominano il mercato della DRAM. Si prevede una crescita della domanda per:
CXL rappresenta il cambiamento strutturale più significativo, in quanto l’AI agentica richiede memoria disaggregata e condivisa. La domanda è guidata inizialmente dagli hyperscaler e successivamente dalle aziende on-premise. Il fornitore più rilevante in questo segmento che non produce memoria è probabilmente Astera Labs.
Samsung
SK Hynix
Micron
Astera Labs
Marvell
L’AI agentica crea un nuovo tier “G3.5”: flash veloce utilizzata come cache KV estesa. Crescerà la domanda sia per il near-compute sia per lo storage bulk.
Western Digital:
Kioxia:
Samsung:
Solidigm (sussidiaria SK Hynix):
La domanda di memoria attuale e futura sarà quindi principalmente guidata dagli hyperscaler.
Interesserà i seguenti fornitori:
Si registrerà inoltre una domanda secondaria, ma in crescita, guidata dai requisiti on-premise delle imprese.
Influirà sui fornitori di:
Lo shortage continua a protrarsi, rendendo sempre più complessa la gestione degli approvvigionamenti. Contattaci per verificare la reale disponibilità dei componenti che stai utilizzando e individuare fonti alternative affidabili, riducendo i rischi per la tua supply chain.
Archivio newsletter:
Perché l’AI agentica cambierà la domanda di componenti di memoria
Categorie degli articoli del blog:
Cerca articoli: