Signora che guarda sullo sfondo dove è presente l'immagine futuristica di un cervello con scritto all'interno AI.

Perché l’AI agentica cambierà la domanda di componenti di memoria

L’AI agentica mantiene il contesto a lungo termine invece di eliminare lo stato dopo ogni query. Ciò significa che le cache KV (Key-Value) devono persistere su più passaggi, come spiegato in questo articolo di The Register, il che vuol dire che il tempo di residenza della memoria passa da millisecondi a ore o giorni. Tuttavia, le GPU si bloccano se il contesto non può essere accessibile abbastanza rapidamente. Questo trasforma la memoria nel principale vincolo di scalabilità.

Quali componenti di memoria vedranno maggiore domanda?

High-Bandwidth Memory (HBM)

La domanda di HBM aumenterà perché le cache KV rimangono idealmente  in HBM per via della velocità, ma i carichi agentici richiedono una capacità molto maggiore rispetto all’HBM attuale. Nonostante l’HBM sia costosa, rimane la categoria più veloce e sarà la prima a essere saturata. Ci si può quindi aspettare una forte domanda di stack HBM di maggiore capacità (HBM4, HBM4E).

DRAM di sistema (DDR5 / DDR6)

La domanda di DRAM di sistema (DDR5/DDR6) crescerà, in quanto la DRAM fungerà da livello di overflow quando l’HBM non sarà sufficiente. L’AI agentica aumenta l’impronta totale della memoria per nodo GPU. Di conseguenza, saranno necessari più moduli DRAM per server, DIMM con una larghezza di banda ancora più elevata e host CPU con una maggiore capacità di memoria.

Memoria collegata tramite CXL (CXL DRAM Expanders & Memory Pooling Devices)

La domanda di memoria collegata tramite CXL cresce perché il CXL consente di ottenere una memoria disaggregata e condivisa con una latenza inferiore a 100 ns. Spostare le cache KV nella memoria CXL può ridurre l’uso di memoria GPU fino all’87% e più agenti possono condividere lo stesso contesto senza duplicazioni. Ci si aspetta, quindi,  una rapida crescita di moduli di memoria CXL, dei dispositivi per il pooling e delle reti coerenti.

Livelli di flash vicini al calcolo (es. Nvidia ICMS, fabric NVMe)

In questo contesto, la domanda è in aumento perché i nuovi livelli “G3.5” colmano il divario tra HBM e SSD. Questi sono progettati per grandi letture di cache KV in streaming e permettono di espandere il contesto senza latenza eccessiva. Ci si può quindi aspettare un aumento della domanda di NVMe ad alte prestazioni, di flash collegato via RDMA e di dispositivi specializzati per lo storage dei contesti di inferenza.

Interconnessioni ad alta larghezza di banda (Ethernet, NVLink, fabric RDMA)

La domanda di interconnessioni ad alta larghezza di banda cresce perché i livelli di memoria funzionano solo se le GPU possono accedervi con un jitter minimo. L’aumento del traffico di memoria tra i nodi dovuto all’AI agentica si traduce in una crescita della domanda di hardware di networking ultra-low-latency e di architetture di rete incentrate sulla memoria.

Impatto complessivo sul mercato

L’AI agentica sposterà l’industria da “più calcolo” a “più memoria più vicina al calcolo”. I maggiori beneficiari saranno:

  • Produttori di HBM (Micron, Samsung, SK Hynix)
  • Fornitori di DRAM
  • Produttori di moduli CXL e sistemi di pooling
  • Fornitori di flash NVMe e storage near-compute
  • Aziende di networking per fabric di memoria

L’AI agentica sposta il collo di bottiglia dal calcolo alla memoria

Gli hyperscaler guideranno e continueranno a guidare la prima e più grande ondata di domanda, in particolare per quanto riguarda l’HBM e i fabric di memoria CXL. Le aziende seguiranno con un aumento più modesto, ma costante, di DRAM, moduli CXL e NVMe per l’inferenza locale. La maggior parte delle aziende impiegherà:

  • Server di inferenza on-premises più piccoli
  • Expanders di memoria CXL per LLM locali
  • DRAM ad alta capacità per flussi di lavoro agentici interni
  • Tiers NVMe per storage del contesto locale

Perché? Ciò è dovuto al fatto che molti casi d’uso di AI agentica coinvolgono:

  • Dati proprietari
  • Vincoli di conformità
  • Flussi di lavoro interni a bassa latenza
  • Integrazione con sistemi ERP/CRM/SCM

Quindi le aziende aumenteranno la memoria per server, ma non ai livelli degli hyperscaler.

Mappatura della domanda di memoria AI agentica sui fornitori specifici

Fornitori di HBM (High-Bandwidth Memory)

L’HBM è il maggior beneficiario, in quanto l’AI agentica mantiene le cache KV “vive” a lungo e richiede larghezza di banda estrema. La domanda proviene principalmente dagli hyperscaler.

SK Hynix

  • Leader di mercato nell’HBM per Nvidia. 
  • La domanda di HBM3E e HBM4 crescerà con l’aumento delle finestre di contesto e dell’orchestrazione multi-agente. 
  • Si prospetta un aumento significativo dei ricavi assoluti.

Samsung

  • Forte roadmap HBM, espansione aggressiva della capacità HBM4. 
  • Guadagna quote di mercato man mano che gli hyperscaler diversificano le supply chain. 
  • Beneficia sia di HBM sia di quella di DDR5/DDR6.

Micron

  • Quote di mercato più piccole oggi, ma in rapida espansione. 
  • Posizione solida in HBM3E e in futuro in HBM4
  • Beneficia anche della domanda di DDR5/DDR6 e di CXL DRAM.

Fornitori di DRAM (DDR5 / DDR6)

L’AI agentica sposta più memoria dalla GPU verso la DRAM host e i pool CXL. La domanda di DRAM crescerà soprattutto per i server con 1–2 TB per nodo.

Samsung, SK Hynix, Micron
Tutti e tre dominano il mercato della DRAM. Si prevede una crescita della domanda per:

  • DIMM ad alta capacità
  • DDR5/DDR6 a banda larga
  • DRAM a bassa latenza per gli expander CXL

Fornitori di memoria CXL

CXL rappresenta il cambiamento strutturale più significativo, in quanto l’AI agentica richiede memoria disaggregata e condivisa. La domanda è guidata inizialmente dagli hyperscaler e successivamente dalle aziende on-premise. Il fornitore più rilevante in questo segmento che non produce memoria è probabilmente Astera Labs.

Samsung

  • Fornitore leader di moduli DRAM CXL
  • Forte posizione nel settore delle appliance per il pooling della memoria

SK Hynix

  • DRAM CXL e primi progetti di expander di memoria CXL

Micron

  • DRAM CXL e futura memoria persistente collegata tramite CXL

Astera Labs

  • Principale abilitatore dell’espansione della memoria CXL perché fornisce:
    • Controller di memoria CXL 
    • Switch per il pooling della memoria
    • Gestione del fabric CXL

Marvell

  • Controller e switch per fabric CXL

Fornitori Flash / NVMe (Near-Compute Storage)

L’AI agentica crea un nuovo tier “G3.5”: flash veloce utilizzata come cache KV estesa. Crescerà la domanda sia per il near-compute sia per lo storage bulk.

Western Digital

  • SSD NVMe per cluster di inferenza AI (destinati a implementazioni degli hyperscaler)

Kioxia

  • Unità NVMe ad alta resistenza per carichi di lavoro AI

Samsung

  • Ampia quota nella fornitura di NVMe agli hyperscaler

Solidigm (sussidiaria SK Hynix): 

  • Drive QLC ad alta capacità per lo storage dei dati di contesto

In sintesi

La domanda di memoria attuale e futura sarà quindi principalmente guidata dagli hyperscaler.

Interesserà i seguenti fornitori:

  • SK Hynix, Samsung, Micron (HBM + DRAM)
  • Astera Labs e Marvell (CXL)
  • Samsung, WD, Kioxia, Solidigm (NVMe)
  • NVIDIA, Broadcom, Arista (networking)

Si registrerà inoltre una domanda secondaria, ma in crescita, guidata dai requisiti on-premise delle imprese.

Influirà sui fornitori di:

  • Samsung, Micron (DRAM + CXL)
  • Supermicro, Dell, HPE (server)
  • Solidigm, WD (NVMe)

Lo shortage continua a protrarsi, rendendo sempre più complessa la gestione degli approvvigionamenti. Contattaci per verificare la reale disponibilità dei componenti che stai utilizzando e individuare fonti alternative affidabili, riducendo i rischi per la tua supply chain.

Archivio newsletter:

Categorie degli articoli del blog:

Cerca articoli:

Iscrizione alla newsletter

Prima di procedere, clicca per leggere la nostra informativa sulla privacy..