EO533
ELETTRONICA OGGI 533 - aprile 2026 63 TECNOLOGIA trice di calcolo a basso consumo e ad alta velocità richiede un nuovo approccio fondamentale a livello di silicio. Questo è ciò che Ambient Scientific ha implementato nella sua famiglia di processori AI GPX. Von Neumann convenzionale La classica architettura di von Neumann è stata per decenni il pilastro dell’informatica generica. Questo modello, che opera attraverso il fetching, la decodifica e l’esecuzione di istruzioni in sequenza in un ciclo che coinvolge un’unità di controllo, un’unità logica aritmetica (ALU) e la memoria, ha dominato perché gestisce efficacemente le istruzioni sequenziali che sono alla base delle applicazioni software convenzionali e perché l’architettura stessa è flessibile, semplice e re- lativamente facile da fabbricare in silicio. Ma il modello di calcolo sequenziale, una istruzione dopo l’altra, che funziona così bene per il software standard, non è adatto al software di Intelligenza Artificiale: i modelli di AI sono formati da matrici, non da sequenze lineari, e richiedono operazioni di calcolo massiccia- mente parallele. La compilazione del carico di lavoro MAC di una rete neurale nell’architettura del set di istruzioni (ISA) di un processore di tipo von Neumann genera un numero enorme di operazioni: per un modello linguistico di grandi dimensioni (LLM) con un numero di parametri compreso tra 50 e 500 miliardi, una singola inferenza può richiedere da 100 a 1.000 miliardi di operazioni. E quando si eseguono miliardi di operazioni, un importante fattore determinante per le prestazioni di un processore è il tempo di ac- cesso alla memoria, un limite ben noto dell’architettura di von Neu- mann. Anche dopo aver ottimizzato le prestazioni legando la memo- ria Sram più veloce all’ALU, le prestazioni di inferenza rimangono deludenti per i modelli più grandi e rendono il processore incredibil- mente costoso. Il problema dell’accesso alla memoria insito nel blocco di calcolo fon- damentale, l’unità di von Neumann, ostacola le architetture di calco- lo parallelo come le unità di elaborazione grafica (GPU) o le unità di elaborazione neurale (NPU) tanto quanto le CPU convenzionali. La loro velocità e il loro consumo di energia dipendono ancora dall’ac- cesso alla memoria: queste architetture digitali non riescono ad av- vicinare la memoria all’ALU. Sono limitati dalla lentezza della Dram, che non può essere costruita sullo stesso die dell’ALU (una causa dei problemi di prestazioni/potenza delle attuali GPU), o dalla capacità limitata della veloce Sram on-chip. Architettura di calcolo I problemi di implementazione delle operazioni di rete neurale sulle architetture di calcolo convenzionali hanno portato gli informatici a esplorare un approccio diverso, l’array sistolico: questo corrisponde molto meglio alla struttura interconnessa e multistrato di una rete neu- rale. Ma i precedenti tentativi di implementare un array sistolico nel silicio hanno avuto difficoltà nell’attuazione pratica di un tessuto così densamente interconnesso. Inoltre, la separazione fisica della memo- ria dai blocchi di calcolo causa lo stesso problema di accesso alla L’architettura classica di von Neumann gestisce in modo efficiente le istruzioni sequenziali ARCHITETTURA DI VON NEUMANN Controllo automatico del flusso Operazioni di input (archiviazione) Output (archiviazione, display, trasmissione) La separazione delle funzioni di calcolo dalle risorse di memoria Sram causa gli stessi problemi di velocità e consumo energetico dell’architettura di von Neumann IMPLEMENTAZIONE DI UN ARRAY SISTOLICO Peso Sram PESO Sram
Made with FlippingBook
RkJQdWJsaXNoZXIy Mzg4NjYz