EO_502

ELETTRONICA OGGI 502 - MAGGIO 2022 51 DIGITAL ADAPTIVE COMPUTING automatico. Inoltre, la presenza di ulteriori moltiplicatori nel core raddoppia le prestazioni di quantizzazione INT8. Inoltre, la memoria dati aggiuntiva accelera ulteriormente la localizzazione e un nuovo blocco di memoria fornisce fino a 38 Megabyte nell’unità AI con larga banda di accesso allamemoria. Nel complesso, le prestazioni di elaborazione per l’apprendimento automatico sono quadruplicate e la latenza è dimezzata. L’unità IA-ML è in grado di gestire carichi di lavoro eterogenei oltre all’apprendimento automatico, mentre l’elaborazione nativa a 32 bit delle unità IA esistenti accelera le funzioni aritmetiche come INT32 e FP32. Ciò mantiene prestazioni bilanciate su diversi carichi di lavoro come il beamforming nelle applicazioni a ultrasuoni e nell’elaborazione LiDAR/radar. Le interazioni con la memoria rappresentano un ben noto collo di bottiglia per le prestazioni dei sistemi di elaborazione. La nuova piattaforma dedicata all’elaborazione a bordo rete affronta questo problema aggiungendo la RAM di accelerazione, un blocco da 4 MB con un’interfaccia a larga banda accessibile a tutte le unità di elaborazione su chip. Ciò consente alle unità IA di archiviare nelle RAM DDR i dati di elaborazione critici provenienti delle reti neurali durante l’inferenza ad alta velocità, riducendo così il consumo energetico e la latenza, e consente inoltre di mantenere il codice critico per la sicurezza in esecuzione sui processori in tempo reale su chip, allo scopo di garantire una latenza inferiore e un funzionamento più sicuro. I progettisti, siano essi sviluppatori FPGA esperti o data scientist con poca esperienza nella progettazione hardware, possono utilizzare questi dispositivi con i loro tool preferiti, utilizzando linguaggi come C o Python e su piattaforme IA come Caffe, TensorFlow e Pytorch. Esiste un gran numero di librerie per l’intelligenza e la visione artificiale per l’esecuzione su unità adattabili Versal o su unità intelligenti, con supporto ai sistemi operativi Robot Operating System (ROS) e ROS2 e con supporto alla progettazione critica per la sicurezza con RTOS come QNX, VxWorks e Xen, che soddisfano gli standard di sicurezza funzionale come ISO 26262 per l’automotive, IEC 61508 in ambito industriale e DO-254 nella difesa. È inoltre supportata la progettazione in conformità agli standard IEC 62443 per la sicurezza IT. Con la sua architettura distribuita, la famiglia è anche scalabile ed è indicata per applicazioni che vanno dai sensori a bordo rete, ai terminali, agli acceleratori di CPU. I dispositivi spaziano dalle versioni con otto unità IA, con un consumo di potenza complessivo inferiore a 10 W, a oltre 300 unità IA che forniscono oltre 400 TOPS di prestazioni INT4, oltre a unità adattabili e unità DSP. Accelerazione dell’intera applicazione Per comprendere gli effetti di tutto ciò sulle prestazioni del sistema, consideriamo l’esempio del sistema di guida assistita descritto in precedenza, realizzato su tre dispositivi Zynq. Un singolo circuito integrato Versal AI Edge di fascia media è in grado di ospitare la stessa applicazione (Fig. 4) e fornire 17,4 TOPS, più di quattro volte le prestazioni di elaborazione, per gestire una maggiore definizione della telecamera e supportare canali video aggiuntivi con un budget energetico confrontabile di 20 W. Il circuito integrato e i circuiti esterni associati occupano 529 mm 2 , un’area ridotta di oltre il 58%. È possibile assegnare opportunamente i vari carichi di lavoro tra le unità disponibili, utilizzando le unità adattabili per la fusione dei sensori e le funzioni di pre-elaborazione, che includono l’intervallo del tempo di volo, l’analisi radar e lidar delle nuvole di punti, il condizionamento delle immagini per la visione artificiale, la caratterizzazione dell’ambiente circostante e il condizionamento dei dati come l’organizzazione in blocchi. Allo stesso tempo, l’Unità Scalare può concentrarsi sul processo decisionale e sul controllo del veicolo. Un ulteriore vantaggio di questa piattaforma di elaborazione adattiva è la possibilità di modificare in tempo reale, nel giro di millisecondi, la configurazione hardware, per consentire a un dispositivo di gestire più funzioni. Un’applicazione automotive è in grado di caricare una configurazione hardware ottimizzata per funzionalità quali la correzione della deviazione dalla corsia o l’anti- collisione durante la guida in autostrada, da sostituire con una nuova configurazione come il park-assist quando il veicolo entra in un’area urbana. Dopo il parcheggio, è possibile caricare un’altra funzionalità; magari una funzione esclusiva come la gestione della climatizzazione Fig. 3 – L’unità IA-ML, che garantisce una gestione efficiente delle applicazioni di apprendimento automatico a bordo rete