EO_481

53 - ELETTRONICA OGGI 481 - OTTOBRE 2019 DLP basato su FPGA raggiunge una la- tenza di appena 0,174 secondi, più ve- loce dell’86% rispetto a una GPU con caratteristiche analoghe. La velocità ef- fettiva, misurata in interrogazioni al se- condo (QPS Queries Per Second), è sette volte superiore. Progetti come BrainWave di Microsoft e DLP di Alibaba hanno utilizzato con successo nuove architetture hardware in grado di accelerare i carichi di lavo- ro dell’intelligenza artificiale. Questo è il punto di partenza di un percorso che alla fine rende- rà l’accelerazione dell’apprendimento disponibile per i clienti dei servizi Cloud, per gli utenti industriali e per la comunità automotive, sempre più spesso alla ricerca di soluzioni d’inferenza per l’apprendimento automatico da adottare nei sistemi embedded ubicati alla periferia della rete. D’altra parte, alcuni fornitori di servizi sono desiderosi di introdurre l’apprendimento automatico nei sistemi esistenti, allo scopo di migliorare e accelerare i casi di uso consolidati. Alcuni esempi includono la protezio- ne delle reti, in cui l’apprendimento automatico miglio- ra il riconoscimento degli schemi per il rilevamento ad alta velocità di malware e di eccezioni pericolose. Altre opportunità includono l’utilizzo di applicazioni per l’apprendimento automatico come il riconosci- mento facciale o la rilevazione delle perturbazioni per contribuire a gestire le città intelligenti in modo più razionale. Accelerazione dell’IA per i neofiti (degli FPGA) Xilinx ha creato un ecosistema di risorse che consen- tono agli utenti di sfruttare le potenziali- tà degli FPGA per accelerare i carichi di lavoro nel Cloud o a bordo rete. Tra i tool disponibili, ML-Suite (Fig. 2) ef- fettua la compilazione delle reti neurali per l’esecuzione su hardware FPGA di Xilinx: può operare con reti neurali ge- nerate da schemi comuni di apprendi- mento automatico, tra cui TensorFlow, Caffe, MxNet e altri. Una API Python semplifica l’interazione con la ML-Suite. Poiché gli schemi di apprendimento au- tomatico tendono a generare reti neurali basate sull’aritmetica a virgola mobile a 32-bit, ML-Suite contiene uno strumento di quantizzazione per la conversione in un equivalente a virgola fissa, più adatto a essere implementato su un FPGA. Il quantizzatore è parte di un insieme costituito da middleware, tool per la compilazione e l’ottimizzazione e runtime, colletti- vamente chiamati xfDNN, i quali fanno sì che la rete neurale fornisca le migliori prestazioni possibili su si- licio FPGA. L’ecosistema sfrutta anche l’acquisizione di DeePhi Technology da parte di Xilinx, attraverso l’utilizzo dell’ottimizzatore DeePhi per rimuovere i carichi qua- si nulli e per comprimere e semplificare i livelli della rete. Quest’ultimo ha prodotto un aumento della ve- locità delle reti neurali di un fattore 10 e una riduzio- ne significativa del consumo energetico del sistema senza impattare sulle prestazioni complessive e sulla precisione. Per quanto riguarda l’adozione di reti neurali con- vertite, ML-Suite fornisce sovrapposizioni (overlay) xDNN del processore personalizzato che rimuovono le complessità della progettazione FPGA per gli svi- luppatori e utilizzano in modo efficiente le risorse su chip. Ogni sovrapposizione è in genere fornita con il proprio insieme di istruzioni ottimizzate, impostato per Fig. 2 – La Xilinx ML-Suite offre un ecosistema di risorse per lo sviluppo di applicazioni per l’apprendimento automatico Fig. 1 – Confronto fra prestazioni e latenza del DLP Alibaba Cloud DIGITAL MACHINE LEARNING