EO_474

DIGITAL AI PROCESSORS 52 - ELETTRONICA OGGI 474 - NOVEMBRE/DICEMBRE 2018 magini e video con risoluzione da 50 x 60 pixel fino al pieno schermo di 1.920 x 1.080 pixel, a patto di affian- carlo a un Arm ML, a una CPU Arm Cortex oppure a una GPU Arm Mali. NNP Nervana Intel sta da circa tre anni sviluppando l’innovativa fami- glia dei Neural Network Processor (NNP) Nervana dove implementa gli Application Specific Integrated Circuit Nervana Engine capaci di eseguire processi di machi- ne learning. Gli NNP Nervana con nome in codice “Lake Crest” implementano un gran numero di connessioni “neuronali” che si comportano come unità elementari di calcolo eseguendo processi di elaborazione che in parte somigliano all’attività cerebrale. Grazie a ciò riescono a estrar- re i contenuti significativi dalle grandi quantità di dati e quindi eseguire elaborazioni di deep learning a livello hardware. In pratica, ogni elemento di cal- colo incorpora 2 MByte di High Bandwidth Memory (HBM) loca- le con velocità dati di 1 Tbit/s e tutti i contenuti sono accessibili da tutti i nodi senza la gerarchia delle memorie cache tipica dei processori tradizionali. È a li- vello software che con “strategie creative” viene deciso quali nodi concorrono a un determinato problema da risolvere e vengono altresì definite le matrici di dati non- ché attivati gli elementi di calcolo che le compongono, in modo tale che questi ultimi eseguano i calcoli tutti insieme come se fossero un’unica unità di calcolo. Con questo approccio i processi di calcolo sulle matrici di dati sono eseguiti molto più velocemente e consumando molto meno, il che consente al processore di elaborare grandi quantità di dati e risolvere problemi complessi. Fondamentale in questo lavoro è il know-how acquisi- to da Intel sugli Fpga dopo l’acquisizione di Altera. Per i dati è stato appositamente inventato il formato numerico Flexpoint con 16 bit nella mantissa e 5 bit di esponente (flex 16+5) caratterizzato da un comportamento a virgo- la fissa capace di offrire la stessa rapidità di calcolo di un formato in virgola mobile a 32 bit ma con un consumo nettamente ridotto. I primi prototipi sono realizzati in ge- ometria di riga da 28 nm ma è obiettivo di Intel realizzare altri prototipi in geometria da 16 nm entro quest’anno. GPU Jetson Nvidia sta implementando i processi di machine lear- ning nei suoi processori grafici già predisposti per il calcolo vettoriale perché nati proprio per l’elaborazione grafica 3D a elevate prestazioni. Il nuovo Nvidia Jetson TX2 è definito come “supercomputer embedded” con la potenza di 1 TeraFLOPs realizzato nelle dimensioni di una carta di credito. Cotante prestazioni consentono, per esempio, a un drone di decidere da solo cosa fare o a un robot medicale di eseguire operazioni autonomamente. Per esempio, i computer Nvidia Jetson eseguono l’elabo- razione Intelligent Video Analytics (IVA) in tempo reale che consente ai sistemi di video sorveglianza di rilevare le condizioni di pericolo e attivare le decisioni più op- portune senza bisogno di qualcuno in costante osser- vazione. I Jetson TX1 hanno 256 core GPU Nvidia Cuda a 64 bit con architettura Maxwell, una CPU quad core Arm A57/2 e 4 GByte di memo- ria lpddr4 da 25,6 GB/s mentre i Jetson TX2 hanno 256 core GPU Nvidia Cuda a 64 bit con architettura Pascal, una CPU HMP Dual Denver 2/2, una CPU Quad Arm A57/2 e 8 GByte di memoria lpddr4 da 59,7 GB/s. In entrambi ci sono un Encode/ Decode Video, due interfacce CSI2 per camere, quattro con- nessioni per display nonché le interfacce PCIE, USB2/3, Gigabit Ethernet, 802.11ac e Bluetooth. L’architettura Cuda (Compute Unified Devi- ce Architecture) è stata creata da Nvidia per eseguire algoritmi di calcolo parallelo sulle GPU destinate all’e- laborazione grafica. Nella Maxwell i processi sono par- tizionati su 16 Streaming Multiprocessor che diventano SMM, o Maxwell Multiprocessor, e possono condividere la memoria mentre la Pascal è la prima implementata con i transistor FinFET a 16 nm e introduce collegamenti bidirezionali ad alta velocità fra le GPU che così condivi- dono i processi di calcolo parallelo. L’SDK Jetson Deve- lopment Pack JetPack offre la possibilità d’implementa- re applicazioni di Embedded AI Computing e avanzate funzionalità di Computer Vision grazie ai tool TensorRT, cuDNN e Nvidia Digits Workflow appositamente pensati per il Deep Learning. I computer embedded Nvidia Jetson TX1 con 256 GPU Cuda Maxwell eseguono l’elaborazione Intelligent Video Analytics con riconoscimento in tempo reale delle condizioni di allarme Possono implementare funzioni di Deep Learning gli Nvidia Jetson TX2 con a bordo 256 GPU Cuda Pascal in tecnologia FinFet da 16 nm