EO_481

52 - ELETTRONICA OGGI 481 - OTTOBRE 2019 L’ apprendimento automatico è la tecnologia che sta alla base dei nuovi servizi che sfruttano la naturale interazione vocale e il riconoscimento delle immagini per garantire una fruizione senza pro- blemi di sociale media e call center. Inoltre, con la loro capacità di identificare modelli o eccezioni a par- tire da vaste quantità di dati correlati a un gran nume- ro di variabili, le reti neurali addestrate per l’apprendi- mento profondo (deep learning) stanno trasformando il modo in cui vengono condotte le più diverse attività – ricerca scientifica, pianificazione finanziaria, gestio- ne delle città intelligenti e programmazione dei robot industriali – e stanno determinando una trasformazio- ne digitale del business tramite ad esempio servizi di digital twin e di manutenzione predittiva. Sia s’impieghino le reti addestrate per l’inferenza nel cloud, sia le si utilizzino nei sistemi embedded alla periferia della rete, le aspettative della maggior parte degli utenti richiedono prestazioni deterministiche e bassa latenza. Il raggiungimento di entrambi gli obiet- tivi contemporaneamente, in presenza di vincoli di di- mensioni e di alimentazione, richiede un’unità di cal- colo efficiente e massicciamente parallela al centro di un sistema progettato per trasferire i dati da e verso il sistema in modo efficiente. Questo richiede caratte- ristiche come una gerarchia di memoria flessibile e interconnessioni adattabili a larga banda. In contrasto a queste esigenze, le unità basate su GPU utilizzate comunemente per l’addestramento delle reti neurali – che richiede tempo e diversi teraflop di cicli di elaborazione – sono caratterizzate da strutture d’in- terconnessione rigide e da una gerarchia di memoria che non sono adatte per l’inferenza in tempo reale. Possono verificarsi comunemente problemi quali re- pliche dei dati, cache miss (assenza del dato richiesto nella cache) e blocchi. Per ottenere prestazioni soddi- sfacenti nell’inferenza è necessario ricorrere a un’ar- chitettura più flessibile e scalabile. I vantaggi della configurabilità I Field Programmable Gate Array (FPGA) che integra- no blocchi di calcolo ottimizzati, memoria locale di- stribuita e interconnessioni “no-blocking” condivise e adattabili, possono superare i limiti tradizionali e ga- rantire prestazioni deterministiche e latenza ridotta. Infatti, con l’aumento dei carichi di lavoro dei sistemi di apprendimento automatico, progetti all’avanguar- dia, come BrainWave Project di Microsoft , utilizzano gli FPGA per eseguire calcoli in tempo reale in modo economico e con una latenza estremamente bassa, ri- sultati non ottenibili con le GPU. Un altro progetto avanzato di apprendimento automa- tico, condotto dal fornitore globale di servizi di calco- lo Alibaba Cloud , ha scelto gli FPGA come base per costruire un processore DLP (Deep Learning Proces- sor) per l’analisi e il riconoscimento delle immagini. Gli FPGA hanno consentito al DLP di garantire simul- taneamente bassa latenza e alte prestazioni che l’In- frastructure Service Group dell’azienda ritiene irrea- lizzabile utilizzando GPU. La figura 1 mostra i risultati dell’analisi del gruppo di lavoro utilizzando una rete profonda residuale ResNet-18, che illustrano come il I dispositivi FPGA offrono la configurabilità necessaria per l’inferenza per l’apprendimento automatico in tempo reale, abbinata alla flessibilità necessaria per adattarsi ai futuri carichi di lavoro. Per rendere questi vantaggi accessibili ai data scientist e agli sviluppatori, occorrono strumenti facili all’uso e in grado di offrire funzionalità complete Daniel Eaton Sr Manager-Strategic Marketing Development Xilinx Sfruttare l’apprendimento automatico per soddisfare i requisiti di applicazioni reali DIGITAL MACHINE LEARNING