EO_488

DIGITAL NEURAL NETWORKS 47 - ELETTRONICA OGGI 488 - SETTEMBRE 2020 Considerazioni sulle prestazioni L’unità TPU è un esempio di acceleratore tensoriale molto generalizzato che utilizza un compilatore com- plesso per pianificare le operazioni sui grafi. La TPU ha mostrato un’ottima resa di efficienza per carichi di la- l J *xx {| @}"j[: @# rapporto tra la potenza computazionale e il riferimento di memoria per le reti CNN è inferiore rispetto a quello delle architetture MLP e LSTM e possiamo osservare che questi carichi di lavoro specifici sono legati alla memoria. Anche la rete CNN1 mostra prestazioni mo- J @}"j[ # della sequenza che si verificano quando occorre cari- care nuovi pesi nell’unità della matrice (Fig. 2). L’architettura delle reti neurali ha un impatto significa- # ? ? sono scarsamente significativi nell’ambito della sele- ? # #? ? sia possibile ottenere livelli elevati di efficienza per i carichi di lavoro specifici che è necessario accelerare. }== j * jj" " # a promuovere riferimenti di prestazioni per i modelli l ? = X x %x =X x _ x : @# # di casi d’uso reali per l’attività di classificazione delle immagini è limitato e spesso tali modelli sono utilizzati solo come estrattore di funzionalità di back-end per attività più complesse come il rilevamento e la seg- mentazione degli oggetti. Esempi più realistici di modelli utilizzabili nel mondo reale riguardano il rilevamento e la segmentazione de- gli oggetti. In che modo ciò si correla con la consta- tazione che dovete cercare di trovare riferimenti IPS # l `# }X} ] jj^ = dispositivi su semiconduttore siano commercializ- ? ? @}" < suppongo che questo non sia un problema se avete semplicemente bisogno di effettuare operazioni grep su foto su cloud storage per una foto del vostro gatto (Fig. 3): Non c’è da meravigliarsi che molti sviluppatori tro- vino che il loro primo “ap- proccio” alla progettazio- ne di un prodotto abilitato all’intelligenza artificiale non soddisfi i requisiti di ? = = # & - tettura diversa nel mezzo del ciclo di progettazione. Ciò è particolarmente arduo se comporta la ridefinizione dell’architettura sia dell’hardware della scheda base SOM sia del software. Si scopre che un motivo chiave = = j * $ % - ? #? ? soluzioni Xilinx per l’inferenza scalano direttamente di oltre un ordine = ?? ? stesso processore e le stesse architetture per l’accele- razione dell’inferenza. Le reti MobileNet x # Google ha presentato una nuova classe di modelli pensati per le applicazioni J MobileNets: Efficient Convolutio - x # x K https://arxiv.org/pdf/1704.04861.pdf) . Il vantaggio delle reti MobileNet è stato la notevole riduzione degli # ? # precisione. Una delle principali innovazioni impiegate nelle reti MobileNet è la convoluzione separabile per profondità (Fig. 4). Per quanto riguarda la convoluzione = = # # = canale di uscita. Se abbiamo 100 canali di ingresso e # % - # : @# #? #? gruppi ottenendo di conseguenza solo 100 tracciati. Ciascun canale di ingresso è collegato solo a 1 cana- # # =# risorse di calcolo. Fig. 2 – Limiti di prestazioni per varie topologie di rete con un’unità TPUv1 [Riferimento: Jouppi et al. 2017, https://arxiv.org/ftp/arxiv/ papers/1704/1704.04760.pdf] Fig. 3 – Il gatto trovatello di Hall, “TumbleWeed”