EO_488

DIGITAL NEURAL NETWORKS 48 - ELETTRONICA OGGI 488 - SETTEMBRE 2020 Una conseguenza di tutto ciò è che per le reti Mobile- Net il rapporto tra risorse computazionali e memoria si & ? = ?? di memoria e la latenza svolgono un ruolo più impor- tante per raggiungere una velocità effettiva elevata. "# l # # - tazionale non sono necessariamente compatibili con & † : < ? ? - ne lineare con la riduzione delle operazioni a virgola JˆX}"[: @# # un pasto gratuito. Si consideri ad esempio il confronto Jˆ =: ‰[ # - zionale di una rete MobileNetv2 è meno di un decimo # # _ x ‰ # - tenza non segue lo stesso andamento. x & - za non si riduce di 12 volte in proporzione alla riduzione ? = : Š# - mo questo problema? Se confrontiamo il rapporto tra la # ? & vediamo che una rete MobileNet mostra un profilo molto #  Jˆ =: |[: " `# - =# = #? ^‹* : X& = alla memoria e quindi raggiunge livelli più bassi di effi- cienza perché molti elementi della matrice di PE giaccio- > # + # # = # ? =# # # . Š# $ % # &# ^"€ `# progettata per accelerare (tra le altre operazioni) la convoluzione convenzionale. Quest’ultima richiede una riduzione per canale relativa all’ingresso. Tale riduzio- ne è più ottimizzata per l’inferenza hardware perché aumenta il rapporto tra le risorse di calcolo e memoria per le operazioni di calcolo/attivazione. Considerando il costo energetico delle operazioni di calcolo rispetto : Š# uno dei motivi per cui le installazioni di reti basate su ResNet sono così predominanti nelle applicazioni ad alte prestazioni: il rapporto tra le risorse di calcolo e la memoria è maggiore con le reti ResNet rispetto a molte dorsali storiche. Le convoluzioni basate sulla profondità non compor- tano simili riduzioni per canale. Le prestazioni della memoria diventano molto più importanti. A proposito di inferenza " & ? = #? DWC con la convoluzione PWC e memorizziamo le at- ? ^‹* # `# immediatamente la convoluzione PWC 1x1. Nel conte- &# ^"€ = # # † ?? #? ^‹* il risultato che l’efficienza non era ottimale (Fig. 7). Per accelerare le prestazioni della convoluzione DWC Fig. 4 – Connettività nella convoluzione classica e in base alla profondità [Riferimento: Song Yao, Hotchips HC30, Session 8: https:// www.hotchips.org/archives/2010s/hc30/ ] Fig. 5 – Numero di operazioni e latenza in una rete MobileNet e ResNet50 a confronto [Riferimento: Song Yao, Hotchips HC30, Session 8: https://www.hotchips.org/archives/2010s/hc30/ ] Fig. 6 – Rapporto tra comunicazione e risorse di calcolo (CTC) in una rete VGG16 e in una rete MobileNetv1 [Riferimento: Song Yao, Hotchips HC30, Session 8: https://www.hotchips.org/archives/2010s/hc30/ ] Fig. 7 – Operazioni e latenza in una rete MobileNet e in una rete ResNet50 a confronto – DPUv1 (nessun supporto nativo alla convoluzione DWC) [Riferimento: Song Yao, Hotchips HC30, Session 8: https://www.hotchips.org/archives/2010s/hc30/ ]

RkJQdWJsaXNoZXIy MTg0NzE=