EMB98
EMBEDDED 98 • NOVEMBRE • 2025 21 INTELLIGENZA ARTIFICIALE | HARDWARE trarrà vantaggio dalla stessa tecnologia di modello lin- guistico che oggi è alla base dell’AI generativa. Le applicazioni orientate ai sensori si baseranno più co- munemente su architetture di reti neurali convoluzio- nali (CNN), anche se alcune potrebbero trarre vantag- gio dalle funzionalità aggiuntive offerte dalle implemen- tazioni basate sui trasformatori di visione (ViT), anche se al costo di una richiesta di prestazioni più elevate. L’AI ha mostrato una sete di prestazioni sempre mag- giori. Prima dell’arrivo dell’AI generativa, la crescita annuale della capacità dei modelli era di un fattore tre. I modelli basati su trasformatori hanno spinto questa crescita a oltre dieci volte ogni anno. L’AI basata su ser- ver fornisce l’accesso ai modelli più performanti. Ma in molte applicazioni integrate e industriali, l’accesso a questi sistemi non è ideale. Gli operatori e gli utenti desiderano la sicurezza dei propri dati e, in molti casi, le connessioni di rete sul campo non sono sufficientemen- te affidabili per supportare l’AI basata sul cloud. Gli utenti devono poter eseguire modelli di AI su dispo- sitivi. Tale capacità deriva in parte dall’uso di processori integrati più performanti ottimizzati per l’ambiente di destinazione, che garantiscono una maggiore privacy dei dati e una minore latenza. Inoltre, poiché l’AI su edge non richiede una connessione Internet particolar- mente affidabile, in tali ambienti eccelle. Un altro con- tributo all’AI on-device deriva dal modo in cui gli esperti del settore hanno adattato i modelli basati su server per funzionare in modo più efficiente nei sistemi integrati. I ricercatori hanno sviluppato architetture CNN, come ResNet e Mobilenet, per offrire un’elevata precisione di riconoscimento delle immagini utilizzando meno moltiplicazioni di matrice rispetto ai modelli preceden- ti sviluppati per l’implementazione su server. Queste architetture modello suddividono i filtri di grandi di- mensioni e computazionalmente costosi in convoluzio- ni bidimensionali più piccole. Hanno inoltre sfruttato tecniche quali la fusione dei livelli, in cui operazioni successive incanalano i dati attraverso calcoli di peso e le operazioni di attivazione di più di un livello. Que- ste tecniche sfruttano la disponibilità locale dei dati per evitare accessi alla memoria esterna, costosi in termini di energia e latenza. I progettisti hanno abbinato queste e altre architetture di modelli ottimizzate per l’edge con tecniche quali il pruning e la quantizzazione della rete. Il pruning ridu- ce il numero complessivo di operazioni necessarie per elaborare ogni livello. Tuttavia, spesso non è adatto ai motori di moltiplicazione matriciale altamente ottimiz- zati e sviluppati per l’elaborazione neurale. In pratica, l’uso della quantizzazione offre risultati migliori a costi generali inferiori, sfruttando i motori aritmetici Simd (Single Instruction Multiple Data) progettati per ope- razioni su matrici e vettori. Utilizzando l’aritmetica intera a 8 bit, e possibilmente larghezze di parola ancora più piccole, invece dei for- mati a virgola mobile molto più ampi utilizzati duran- te l’addestramento del modello, si ottengono riduzioni massicce della domanda di calcolo ed energia. Poiché è possibile utilizzare molti motori aritmetici a 8 bit in parallelo al posto di una singola unità a virgola mobile ad alta precisione, un processore integrato può fornire miglioramenti significativi nel throughput per la stessa energia e costo di produzione. Architettura Qualcomm La Neural Processor Unit (NPU) Hexagon di Qual- comm ha sfruttato queste tecniche per la sua serie Snapdragon di System on Chip (SoC) per telefoni cellu- lari. Ciò consente ai SoC di supportare funzioni come il Modulo Smarc Qualcomm QCS6490: processore multi-core, AI, edge industriale Scheda carrier con modulo Smarc Qualcomm QCS6490: espansione Ethernet, USB, Hdmi e Gpio per applicazioni edge AI e industriali
Made with FlippingBook
RkJQdWJsaXNoZXIy Mzg4NjYz