AI generativa, come ridurre al minimo i rischi di perdita o furto di dati

Pubblicato il 6 ottobre 2023
Snowflake

Di Torsten Grabs, Senior Director of Product Management, Snowflake

Le aziende hanno rapidamente riconosciuto la potenza dell’AI generativa per alimentare nuove idee e migliorare la produttività. Tuttavia, rendere disponibili dati sensibili e proprietari in modelli linguistici di grandi dimensioni (LLM) ospitati in cloud pubblici porta con sè rischi significativi in termini di sicurezza, privacy e governance. Le aziende devono quindi adottare un approccio che affronti questi problemi prima di poter trarre vantaggio dagli indubbi benefici offerti da queste tecnologie.

Come osserva IDC, le imprese temono legittimamente che gli LLM possano “imparare” dalle loro richieste e divulgare tali informazioni ad altre aziende che inseriscono richieste simili o che i dati sensibili che condividono possano essere conservati online ed esposti a hackers o resi pubblici accidentalmente.

Queste considerazioni fanno sì che l’immissione di dati e richieste in LLM ospitati in cloud pubblici possa non rappresentare una buona idea per una buona parte di aziende, soprattutto quelle che operano in ambiti regolamentati. Quindi, come estrarre valore dagli LLM e allo stesso tempo mitigarne i rischi?

Lavorare all’interno del perimetro di sicurezza e governance esistente

Invece di inviare i dati a un LLM esterno, è possibile portare l’LLM ai dati. Questo è il modello che la maggior parte delle aziende utilizza per bilanciare l’esigenza di innovazione con l’importanza di proteggere le PII (Personal Identifiable Information) dei clienti e altre informazioni sensibili. La maggior parte delle imprese opera già mantenendo i propri dati all’interno di un perimetro caratterizzato da un elevato livello di sicurezza e governance e dovrebbe pensare di ospitare e distribuire i LLM all’interno di questo ambiente protetto, permettendo ai team dedicati ai dati di sviluppare e personalizzare ulteriormente i LLM e ai dipendenti di interagirvi in totale sicurezza.

Non è possibile avere una solida strategia di intelligenza artificiale senza una strategia dati altrettanto valida. Ciò significa eliminare i silos e adottare politiche semplici e coerenti che consentano ai team di accedere ai dati di cui hanno bisogno. L’obiettivo finale è quello di disporre di dati utilizzabili e affidabili a cui si possa accedere facilmente per utilizzarli con un LLM in un ambiente sicuro e governato.

Creare LLM specifici per il dominio

I LLM addestrati presenti su internet evidenziano più di un problema di privacy. Sono inclini ad “allucinazioni” e altre imprecisioni e possono anche riprodurre pregiudizi e generare risposte offensive che alimentano ulteriori rischi. Inoltre, i LLM di base non sono stati esposti a sistemi e dati interni delle singole organizzazioni, il che significa che non possono rispondere a domande specifiche su aziende e clienti, a volte nemmeno su settori precisi.

La soluzione consiste nell’estendere e personalizzare un modello al fine di renderlo intelligente per la propria attività. Sebbene software come ChatGPT abbiano ottenuto molta attenzione, esiste un lungo e crescente elenco di LLM che le aziende possono scaricare, personalizzare e utilizzare dietro il firewall, compresi modelli open-source come StarCoder di Hugging Face e StableLM di StabilityAI. La loro messa a punto richiede grandi quantità di dati e di potenza di calcolo ma, come osserva IDC, “una volta addestrato, un modello generativo può essere perfezionato per un particolare dominio con molti meno dati”.

Un LLM non deve essere necessariamente esteso per essere utile. Il detto “Garbage in, garbage out” vale per qualsiasi modello di IA e le aziende dovrebbero personalizzarli utilizzando i dati interni di cui sanno di potersi fidare e che forniranno le informazioni di cui hanno bisogno, focalizzandosi sugli ambiti più probabilmente utili. Le risposte arriveranno dalla sintonizzazione i LLM sui dati aziendali in un ambiente sicuro e regolamentato.

Oltre a risultati di qualità superiore, l’ottimizzazione di questi modelli può anche contribuire a ridurre il fabbisogno di risorse. I modelli più piccoli, destinati a casi d’uso specifici, tendono a richiedere meno potenza di calcolo e minori dimensioni di memoria rispetto ai modelli costruiti per casi d’uso generici o aziendali ma applicabili a diversi settori verticali e industriali. La realizzazione di LLM più mirati alle esigenze della singola organizzazione aiuterà a gestirli in modo più economico ed efficiente.

Rendere disponibili dati non strutturati per l’AI multimodale

La messa a punto di un modello sintonizzato su sistemi e dati interni richiede l’accesso a tutte le informazioni utili a tale scopo, e molte di queste saranno archiviate in formati diversi dal testo. Circa l’80% dei dati mondiali è ‘non strutturato’, e comprende informazioni aziendali quali email, immagini, contratti e video di formazione.

Tali formati richiedono tecnologie come l’elaborazione del linguaggio naturale per estrarre informazioni e renderle disponibili ai data scientist affinché possano costruire e addestrare modelli di intelligenza artificiale multimodali in grado di individuare le relazioni tra diversi tipi di dati e di far emergere gli insight più rilevanti.

Procedere consapevolmente, ma con cautela

Proprio perché l’IA generativa è un mondo in rapida evoluzione, le aziende devono usare cautela in qualsiasi approccio. Ciò significa leggere le clausole dei modelli e dei servizi che si utilizzano e lavorare con fornitori affidabili che offrono garanzie esplicite. Ma si tratta di un settore in cui le aziende non possono permettersi di restare ferme e ogni impresa dovrebbe esplorare come l’IA può rivoluzionare il proprio settore. È necessario trovare un equilibrio tra rischi e benefici e, avvicinando i modelli di IA generativa ai dati e lavorando all’interno del perimetro di sicurezza esistente, la probabilità di cogliere le opportunità offerte da questa nuova tecnologia saranno sicuramente maggiori.



Contenuti correlati

  • ADI
    ADI implementa l’AI generativa con SambaNova System

    Analog Devices (ADI) ha annunciato la collaborazione con  SambaNova System per implementare l’AI generativa. L’obiettivo di ADI è quello di guidare la sua trasformazione globale, rendendo l’AI pervasiva in tutta l’azienda. Come parte della fase iniziale dell’implementazione,...

  • Rimozione del rumore in immagini a raggi X basata su algoritmi di deep-learning

    Hamamatsu Photonics ha sviluppato una nuova tecnologia di riduzione del rumore basata su algoritmi di deep learning e su un nuovo metodo di simulazione delle immagini a raggi X Leggi l’articolo completo su EO Lighting33

  • Couchbase
    Più applicazioni e migliori insight in tempo reale, secondo Couchbase il 2024 sarà l’anno dell’Intelligenza Artificiale

    Fabio Gerosa, Sales Director Italy di Couchbase, mette in luce i principali trend tecnologici che caratterizzeranno il prossimo anno La tecnica Retrieval-Augmented Generation (RAG) sarà fondamentale per ottenere risultati fondati e contestuali con l’AI L’entusiasmo per i...

  • Clearbox AI
    I modelli AI per le banche: ecco perché non funzionano

    A cura di Shalini Kurapati, Co-Founder e CEO di Clearbox AI Nel mese di luglio è rimbalzata sulla stampa mondiale la notizia di uno studio condotto da un gruppo di ricercatori di Stanford e Berkeley in cui...

  • Innodisk
    Da Innodisk un nanoSSD PCIe compatto e con elevate prestazioni

    Innodisk ha realizzato il primo nanoSSD PCIe 4TE3 per design AI edge caratterizzati da elevata miniaturizzazione e prestazioni di elaborazione elevate come quelli 5G, automotive e aerospaziali. Questa soluzione è progettata nel fattore di forma BGA M.2...

  • AMD
    AMD acquisisce Mipsology

    AMD  ha acquisito Mipsology, azienda specializzata in software AI con sede a Palaiseau, in Francia, con l’obiettivo di potenziare le funzionalità del software di inferenza. AMD precisa che il team aiuterà a sviluppare l’intero stack software di...

  • SolidRUN
    SolidRun presenta Bedrock R7000

    SolidRun ha realizzato un nuovo PC industriale fanless che combina processori AMD Ryzen serie 7040 a 8 core con più acceleratori AI Hailo-8. Il nuovo PC si chiama Bedrock R7000 ed è destinato ad applicazioni di intelligenza...

  • Capitalizzazione di mercato record per Nvidia

    La società di ricerche di mercato IDTechEx ha recentemente pubblicato un rapporto che evidenzia il costante predominio di Nvidia non soltanto nel settore delle GPU, ma più specificamente anche in quello dell’hardware per AI. Nvidia, inoltre, martedì...

  • Intelligenza Artificiale Creativa nel futuro dell’AI

    È logico aspettarsi in un futuro, nemmeno troppo lontano, un mondo popolato da robot sempre più “umani”? Queste macchine saranno in grado di replicare i comportamenti tipici dell’uomo come, ad esempio, i sentimenti ma soprattutto la creatività?...

  • Il supporto di Cadence allo standard TSMC 3Dblox

    Cadence Design Systems ha annunciato dei nuovi flussi di progettazione, basati sulla piattaforma Integrity 3D-IC, destinati a supportare lo standard 3Dblox TSMC per il partizionamento della progettazione front-end 3D nei sistemi complessi. Grazie a questa collaborazione, i...

Scopri le novità scelte per te x