EO_496

TECH-FOCUS DATASTORAGE 38 - ELETTRONICA OGGI 496 - SETTEMBRE 2021 viare i dati in più dispositivi di memoria indipendenti utilizzando una struttura di sistema estensibile, uti- lizzando più di un server di archiviazione condiviso, utilizzando le informazioni memorizzate nel server, migliorando non solo l’affidabilità del sistema, la disponibilità e l’efficienza di accesso, ma è anche una facile da espansibilità del sistema (Fig. 1). Le tecnolo- gie di archiviazione distribuita comuni sono: 1. La tecnologia di archiviazione di rete L’archiviazione di rete è uno speciale server di archi- viazione dati privato che può fornire una funzione di condivisione di file multipiattaforma. Lo storage di rete di solito occupa il proprio nodo su una LAN senza la necessità dell’intervento del server delle applica- zioni per consentire agli utenti di accedere ai dati sulla rete. In questa configurazione, lo storage di rete gestisce ed elabora centralmente tutti i dati sulla rete, scarica il carico dall’applicazione dal server azien- dale, riduce efficacemente il costo totale e protegge l’investimento dell’utente. 2. Il file system Il file system distribuito è un singolo spazio dei nomi che combina la posizione geografica dei file su com- puter diversi e crea un unico file server gerarchico multiplo sulla rete. I file distribuiti su più server si trovano nella stessa posizione degli utenti sulla rete. Gli utenti sono più agevolati per accedere e gestire i dati. Ad esempio, Google File System (GFS), è un file system distribuito estensibile per applicazioni distri- buite su larga scala che accedono a grandi quantità di dati. L’idea progettuale del GFS è diversa dal file system tradizionale. È progettato per l’elaborazione di dati su larga scala e per funzioni dell’applicazione Google. 3. La tecnologia di archiviazione P2P La tecnologia peer-to-peer (P2P), nota anche come tecnologia di rete interconnessa tra pari, è una nuova tecnologia di rete che si basa sulla potenza di calcolo e sulla larghezza di banda dei partecipanti alla rete, piuttosto che su un numero limitato di server. Una pura rete punto-punto non ha il concetto di client o server, ha solo nodi peer uguali come client e server per altri nodi della rete. Le reti P2P possono essere utilizzate per molti scopi, come software di condivi- sione file, per attività multimediali in tempo reale, ecc. Le nuove funzionalità basate sull’ambiente del cloud computing come i dati di massa, la scalabilità utente su larga scala e l’alta disponibilità, l’archiviazione e la gestione dei dati tradizionali, pongono nuove sfide. Il sistema di archiviazione distribuita e le relative tecno- logie sono flessibili e adattabili alle complesse attività di archiviazione e gestione dei dati, tuttavia, non è ancora in grado di soddisfare i requisiti dell’enorme scala di dati e degli utenti. La tecnologia di deduplicazione dei dati Con il rapido sviluppo della tecnologia dei dati di grandi dimensioni e di Internet mobile, è al centro della ricerca attuale come archiviare e gestire in modo efficiente l’enorme quantità di dati generati da varie organizzazioni e individui che utilizzano la tecnologia di archiviazione distribuita dei dati. Negli ultimi anni, la tecnologia di deduplicazione dei dati è stata utilizzata come soluzione efficace per massicce archiviazioni e gestione dei dati. L’idea principale è eliminare i dati duplicati nel set di dati di cui solo uno di essi viene conservato, eliminando così i dati ridon- danti. Nel cloud computing e nell’ambiente dei big data, il massiccio volume di dati rende più importante il problema dell’archiviazione dei dati. L’utilizzo della tecnologia di “deduplicazione” può ridurre l’archi- viazione dei dati, risparmiare più spazio di backup, conservare i dati di backup più a lungo e ridurre il consumo di risorse del data center. Il processo di deduplicazione non influisce sulla velocità di backup dei dati. 1. Algoritmo del blocco dati a lunghezza fissa L’algoritmo del blocco a lunghezza fissa viene uti- lizzato per impostare il file con la dimensione del blocco predeterminata e per eseguire il controllo MD5* di integrità del file. Uno dei principali vantaggi dell’algoritmo di blocco a lunghezza fissa è l’elevata prestazione, ma è molto sensibile all’inserimento e alla cancellazione dei dati, il che lo rende molto ineffi- ciente e non può essere regolato e ottimizzato in base ai cambiamenti di contenuto. 2. Algoritmo CDC Il CDC (Change Data Capture) è un algoritmo a bloc- chi di lunghezza variabile che si basa sul file system di rete LBFS (). Prevede l’eliminazione ripetuta dei dati in base al contenuto dei blocchi. Innanzitutto, l’al- goritmo CDC utilizza l’algoritmo di Rabiné[1] (cono- sciuto come “impronta di Rabin” o Rabin fingerprint) per il partizionamento del file in blocchi di dati. Fig. 1 – Server client e server centrale con i data storage (Fonte: Wikipedia)