Table of Contents Table of Contents
Previous Page  17 / 84 Next Page
Information
Show Menu
Previous Page 17 / 84 Next Page
Page Background

17

EMBEDDED

MAGGIO

BIG DATA |

IN TEMPO REALE

based, dati strutturati e non strutturati

provenienti da fonti Hadoop e non-Hadoop)

non puntano più, per le applicazioni di BI,

su un approccio di tipo “a silos” focalizzato

su un’unica sorgente di dati (Hadoop), ma

richiedono funzionalità analitiche in grado

di agire su tutte le tipologie di fonti e infor-

mazioni disponibili. Terzo trend su cui porre

attenzione: le imprese non si limiteranno

più, semplicemente, a riempire di informa-

zioni i loro “data lake”, ma cercheranno di

farne un uso agile e ripetibile per ottenere

risposte rapide ai propri problemi di busi-

ness, valutando attentamente i vantaggi

ottenibili, prima di investire personale e in-

frastrutture in tale area. Tra gli altri trend,

> À

per incontrare le precise esigenze di analisi dei dati

di ogni singolo settore; la varietà dei dati, e non il

loro volume o velocità, guida in prospettiva gli in-

vestimenti sui Big Data; Apache Spark diventa la

piattaforma di elezione per le imprese, e l’abilità dei

computer di analizzare grandi quantità di informa-

À

-

À 0+)1

-

prendimento automatico (machine learning - ML).

Cresce la domanda di tool analitici in grado di con-

nettere e combinare un’ampia varietà di fonti dati

ospitate nel cloud, per riuscire a esplorare e visualiz-

zare ogni tipo di informazione, indipendentemente

dal sistema in cui è memorizzata. Inoltre, l’emergere

delle piattaforme analitiche “self-service”, che ren-

dono più facilmente accessibili i dati di Hadoop agli

utenti aziendali e ai professionisti delle LOB (line of

business), sta facendo diventare di ampia diffusio-

ne anche i tool self-service (come Alteryx, Trifacta,

Paxata) che permettono di ridurre ulteriormente il

tempo e la complessità di preparazione dei dati per

la successiva analisi, soprattutto quando si ha a che

fare con una varietà di tipologie di dati e formati.

Internet of Things e Big Data

In questi anni, l’emergere e il crescente sviluppo

della Internet of Things ha portato a dover inseri-

re nella categoria Big Data anche tutte le enormi

moli di dati acquisiti, scambiati, elaborati e gene-

Fig. 2 –

Fonte: Pixabay

“Grandi dati”, la terminologia

Espressione spesso abusata, specie nelle comunicazioni con precipui obiettivi di marketing, il termine “Big

Data” viene utilizzato da tecnici e addetti del settore per indicare volumi di dati molto grandi, suddivisibili in

due principali categorie di informazioni: quelle di tipo strutturato, generate dalle interazioni umane attraverso i

processi di business esistenti tra le varie organizzazioni - quindi i dati, organizzati in campi e record, all’interno

dei classici database (anagrafiche clienti, ordini vendite, transazioni di pagamento) - e quelle di tipo destrut-

turato, o non strutturato. Queste ultime si chiamano così perché non si trovano memorizzate in database o

altre strutture dati, ma sono informazioni generate da attività umane legate all’uso della tecnologia digitale,

come posta elettronica, sistemi di messaggistica, videoscrittura, applicazioni multimediali. Come tali, queste

informazioni possono dunque essere costituite da file testuali, file audio, file video. In verità, oltre ai dati strut-

turati e non strutturati, esiste anche una terza categoria, “intermedia” rispetto alle prime due, quella dei dati

semi-strutturati. Tali informazioni non sono organizzate in strutture dati indirizzabili e analizzabili in modo sofi-

sticato, ma possono avere un dato associato che le rende reperibili. Ad esempio, un documento prodotto con

un sistema di videoscrittura è considerato di norma un dato non strutturato, tuttavia, nel momento in cui ad

esso viene aggiunto un tag, una parola chiave, quindi un metadato che ne rappresenta il contenuto rendendolo

più facile da ritrovare nelle ricerche, questo diventa un dato semi-strutturato.