17
EMBEDDED
MAGGIO
BIG DATA |
IN TEMPO REALE
based, dati strutturati e non strutturati
provenienti da fonti Hadoop e non-Hadoop)
non puntano più, per le applicazioni di BI,
su un approccio di tipo “a silos” focalizzato
su un’unica sorgente di dati (Hadoop), ma
richiedono funzionalità analitiche in grado
di agire su tutte le tipologie di fonti e infor-
mazioni disponibili. Terzo trend su cui porre
attenzione: le imprese non si limiteranno
più, semplicemente, a riempire di informa-
zioni i loro “data lake”, ma cercheranno di
farne un uso agile e ripetibile per ottenere
risposte rapide ai propri problemi di busi-
ness, valutando attentamente i vantaggi
ottenibili, prima di investire personale e in-
frastrutture in tale area. Tra gli altri trend,
> À
per incontrare le precise esigenze di analisi dei dati
di ogni singolo settore; la varietà dei dati, e non il
loro volume o velocità, guida in prospettiva gli in-
vestimenti sui Big Data; Apache Spark diventa la
piattaforma di elezione per le imprese, e l’abilità dei
computer di analizzare grandi quantità di informa-
À
-
À 0+)1
-
prendimento automatico (machine learning - ML).
Cresce la domanda di tool analitici in grado di con-
nettere e combinare un’ampia varietà di fonti dati
ospitate nel cloud, per riuscire a esplorare e visualiz-
zare ogni tipo di informazione, indipendentemente
dal sistema in cui è memorizzata. Inoltre, l’emergere
delle piattaforme analitiche “self-service”, che ren-
dono più facilmente accessibili i dati di Hadoop agli
utenti aziendali e ai professionisti delle LOB (line of
business), sta facendo diventare di ampia diffusio-
ne anche i tool self-service (come Alteryx, Trifacta,
Paxata) che permettono di ridurre ulteriormente il
tempo e la complessità di preparazione dei dati per
la successiva analisi, soprattutto quando si ha a che
fare con una varietà di tipologie di dati e formati.
Internet of Things e Big Data
In questi anni, l’emergere e il crescente sviluppo
della Internet of Things ha portato a dover inseri-
re nella categoria Big Data anche tutte le enormi
moli di dati acquisiti, scambiati, elaborati e gene-
Fig. 2 –
Fonte: Pixabay
“Grandi dati”, la terminologia
Espressione spesso abusata, specie nelle comunicazioni con precipui obiettivi di marketing, il termine “Big
Data” viene utilizzato da tecnici e addetti del settore per indicare volumi di dati molto grandi, suddivisibili in
due principali categorie di informazioni: quelle di tipo strutturato, generate dalle interazioni umane attraverso i
processi di business esistenti tra le varie organizzazioni - quindi i dati, organizzati in campi e record, all’interno
dei classici database (anagrafiche clienti, ordini vendite, transazioni di pagamento) - e quelle di tipo destrut-
turato, o non strutturato. Queste ultime si chiamano così perché non si trovano memorizzate in database o
altre strutture dati, ma sono informazioni generate da attività umane legate all’uso della tecnologia digitale,
come posta elettronica, sistemi di messaggistica, videoscrittura, applicazioni multimediali. Come tali, queste
informazioni possono dunque essere costituite da file testuali, file audio, file video. In verità, oltre ai dati strut-
turati e non strutturati, esiste anche una terza categoria, “intermedia” rispetto alle prime due, quella dei dati
semi-strutturati. Tali informazioni non sono organizzate in strutture dati indirizzabili e analizzabili in modo sofi-
sticato, ma possono avere un dato associato che le rende reperibili. Ad esempio, un documento prodotto con
un sistema di videoscrittura è considerato di norma un dato non strutturato, tuttavia, nel momento in cui ad
esso viene aggiunto un tag, una parola chiave, quindi un metadato che ne rappresenta il contenuto rendendolo
più facile da ritrovare nelle ricerche, questo diventa un dato semi-strutturato.