Si definiscono “big data” (megadati o grandi dati) set di dati estremamente grandi che possiedono una o più delle seguenti caratteristiche: elevato volume, elevata velocità o estrema varietà. Possono essere analizzati con l’obiettivo di individuare modelli, tendenze e associazioni, in particolare relative al comportamento e alle interazioni umane. Oggi molti investimenti IT sono destinati alla gestione e al mantenimento dei big data.

 

Cosa sono i big data

I Big data sono ingenti moli di dati il cui volume cresce esponenzialmente nel tempo. Provenienti da fonti eterogenee, hanno dimensioni e complessità così grandi che richiedono strumenti di gestione differenti per poter essere archiviati, elaborati e ricavarne informazioni.

Sono generati da sorgenti diverse quali ad esempio:

  • Testi
  • Immagini
  • Video/audio
  • email
  • Dati GPS
  • Stream multimediali
  • Sensori
  • Dispositivi mobile
  • Reti
  • File di log
  • Web e social network
  • Relazioni
  • Applicazioni transazionali
  • Altri dati non tradizionali
  • IoT (Internet of Things)
  • etc..

Gran parte di questi dati sono generati in tempo reale e su vastissima scala.

Esempi tipici di big data sono i dati generati dall’utilizzo dei social media (ad esempio sul data base di Facebook si generano ogni giorno oltre 500 terabyte  di nuovi dati, sotto forma di caricamenti di foto e video, scambi di messaggi, inserimento di commenti, ecc.) e le borse valori (la borsa valori di New York genera circa 1 terabyte di nuovi dati commerciali al giorno).

I big data possono essere di tre tipi:

  1. strutturato: quando i dati hanno un formato definito e pertanto possono essere archiviati, consultati ed elaborati in un database strutturato, come ad esempio dati transazionali o registrazioni finanziarie;
  2. non strutturato: quando i dati hanno di volta in volta una forma o una struttura differente, come documenti, file di testo, file multimediali, immagini, video ecc.;
  3. Semi-strutturato: quando i dati possono contenere entrambe le forme citate sopra, contengono etichette e marcatori che consentono di individuare una gerarchia dei dati stessi; un tipico esempio di dati semi-strutturati è costituito dal file XML e altri linguaggi di markup, l’e-mail, l’EDI eccetera.

 

Le caratteristiche dei big data: le 6 V

Nel tempo gli analisti hanno descritto vari modelli per definire le caratteristiche dei big data, come ad esempio quello delle 6 V:

  • Volume: il numero dei dati è talmente alto in quanto provengono da fonti disparate e sono dati per lo più non strutturati. Per fare degli esempi si pensi ai feed dei social, ai dati proveniente dai sensori integrati in migliaia di oggetti collegati alla Rete (Internet of Things), i dati che provengono dai clickstream degli utenti su un sito web o su un’app, e così via.
  • Velocità: tutti questi dati vengono raccolti velocemente e altrettanto velocemente devono essere elaborati ad una velocità tale da ritornare l’informazione in tempo reale. Uno dei vantaggi competitivi che ne ricava l’azienda sta proprio nella sua capacità di elaborare velocemente i big data per rispondere in real time alle esigenze del proprio target.
  • Varietà: i dati che vengono raccolti hanno formati davvero diversi tra loro e possono essere non strutturati, semi-strutturati o strutturati. Si raccolgono dati in formato video, testo, email, audio, e altri ancora.
  • Veridicità: poiché i big data hanno fonti e formati molto diversi può capitare che i dati raccolti risultino poco corretti e questo potrebbe fuorviare le analisi che ne conseguono; per questo motivo dare un indice di veridicità ai dati raccolti può essere sintomo di affidabilità della loro elaborazione.
  • Variabilità: ogni dato raccolto assume un significato ben preciso rispetto al contesto dal quale proviene pertanto l’elaborazione e l’interpretazione del dato non può prescindere dal contesto dal quale si è raccolto.
  • Valore: i big data raccolti devono essere trasformati in informazioni che per le aziende devono risultare dati di valore. Soltanto se questo valore sarà considerevole varrà la pena per l’azienda affrontare gli investimenti che la gestione dei big data comporta.

 

Perché sono importanti i big data

Le aziende utilizzano i big data per migliorare le operazioni, fornire un migliore servizio clienti, creare campagne di marketing personalizzate e intraprendere altre azioni orientare a migliorare il business con l’obiettivo finale di aumentare entrate e profitti. L’analisi dei big data offre quindi un potenziale vantaggio competitivo perché permette all’impresa di prendere decisioni aziendali più rapide e informate.

Ad esempio, i big data forniscono preziose informazioni sul comportamento e il profilo dei clienti, che le aziende possono utilizzare per perfezionare marketing, pubblicità e promozioni, aumentandone i tassi di conversione.  È possibile così valutare anche le preferenze in evoluzione dei clienti aziendali, diventando più reattivi ai desideri e alle esigenze dei clienti.

 

Cos’è la big data analytics

L’analisi dei big data (big data analytics) è un processo complesso effettuato con il fine di ottenere informazioni  e scoprire modelli nascosti, correlazioni e altre informazioni  per prendere decisioni in modo più accurato e veloce, utilizzando dati precedentemente inaccessibili o inutilizzabili.

Consiste nell’utilizzo di tecniche analitiche avanzate rispetto a data set molto grandi e diversificati, che includono dati strutturati, semi-strutturati e non strutturati provenienti da fonti differenti e di dimensioni tali (da terabyte a zettabyte) che superano la capacità dei database relazionali tradizionali di organizzare, gestire ed elaborare i dati.

Grazie a queste tecniche (che includono ad esempio il machine learning, la predictive analytics, il data mining, le analytics di testo e l’elaborazione del linguaggio naturale, eccetera) l’azienda può ottenere nuovi insight da origini dati precedentemente non sfruttate, elaborandole in modo indipendente oppure integrandole ad altri dati aziendali esistenti.