Dall’avvento dei Big Data ci troviamo a gestire non solo una grande quantità di dati, ma anche dati con differenti caratteristiche e formati. Il Data Lake (letteralmente “Lago dei dati”) è ciò che semplifica l’archiviazione di questo corpus sempre più eterogeneo. Saperlo padroneggiare vuol dire migliorare l’analisi e la gestione dei dati in azienda. In che modo? Scopriamolo in quest’articolo, realizzato dall’Osservatorio Big Data & Business Analytics della POLIMI School of Management.

Che cos’è il Data Lake?

Con il termine Data Lake, letteralmente “lago dei dati”, ci si riferisce ad un ambiente di archiviazione dei dati nel loro formato nativo, fin quando non è necessario dar loro una struttura.

Si tratta, in termini più tecnici, dell’applicazione del cosiddetto schema on-read(che si contrappone al più tradizionale schema on-write), in cui lo schema dei dati viene fornito nel momento dell’analisi e non nel momento dell’archiviazione. Grazie a questa modalità di gestione è possibile avere l’integrazione di elevate quantità di dati di qualsiasi formato (strutturati, semi-strutturati o non strutturati) e provenienti da qualsiasi fonte (sensoristica, Social Media, log di sistema, ecc.), in maniera molto più agile e scalabile, senza la necessità di predefinire in anticipo la struttura dei dati. Tale approccio offre una gestione dei dati più flessibile e una maggiore capacità di elaborazione e analisi, rispetto a soluzioni tradizionali come il Data Warehouse.

Per gestire i dati, anche le architetture tradizionali di Business Intelligence si sono rivelate inadatte per due principali motivi:

  • integrazione: se nei decenni scorsi poteva essere considerato normale creare dei silos di dati, separati per ogni funzione aziendale, questa configurazione architetturale non permette di sfruttare il potenziale dei Big Data. Integrare quanti più dati possibili è fondamentale per ricercare pattern nascosti e relazioni tra diverse fonti, al fine di estrarre informazioni utili alle decisioni di business;
  • eterogeneità di formato: i dati che possono e devono essere valorizzati non sono soltanto quelli aziendali, i cosiddetti dati transazionali. L’estrazione degli insight può anche essere abilitata dall’integrazione di dati con formati eterogenei, come per i dati web, Social, provenienti dai sensori, o addirittura a dati destrutturati quali immagini, testi o video. A differenza del Data Lake, le architetture tradizionali di storage non abilitano l’immagazzinamento di dati semi-strutturati o de-strutturati.

Data Lake e Data Warehouse: le principali differenze

Le differenze tra Data Lake e Data Warehouse, come abbiamo visto, riguardano principalmente il tipo di dati che gestiscono. Le caratteristiche distintive, però, non sono solo queste. Per fare chiarezza, ecco una panoramica delle loro principali differenze:

  • tipo di Dati: mentre il Data Lake gestisce dati strutturati, semi-strutturati e non strutturati (come immagini e log), il Data Warehouse si concentra su dati strutturati e organizzati;
  • struttura e archiviazione: il Data Lake archivia dati grezzi senza una struttura predefinita, permettendo una maggiore flessibilità. Il Data Warehouse, invece, archivia dati già trasformati e strutturati, seguendo uno schema definito;
  • scalabilità: se il Data Lake è altamente scalabile e adatto a gestire enormi volumi di dati non strutturati, il Data Warehouse è progettato per gestire principalmente dati strutturati, con una scalabilità più limitata per quelli non strutturati;
  • elaborazione e analisi: i dati nel Data Lake sono conservati grezzi e vengono elaborati solo quando necessario, mentre nel Data Warehouse sono pre-elaborati e pronti per analisi tradizionali e reporting;
  • usabilità e accesso: il Data Lake richiede competenze avanzate in data science per l’analisi dei dati non strutturati, mentre il Data Warehouse è più semplice da usare per analisi aziendali e reportistica grazie alla sua struttura definita;
  • costi: il Data Lake offre costi di archiviazione più bassi, grazie alla sua capacità di memorizzare dati grezzi e non strutturati, al contrario del Data Warehouse, che ha costi più alti a causa della necessità di pre-elaborare e strutturare i dati.

Nonostante queste considerazioni, va sottolineato che l’adozione di un Data Lake non comporta necessariamente l’abbandono delle soluzioni più tradizionali, come appunto il Data Warehouse. Il Data Warehouse, infatti, può essere utilizzato parallelamente al Data Lake per raccogliere dati strutturati provenienti da vari sistemi aziendali (come ERP e CRM) o da fonti esterne. La configurazione più avanzata è rappresentata quindi da un modello integrato, che valorizza le informazioni disponibili attraverso l’interconnessione tra dati strutturati (ad esempio, tabelle e database relazionali) e non strutturati (come immagini, file di log, sensori, ecc.), creando un insieme di informazioni che consenta analisi più pervasive e approfondite.

Perché adottare un Data Lake? I principali vantaggi

L’Osservatorio Big Data & Business Analytics ha raccolto negli anni molte testimonianze di aziende che hanno deciso di evolvere la propria infrastruttura, a partire proprio dalla costruzione di un Data Lake. Secondo la Ricerca, i principali vantaggi riguardano:

  • la possibilità di integrare una grande varietà di dati
  • un’analisi dati più veloce e scalabile

Analizziamo di seguito questi vantaggi più nel dettaglio.

Varietà e integrazione dei dati

Il vantaggio principale di adottare un unico repository di tutti i dati in forma grezza sta nella possibilità di correlare differenti fonti e tipologie. Questa evoluzione, all’apparenza strettamente tecnologica, può anche essere il principale elemento abilitante per lo sviluppo di una cultura data-driven in azienda. Questo è ad esempio stato il caso di lastminute.com group, che a partire dall’evoluzione tecnologica supportata da partner esterni ha poi dato vita a una struttura di Data Science interna all’azienda. 

Analisi dati più veloce e scalabile

La scalabilità e la velocità d’analisi che un’infrastruttura basata su un Data Lake permette di raggiungere possono essere estremamente superiori. È il caso di La Rinascente, in cui un progetto di rinnovamento infrastrutturale avviato nel 2018 permette oggi di integrare diversi terabyte di dati, sia raccolti in modalità batch sia con flussi in tempo reale – attraverso opportuni strumenti di front-end, quindi di reportistica e visualizzazione – per metterli a disposizione degli utenti di business con dashboard interattive.

In molti di questi casi il Cloud Computing rappresenta un elemento chiave, poiché ha permesso di creare soluzioni scalabili e di accelerare la distribuzione delle nuove piattaforme. Nell specifico, il Cloud consente una scalabilità illimitata, permettendo di archiviare grandi quantità di dati senza preoccupazioni per le limitazioni fisiche.

Inoltre, garantisce una flessibilità nella gestione di dati strutturati, semi-strutturati e non strutturati, senza la necessità di definire una struttura rigida. Il Cloud accelera anche il deployment delle soluzioni, migliorando la velocità e l’agilità nel rispondere alle esigenze aziendali. Infine, offre un’opportunità di ottimizzazione dei costi, consentendo di pagare solo per le risorse effettivamente utilizzate, evitando spese per hardware e infrastrutture dedicate.

Il Data Lake per l’integrazione dati nelle grandi aziende italiane

Per quanto riguarda le grandi aziende italiane, gli ultimi dati dell’Osservatorio sul tema mostrano come siano ancora la minoranza le aziende che hanno costruito un Data Lake (circa un’azienda su tre), mentre le restanti organizzazioni utilizzano Data Warehouse tradizionali o sistemi legacy, dove i dati sono suddivisi in Silos che non comunicano tra di loro.

Anche laddove esistono sistemi di storage di dati non strutturati (database di nuova generazione quali NoSQL o NewSQL), non sempre questi sono in comunicazione con il Data Warehouse aziendale. La sfida dell’integrazione rimane quindi una delle più difficili da superare, soprattutto se le analisi si basano anche su dati esterni (web, social, sensori, open data ecc…).

Oltre il Data Lake: il Data Lakehouse e il Data Hub

Negli ultimi anni, si è assistito a una significativa evoluzione nel panorama della gestione dei dati, con il passaggio dal concetto di Data Lake a nuovi approcci come il Data Lakehouse e Data Hub

Il Data Lake, inizialmente adottato per la sua capacità di accogliere grandi volumi di dati eterogenei, ha mostrato alcuni limiti nell’organizzazione, nella governance e nell’accesso efficiente ai dati.

Questa consapevolezza ha dato vita al concetto di Data Lakehouse, una soluzione che integra flessibilità e convenienza di un Data Lake con la struttura dati e le funzionalità Data Warehouse. Il Data Lakehouse cerca, dunque, di fornire una struttura più organizzata, con schemi predefiniti e controlli di qualità dei dati, consentendo al contempo l’analisi in tempo reale e l’accesso semplificato alle informazioni.

Parallelamente, ha guadagnato terreno il concetto di Data Hub, rappresentando un approccio architetturale più distribuito e interoperabile alla gestione dei dati.

Un Data Hub funge da punto centrale per la raccolta, l’archiviazione e la distribuzione di dati provenienti da diverse fonti, facilitando la condivisione e la collaborazione tra le diverse unità aziendali.

Questo approccio mira a creare un ecosistema flessibile in cui i dati possono essere utilizzati in modo collaborativo, promuovendo la coerenza e la sicurezza nella gestione delle informazioni.

div class=”hs-cta-embed hs-cta-simple-placeholder hs-cta-embed-187497707577″ style=”max-width:100%; max-height:100%; width:789px;height:292.390625px” data-hubspot-wrapper-cta-id=”187497707577″> Ti è piaciuto l'articolo? Accedi a tutte le altre risorse di Osservatori.net

Lascia un commento

Subscribe
Notificami
guest
1 Comment
Oldest
Newest Most Voted
Inline Feedbacks
View all comments
3 anni fa

Ottimo riassunto