Il Data Management, letteralmente gestione dei dati, è un’espressione che apre a diversi scenari e innesca più di un dubbio. A oggi, in tempi in cui “il dato” è considerato il nuovo petrolio, occuparsi di Data Management vuol dire maneggiare qualcosa di complesso ma fondamentale per il successo di un’azienda.

L’avvento dei Big Data e delle cosiddette 5V (Volume, Velocità, Varietà, Veridicità, Variabilità), ha infatti rivoluzionato i processi di manipolazione e analisi dei dati. Anche l’introduzione del GDPR, Il Regolamento europeo sulla protezione dei dati personali, ha contribuito a questo processo. Esso, infatti, ha imposto maggiore attenzione su come i dati vengono trattati, da quali soggetti e con quali finalità.

In questo articolo, capiremo qual è l’impatto di questo cambiamento sulla gestione dati, cosa significa oggi Data Management e come realizzare una corretta strategia di Data Management. Ma non solo. A queste e a molte altre sono le domande cercheremo di dare una risposta grazie al contributo della Ricerca dell’Osservatorio Big Data & Business Analytics della POLIMI School of Management.

Cosa significa Data Management

Prima di entrare nel dettaglio su come costruire una strategia di gestione dei dati, diamo una definizione chiara su cosa significa Data Management. Per farlo ci serviremo della definizione internazionale data dal DAMA-International (Global Data Management Community). In breve, si può dire che:

Con il termine Data Management ci si riferisce allo “sviluppo e esecuzione di architetture, policy, pratiche e procedure che permettono di gestire propriamente le esigenze legate al ciclo di vita dei dati all’interno di un’azienda”.

Come si può notare, il termine Data Management è molto ampio e comprende non solo aspetti tecnologici, ma anche aspetti organizzatividi processo e di compliance. Al centro e alla base di questa vasta tematica, si inserisce la creazione di una strategia interna. Questa, poi, dovrà definire i processi decisionali e le responsabilità su tutto ciò che i riguarda i dati aziendali.

Questa strategia – nota come strategia di Data Governance – si pone l’obiettivo di “governare” i dati e monitorarne il percorso all’interno dell’organizzazione. In altre parole, ciò significa saper rispondere tempestivamente e con certezza a domande come Chi ha la responsabilità su questo set di dati? Qual è il contesto normativo e qual è il suo impatto sull’utilizzo di questi dati? Chi ha utilizzato questi dati prima di me? Da dove provengono? La versione che sto guardando è l’ultimo aggiornamento disponibile?.

Il Data Management ai tempi dei Big Data

Dopo aver compreso nel dettaglio cos’è il Data Management, capiamo perché, in una strategia aziendale di gestione dei dati, cosa significa dover gestire in azienda basi dati molto più ampie ed eterogenee, non solo. Cosa significa gestirle attraverso metodologie di analisi più sofisticate e sistemi di elaborazione delle informazioni sempre più performanti e rapidi? Per dare una risposta a questi quesiti, ci baseremo sulla ricerca dell’Osservatorio Big Data.

L’Osservatorio, infatti, ha affrontato più volte questi temi, confrontandosi con organizzazioni della domanda e dell’offerta e con esperti del settore. Tutto ciò per offrire una panoramica di sintesi dell’impatto dei Big Data sulla gestione delle informazioni. In base ai dati raccolti nella ricerca, si può dire che:

il concetto di fondo è che un approccio maturo agli Analytics non risiede in un utilizzo indiscriminato e disordinato di informazioni inaffidabili, ma nella capacità di governare ampie moli di dati con processi e strumenti tecnologici che permettano di ridurre il meno possibile flessibilità e agilità dell’infrastruttura.

I modelli più diffusi di gestione dei dati: database, data lake e data warehouse

Nel contesto della gestione e analisi dei dati, le aziende possono adottare diversi modelli di archiviazione e organizzazione delle informazioni, a seconda delle loro esigenze e dell’utilizzo che intendono farne. I tre approcci principali sono i database tradizionali, i Data Warehouse e i Data Lake.

  • Database relazionali: rappresentano il modello più consolidato per l’archiviazione e la gestione dei dati. Organizzati in tabelle e basati su linguaggi come SQL, i database relazionali vengono utilizzati per applicazioni aziendali operative, come i sistemi gestionali e le piattaforme e-commerce. La loro struttura rigida garantisce coerenza e integrità dei dati, rendendoli ideali per operazioni frequenti e transazioni in tempo reale.
  • Data Warehouse: progettati per l’analisi e la business intelligence, i Data Warehouse aggregano dati provenienti da diverse fonti aziendali, consentendo analisi storiche e strategiche. Strutturati e ottimizzati per query complesse, questi sistemi supportano strumenti di reportistica avanzata e Data Visualization. Tra le piattaforme più utilizzate troviamo Amazon Redshift, Google BigQuery e Snowflake.
  • Data Lake: utilizzati per archiviare enormi volumi di dati in formati eterogenei (strutturati e non strutturati), i Data Lake offrono maggiore flessibilità rispetto ai Data Warehouse. Grazie alla possibilità di gestire dati grezzi e non ancora elaborati, permettono analisi più avanzate, come l’addestramento di modelli di Machine Learning. Tuttavia, senza un’adeguata governance, il rischio è quello di trasformare un data lake in un “data swamp”, ovvero un contenitore caotico e poco utilizzabile. Soluzioni come Azure Data Lake, AWS Lake Formation e Google Cloud Storage facilitano la gestione di questi ambienti.

Ogni modello ha specifici vantaggi e limitazioni, e la scelta dipende dal tipo di analisi da effettuare e dalla strategia aziendale in termini di gestione dei dati. Sempre più aziende adottano approcci ibridi, combinando database operazionali, Data Warehouse per la Business Intelligence e Data Lake per l’analisi avanzata, al fine di ottenere il massimo valore dai propri dati.

I diversi sistemi di Data Management: integrazione, gestione e analisi dei big data

Con l’aumento esponenziale della quantità di dati prodotti ogni giorno, la gestione efficace dei dati è diventata un aspetto cruciale per le aziende. Il Data Management comprende un insieme di processi e tecnologie che consentono di raccogliere, archiviare, elaborare e analizzare i dati in modo efficiente e sicuro. Si articola in tre principali aree: integrazione, gestione e analisi.

  • Integrazione dei dati: le aziende raccolgono dati da fonti eterogenee (CRM, ERP, IoT, Social Media, siti web, transazioni finanziarie) e devono integrarli in un sistema unico e coerente. Strumenti come ETL (Extract, Transform, Load) e ELT (Extract, Load, Transform) vengono utilizzati per trasferire e trasformare i dati prima della loro analisi. Soluzioni come Apache Nifi, Talend e Informatica PowerCenter facilitano il processo di integrazione automatizzandolo.
  • Gestione dei dati: una volta integrati, i dati devono essere archiviati e resi accessibili in modo sicuro ed efficiente. Qui entrano in gioco tecnologie come database relazionali (MySQL, PostgreSQL, SQL Server), Data Warehouse (Google BigQuery, Amazon Redshift, Snowflake) e Data Lake (AWS Lake Formation, Azure Data Lake). Inoltre, la gestione dei dati implica anche la Data Governance, che garantisce la qualità, la conformità normativa (GDPR) e la protezione delle informazioni sensibili.
  • Analisi e valorizzazione dei dati: l’ultimo step del Data Management è trasformare i dati in insight strategici. Gli strumenti di Business Intelligence (Power BI, Tableau, Looker) consentono di creare report e dashboard per prendere decisioni informate. Nei contesti più avanzati, vengono applicate tecniche di Data Science e Machine Learning, con l’utilizzo di linguaggi come Python e R e framework come TensorFlow e Scikit-learn, per prevedere trend di mercato, ottimizzare processi e personalizzare l’esperienza cliente.

Un’azienda che implementa correttamente un sistema di Data Management riesce a trasformare grandi quantità di dati grezzi in un asset strategico, migliorando la competitività e supportando l’innovazione.

Le sfide del Data Management oggi

Per avere una buona strategia di Data Management, come accennato precedentemente, ci sono diverse sfide da affrontare per ogni azienda. Di seguito, ecco spiegato le più importanti.

Garantire la Data Quality su dati estremamente eterogenei

La mole di dati presenti nelle organizzazioni è di diverse tipologie e proveniente da fonti differenti. Nel 2018 il 60% delle grandi aziende ha dichiarato di acquisire dati dall’esterno. Questa varietà apre la porta a tantissime opportunità e potenzialità, ma ha conseguenze immediate sulla definizione degli standard di Data Quality.

Proviamo a rendere più concreto questo concetto. La raccolta di dati strutturati da sistemi transazionali permette di sistematizzare delle policy di garanzia di qualità del dato in fase di design. I processi di Extract, Trasform and Load (ETL) rispondono anche a questo obiettivo: consolidare i dati, cioè, garantirne l’omogeneità, in funzione delle logiche di business. Il Data Lake invece acquisisce i cosiddetti dati grezzi, senza che vi sia alcuna trasformazione degli stessi in fase di raccolta. Di conseguenza, saranno necessari dei tool che, nel momento in cui il dato viene utilizzato, riescano a trasformarlo, eliminando duplicati o osservazioni anomale, rendendo omogenea la scrittura di alcune informazioni, verificandone la coerenza interna e così via.

Tanto più i dati non sono strutturati (testi, immagini ecc.…) e tanto più provengono da una varietà di fonti (dati web o social, dati da sensori, open data ecc.…), tanto più sarà complesso garantirne pulizia, correttezza e affidabilità in maniera tempestiva.

Costruire un’infrastruttura flessibile e aperta garantendo una visione unica sui dati

Forse il principale trade-off da dirimere. L’infrastruttura di Analytics è una macchina estremamente complessa, che si avvale, specialmente nei casi più moderni, di una pluralità di strumenti: proprietari e open source, in cloud e on-premises e così via. La flessibilità è una condizione necessaria e ciò porta, da un punto di vista tecnologico, a dover integrare sistemi differenti. Ma non solo. Anche i dati dovranno comunicare tra loro.

Proprio per risolvere questo problema, si stanno diffondendo sistemi di data cataloging e di gestione dei metadati, che permettono di dare lo stesso significato a dati provenienti da diverse fonti, al fine di uniformarne l’interpretazione agli occhi degli utenti di business. Nel mentre, aumentano gli strumenti tecnologici in grado di gestire numerose di tipologie di dati, anche non strutturati.

Aumentare i data user garantendo sicurezza e privacy delle informazioni

Uno dei principali trend del momento, in ambito Analytics, è quello del Self-Service Data Analytics. Le aziende necessitano di strumenti che siano immediatamente fruibili da utenti senza conoscenze informatiche o statistiche avanzate, ma che diano l’opportunità di esplorare i principali KPI aziendali in maniera interattiva, dinamica e personalizzabile. Quest’impegno è sicuramente virtuoso e dà vita a un percorso di maggiore consapevolezza sull’importanza dei dati. Tuttavia, se l’azienda adotta un approccio Self-Service, tenere al sicuro gli elementi fondanti della business strategy diventa imprescindibile. Al contempo, le normative sulla privacy impongono e imporranno sempre di più dettami stringenti sul trattamento dei dati.

Ci si trova quindi alla ricerca di un equilibrio precario, in cui un’eccessiva attenzione alle problematiche di security e privacy potrebbe ridurre il valore che i dati portano in azienda, mentre un eccessivo disinteresse potrebbe causare immediate perdite monetarie.

L’importanza del Data Management oggi

Partiamo dal principio. Quando l’Harvard Business Review, nel 2012, definì il Data Scientist come il “lavoro più sexy del XXI secolo”, probabilmente i lettori dell’articolo immaginavano lo sviluppo di modelli e metodologie di analisi sofisticate, in grado di estrarre dai dati informazioni sorprendenti. Eppure, ancora oggi, i cosiddetti “Data Scientist” – ovvero figure iper-specializzate che di regola hanno almeno una laurea – si trovano a dover spendere ore e ore nella pulizia di basi di dati disordinate, su cui non c’è la giusta documentazione o di cui addirittura non si conosce la versione corretta.

Nel momento in cui i dati diventano più eterogenei, le tecnologie più complesse, le metodologie più avanzate e i risultati delle analisi giocano un ruolo fondamentale nei processi decisionali, avere dati di buona qualità e gestirli in maniera conforme alle normative sono prerequisiti necessari per trasformarsi in un’azienda data-driven.

Lascia un commento

Subscribe
Notificami
guest
0 Commenti
Oldest
Newest Most Voted
Inline Feedbacks
View all comments