L’origine dei Big Data
A cura di:
Paolo Pasini, SDA Professor, Responsabile Unit Sistemi Informativi, SDA Bocconi School of Management
Nel 2010, il volume di dati disponibili nel web era di circa 500 miliardi di gigabyte (Bollier, 2010), le stime prevedono un loro aumento pari a 5 volte entro il 2015. In aggiunta anche la produzione interna alle aziende di dati è aumentata considerevolmente e ciò si manifesta nel fatto che oramai le dimensioni dei database devono essere misurate almeno in terabyte se non in petabyte o exabyte.
Questo fenomeno, per quanto suggestivo, non è sufficiente per definire i Big Data, in quanto l’esperienza ha messo in evidenza due aspetti fondamentali: a) all’interno di queste grandi masse di dati esiste una quantità notevole di ‘rumore’, di ‘ridondanza’ e di ‘garbage’ che ne riduce notevolmente il valore potenziale intrinseco; b) il volume dei dati senza la capacità di analisi e interpretazione ne annulla completamente il potenziale informativo.
Le origini dei Big Data risiedono quindi non solo nel volume dei dati digitali oggi disponibili, creati sempre più automaticamente e velocemente dalle persone nell’ambito privato, nell’ambiente fisico o in azienda (tramite smartphone, card magnetiche o con sensori, GPS, etc.), da cose (auto, beni in movimento, etc.) e dagli eventi (meteo, atterraggio degli aerei, pagamento finanziario, malfunzionamento di un distributore, etc.), ma anche nella disponibilità di nuove tecnologie di raccolta, storage ed elaborazione di questi dati e nella maggiore capacità analitica e interpretativa di cui le imprese possono dotarsi.
Un concetto ‘open ended’
Se molti sono concordi nel riconoscere la nascita di questo nuovo fenomeno e le sue origini, altrettanto non si può asserire sulla definizione dei suoi confini e delle sue caratteristiche principali.
Il McKinsey Global Institute ha definito i Big Data come “datasets whose size is beyond the ability of typical database software tools to capture, store, manage, and analyze” (Manyika, et al., 2011).
Tale definizione si focalizza ancora sull’enorme volume di dati prodotti e che devono essere trattati e sulle difficoltà che le aziende incontrano a fare ciò a causa della mancanza di strumenti IT adeguati. Questa definizione quindi, per esempio, non prende in considerazione le fonti generatrici dei dati che possono essere numerose e tra loro molto diverse.
Questo aspetto è, invece, enfatizzato da Aspen Institute che definisce i Big Data come “The explosion of mobile networks, cloud computing and new technologies has given rise to incomprehensibly large worlds of information” (Bollier, 2010).
Di conseguenza, si sta generando “an unimaginably vast amount of digital information which is getting ever vaster ever more rapidly […] and is being felt everywhere, from business to science, from government to the arts”(Economist, 2010). Le fonti di generazione di dati potenzialmente utilizzabili sono quindi molteplici e tra loro eterogenee, per esempio:
• Social networks e social media (Twitter, Facebook, blogs, forum, etc.);
• Email;
• Transazioni;
• Documenti cartacei digitalizzati;
• Registrazioni video;
• Registrazioni audio;
• Immagini;
• Dati di geo-posizionamento (GPS);
• Dati generati da trasmettitori e sensori (cellulari, wifi, bluetooth, Rfid, NFC, etc.), o misuratori digitali (digital meters);
• M2M (Machine to Machine) data – Internet of Things;
• Automazione processi produttivi;
• Digitalizzazione dei processi di R&D (nella bioinformatica e biogenetica, chimica, climatologia, etc.);
• Clickstream – Web Log.
Questa esplosione di dati, come già detto, richiede attenzione ad un altro aspetto determinante per poter trarre da questa potenziale ricchezza il valore ricercato: la capacità di analisi e interpretazione.
Il legame tra volumi di dati eterogenei e Business Analytics è infatti evidenziato da TWDI Research (The Data Warehousing Institute Research) che lo indica come una condizione indispensabile per poter indicare i Big Data come reale opportunità di generazione di valore (Eckerson, 2010).
Secondo questa prospettiva, una componente rilevante del fenomeno Big Data diventa la strumentazione informatica che rende possibile l’esplicitazione del valore insito nei dati con nuove informazioni e nuova conoscenza di business.
In particolare molto stretto è il legame tra Big Data e il campo della Business Intelligence/Business Analytics (BI/BA), nonché alcuni trend tecnologici, quali le data warehouse appliances, i BI cloud services e gli Hadoop/ MapReduce tools (Watson, 2012).
Cercando di sistematizzare le diverse definizioni e riflessioni fatte sul fenomeno Big Data, il Data Warehousing Institute (TDWI) ha costruito il cosiddetto modello delle 3v, che evidenzia le tre caratteristiche peculiari dei Big Data: volume, varietà e velocità (Russom, 2011).
I punti che seguono ne rappresentano un adattamento nel presente lavoro:
• Volume, che considera la dimensione, in termini di bytes, dei database utilizzati per archiviare i dati aziendali. Ad oggi, però non è stata definita una soglia che distingua tra ciò che è Big Data e ciò che non lo è, e probabilmente non ha neppure senso farlo;
• Varietà, che può essere intesa come molteplicità di fonti o come eterogeneità di formati dei dati. In prima istanza, infatti, si possono avere dati generati da diverse fonti interne o esterne. Questi dati poi possono avere diversi formati (database, testo, video, immagini, audio, etc.) riconducibili a tre categorie: dati strutturati, semi-strutturati e non strutturati1;
• Velocità, che si sostanzia nella velocità con cui i dati si generano, si raccolgono, si aggiornano e si elaborano (fino al Real Time).
Verso nuove frontiere della conoscenza aziendale e nuovi modelli di management
I Big Data possono cambiare i paradigmi di produzione delle informazioni in azienda e possono rappresentare per le aziende una grande opportunità se esse riescono a trovare il modo per dare un senso a queste nuove basi di dati che presentano uno ‘scope’ e un mix di varietà, di velocità e di volumi molto maggiori rispetto a prima.
Il problema si trasforma immediatamente in un problema analitico e cognitivo, in cui i due approcci progettuali classici della Business Intelligence/Analytics hanno ancora valore:
• Approccio ‘top-down’ (‘start with questions’), in cui si possiedono a priori delle ipotesi (che diventano i business requirements) da verificare e implementare con i nuovi dati a disposizione;
• Approccio ‘bottom-up’ (‘start with collecting data’), in cui si parte dai nuovi dati disponibili per ricercare l’‘inaspettato’, i nuovi modelli interpretativi e la nuova possibile conoscenza.
La nuova conoscenza aziendale e i possibili nuovi modelli di management (che costituiscono il valore aziendale potenziale dei Big Data) si concretizzano quindi in reali nuove analisi e insight, rese possibili dalle nuove tecnologie hardware e software di data generation e traceability, di intelligence e analisi, dai Cloud Services.
Mentre nel mondo fisico-scientifico e nella R&D (ad esempio in campo medico-sanitario e farmaceutico, nel campo della meteorologia e della previsione degli eventi naturali) il fenomeno dei Big Data già da tempo risulta evidente, nel mondo del management aziendale (strategie future di mercato o finanziarie, ottimizzazione dei processi aziendali core, insight sul comportamento dei clienti, etc.) il fenomeno è ancora sotto osservazione e in fase di comprensione per una corretta adozione e impiego.
Naturalmente ciò richiede di continuare in modo determinato e consapevole il percorso di investimento sulla cultura manageriale e decisionale più ‘fact-based’, più ‘wide scope’, avviata con la diffusione della Business Intelligence e delle Business Analytics nelle imprese che, insieme all’esperienza, all’intuito e alla casualità, possono contribuire a generare decisioni più razionali e più efficaci (Brynjolfsson, McAfee, 2012).
Esiste da anni un’ampia discussione sulle modalità con le quali le imprese dovrebbero dotarsi di queste capacità analitiche evolute: di fronte alle difficoltà di intervenire sui decision maker direttamente, il dibattito sull’opportunità e sulle caratteristiche del data scientist (Davenport, Patil, 2012) o del management scientist (Mintzberg, 1989), o del BI/BA Competence Center è ancora molto aperto.
Sicuramente l’esperienza dimostra che le imprese di maggior successo nel campo della BI/BA e oggi pioniere nei Big Data, hanno affrontato e risolto anche il problema della cultura e delle capacità analitiche, nonché la progettazione e il corretto posizionamento di unità analitiche dedicate, quali ad esempio il Competence Center, all’interno di un framework di BI/BA Governance a livello di impresa (Pasini, 2009; www.sdabocconi.it/obi)
In conclusione, proprio perché i Big Data sono un fenomeno potenziale a livello di impresa devono essere capiti e affrontati a livello di impresa, in modo trasversale, anche con ‘Big Brainstorming aziendali’, dove ad esempio i Comitati direttivi interfunzionali possono avere un ruolo decisivo nel lancio di una iniziativa Big Data strettamente legata agli obiettivi e alle priorità strategiche dell’impresa, per generare valore immediato e concreto. I casi aziendali che verranno descritti nella seconda fase della ricerca potranno aiutare a comprendere confini, ambito e impatti dei Big Data.
È un fenomeno di management, non solo di Ict!
Quanto appena descritto e l’interesse dimostrato da centri di ricerca o media di management, quali Harvard Business School e Harvard Business Review, MIT Sloan Management Review, The Datawarehousing Institute, Aberdeen, McKinsey Institute, IBM Institute for Busi- ness Value, University of Oxford, SDA Bocconi School of Management, testimoniano quanto il fenomeno dei Big Data porti con sé non solo nuove tecnologie e nuovi dati, ma soprattutto debba generare interesse per il management aziendale.
La definizione di Big Data
La definizione di Big Data adottata è la seguente:
Big Data è un nuovo concept di conoscenza aziendale degli oggetti e degli eventi di business che fa leva sull’attuale varietà dei dati, in termini di formati (strutturati e non strutturati) e fonti (interne ed esterne), sull’aumentata velocità di generazione, raccolta, aggiornamento ed elaborazione dei dati (in tempo reale, in streaming, dati ‘tracciati’) e sul crescente volume dei dati stessi, al fine di generare nuove analisi e insights, in ogni settore economico, in imprese di ogni dimensione, precedentemente considerate oltre le capacità tecniche e interpretative disponibili e per scoprire infine un nuovo potenziale valore di business; per ottenere questi risultati le imprese devono gestire gli appropriati fattori abilitanti, di tipo organizzativo, tecnologico e normativo.
Ricerca SDA Bocconi-IBM Italia-Cionet: “Big Data: nuove fonti di conoscenza aziendale e di modelli di management” |
P. Pasini e A. Perego |
Il campione: • 202 CIO e IT Executive di medio-grandi imprese italiane • Manifatturiero: 31%; Distribuzione e Logistica: 18%; Finance: 11%; PAL-Sanità: 18%, Servizi-Utilities: 22% • Medie Imprese (< 1000 dip.) 51%; Medio-grandi Imprese (1000-5000 dip.) 26%, Grandi imprese (> 5000 dip.) 23% • Aziende domestiche 49%; Multinazionali italiane 25%; Consociate di multinazionali estere 26% |
Management Summary |
I Big Data determinano un cambiamento dei paradigmi di produzione delle informazioni in azienda (con mix diversi di Velocità, Varietà e Volumi di dati generatori di diverse forme di valore nelle aziende) che può portare a nuove forme di conoscenza aziendale più ampia e profonda degli oggetti (clienti, prodotti, concorrenti, canali, etc.) e degli eventi (ordini, frodi e sinistri, pagamenti, trasporti, etc.) di business. Tuttavia questa consapevolezza è ancora parziale tra i CIO italiani. I CIO delle medio-grandi imprese italiane percepiscono nei Big Data un’opportunità per creare nuovo valore aziendale sfruttando diverse combinazioni di velocità e veridicità/qualità di dati prevalentemente esterni non strutturati che vanno ad arricchire le fonti di dati interni sia non strutturati (documenti dematerializzati e email) che strutturati (es. transazioni). In termini di benefici e impatti, il valore dei Big Data si sostanzia soprattutto in una maggiore comprensione del comportamento del mercato, in più veloci insight strategiche che ‘guardano’ il futuro, e in nuove piattaforme IT di data management (che affiancano o superano il concetto del Datawarehouse). In questo contesto il CIO gioca un forte ruolo da ‘pivot’ dei Big Data, ma non da solo; a seconda dei casi, al CIO si affianca il CEO, il CFO e il CMO; più efficace ancora nel promuovere iniziative di Big Data legate strettamente agli obiettivi strategici dell’impresa, è un Comitato interfunzionale di Executive che attivi ‘big brainstorming’ creativi su come conseguire risultati concreti, con convinzione e determinazione manageriale. Osservando lo stato dell’arte attuale, le imprese sono impegnate in forti investimenti riguardanti prioritariamente lo studio/analisi del mercato, i prodotti/servizi innovativi e l’efficienza dei processi aziendali. Solo per la prima area i Big Data hanno un riconoscimento di impatto diretto, benché i casi internazionali già dimostrino che, anche con riferimento alle altre due aree, essi siano in grado di produrre risultati molto interessanti. Sul fronte delle capacità di Information Management (o nelle fasi della Data Value Chain) i CIO si sentono più forti nel Data management che non nelle fasi di Intelligence e Analytics, queste ultime più di competenza delle direzioni di business o di staff aziendali. Oggi la maggioranza delle imprese si trova in una fase di comprensione dei Big Data (57%) e di studio delle preliminari questioni connesse alla privacy e alla sicurezza (25%); il 18% ha definito una strategia di Big Data o è in fase di studio di fattibilità o ancora ha lanciato progetti in questo ambito. Guardando avanti, gli enabler aziendali più importanti sono sempre il budget, la valutazione dei ritorni quantitativi, il committment direzionale e le competenze, mentre sul fronte degli enabler tecnologici sono le Business e Content Analytics e gli strumenti di integrazione dei dati (multifonti e multiformato) a giocare il ruolo maggiore. L’esternalizzazione delle tecnologie per i Big Data (in Outsourcing o Cloud) è più accolta nel sourcing e nello storage dei dati esterni. |
articolo, big data, ict, management, organizzazione, tecnologie