di Giovanni Finetto e Paola Finetto
Per comprendere cosa sono i Big Data è sufficiente pensare al nostro quotidiano: ogni interazione sui social network, ogni click su un sito web o anche il semplice utilizzo dei nostri smartphone interconnessi generano una mole di dati incredibilmente elevata. In breve, sono tre le caratteristiche principali dei Big Data: volume, velocità, varietà. Si tratta, infatti, di enormi volumi di dati digitali, eterogenei per fonte e formato, analizzabili in tempo reale. La mera definizione di Big Data non è tuttavia sufficiente per offrire un quadro completo del fenomeno. Parlare di Big Data significa riferirsi a considerevoli quantità di dati ma ancora più impattante è ogni attività di raccolta, gestione e organizzazione di questi dati. È in corso una profonda trasformazione: cambia il processo di raccolta e gestione dei dati, si evolvono le tecnologie a supporto del ciclo di vita del dato e si sviluppano nuove competenze per la valorizzazione del dato.
Quanto vale il mercato dei Big Data in Italia e quali sono i progetti di spicco nel nostro Paese? Quali sono le metodologie di Analytics per fare business attraverso i Big Data? Quante e quali informazioni personali sono estraibili dai Big Data? Queste e molte altre sono le domande a cui rispondere, soprattutto perché l’utilizzo dei Big Data ha necessariamente un impatto significativo anche in ambiti trasversali e sensibili, come quello della sicurezza e protezione dei dati personali. Di Big Data Analytics si sente parlare ormai in ogni ambito. Oggi è possibile ottenere un vantaggio competitivo sul mercato proprio grazie a decisioni che l’imprenditore riesce ad assumere velocemente e in base alle informazioni ricavate dai Big Data Analytics: analisi di dati e fonti di dati, che offrono moltissime informazioni, tra l’altro, sulle preferenze di consumatori e clienti. Questo processo di analisi permette di ottimizzare anche le strategie commerciali e di marketing, sia nelle organizzazioni più grandi, che nelle piccole e medie imprese. Del resto, la rilevanza dei Big Data è confermata dai numeri: il mercato degli Analytics continua a crescere e la gestione dei Big Data si conferma ai vertici tra le priorità di investimento di CIO e Innovation Manager italiani.
Idati sonodiventati il nuovo petrolio ma la vera chiave competitiva, tanto per le grandi aziende quanto per le PMI, è costituita dallacapacità di estrarre valore dai dati. Questi ultimi, infatti, non hanno valore in quanto tali (ossia quali dati “grezzi”) ma in quanto elementi dai quali poter ricavare una qualche informazione economicamente rilevante. A questo fine è necessario sottoporre gli stessi dati “grezzi” (Big Data) ad attività di organizzazione, gestione, filtraggio ed estrazione. Le azioni propedeutiche allo sfruttamento dei Big Datasono principalmente le seguenti:
- raccolta, consistente nella generazione, acquisizione e memorizzazione dei dati;
- elaborazione, ossia estrazione, integrazione ed analisi dei dati;
- interpretazione e impiego dei dati medesimi.
Queste azioni presuppongono lo sfruttamento delle competenze e tecnologie di Analytics, capaci di trasformare i dati “grezzi” in informazioni di valore per i decision maker aziendali. L’utilizzo del data mining nella ricerca di mercato è diretto, infatti, ad ampliare la conoscenza su cui basare i processi decisionali e le strategie di business. La estrazione di dati (data mining) identifica l’insieme delle tecniche e delle metodologie volte a ricavare informazioni utili da grandi quantità di dati (es. banche dati, data warehouse, ecc.) attraverso metodi automatici o semi-automatici (es. apprendimento automatico) e l’utilizzo scientifico, aziendale, industriale od operativo delle stesse. In sostanza, il data mining è l’analisi, da un punto di vista matematico, eseguita su banche dati di grandi dimensioni, preceduta tipicamente da altre fasi di preparazione, trasformazione o filtraggio dei dati, tra cui il data cleaning. Le tecniche di data mining sono fondate su specifici algoritmi. I pattern identificati possono essere, a loro volta, il punto di partenza per ipotizzare e quindi verificare nuove relazioni di tipo causale fra fenomeni. In generale, possono servire in senso statistico per formulare previsioni su nuovi insiemi di dati. Ebbene, affinché l’informazione estratta dai dati esistenti sia significativa, e quindi potenzialmente utile, è necessario che tale informazione sia:
- valida
- precedentemente sconosciuta
- comprensibile.
In questo contesto, un pattern (schema) non è altro che la rappresentazione delle relazioni chiave che vengono scoperte durante il processo di estrazione dati: sequenze ripetute, omogeneità, emergenza di regole, ecc. Per esempio, se un pattern mostra che i clienti provenienti da una specifica area geografica sono molto propensi ad acquistare un particolare prodotto, allora una interrogazione (query) selettiva ad un data warehouse di probabili compratori potrà essere utilizzata per organizzare attività promozionali mirate. Oggi il data mining ha una duplice finalità:
- estrazione, con tecniche analitiche all’avanguardia, di informazioni implicite o nascoste, da dati già strutturati, per rendere tali informazioni disponibili e direttamente utilizzabili;
- esplorazione ed analisi, eseguita in modo automatico o semiautomatico, su grandi quantità di dati al fine di scoprire pattern (schemi o regolarità) significativi.
In entrambi i casi, i concetti di informazione e di significato sono legati strettamente al dominio applicativo in cui si esegue data mining. In altre parole, un dato può essere considerato interessante o trascurabile, a seconda del tipo di applicazione in cui si opera. Questo tipo di attività è cruciale in molti ambiti della ricerca scientifica, ma anche in altri settori (per esempio in quello delle ricerche di mercato). Nel mondo professionale è utilizzata per risolvere problematiche diversificate: dalla gestione delle relazioni con i clienti (CRM), all’individuazione di comportamenti fraudolenti, fino all’ottimizzazione di siti web. I fattori principali che hanno contribuito allo sviluppo del data mining sono:
- la grande disponibilità di dati digitali;
- il data storage poco costoso;
- i nuovi metodi e le innovative tecniche di analisi (apprendimento automatico).
Per quanto basato su processi di analisi, il data mining non dev’essere confuso con la statistica: quest’ultima permette di elaborare informazioni generali con riferimento ad una popolazione (es. percentuali di disoccupazione, nascite) o ad un insieme collettivo, mentre il data mining viene utilizzato per cercare correlazioni tra più variabili relativamente a singoli individui (ad esempio: conoscendo il comportamento medio dei clienti di una compagnia telefonica, si cerca di prevedere quanto spenderà il cliente medio nell’immediato futuro). Un altro concetto correlato al data mining è quello di apprendimento automatico (machine learning): l’identificazione di pattern può paragonarsi all’apprendimento, da parte del sistema di data mining, di una relazione causale precedentemente ignota, ciò che trova applicazione in ambiti come quello degli algoritmi euristici e dell’intelligenza artificiale. Tuttavia, occorre notare che il processo di data mining è sempre sottoposto al rischio di rivelare relazioni causali che potrebbero poi risultare inesistenti.
L’importanza dei Big Data e del data mining ha peraltro favorito l’affermazione del market for data: si è sviluppata l’attività di veri e propri brokers la cui occupazione consiste nel raccogliere grandi quantità di dati, per poi rivenderle agli operatori interessati, soprattutto per finalità di profilazione della clientela. Il mercato dei dati digitali è inarrestabile ma non sempre si svolge con modalità idonee a garantire la sicurezza dei dati medesimi. É in questo contesto che il 23 giugno scorso, con un provvedimento assunto a conclusione di una istruttoria avviata, a fronte di plurimi reclami, nei confronti di un gestore di siti web, il Garante Privacy italiano ha contestato violazioni sul trasferimento dei dati personali per il sito web che utilizza il tracciamento di Google Analytics. Nella sostanza, il Garante ha rilevato che il servizio Google Analytics, in quanto comporta il trasferimento di dati personali dalla UE verso gli Stati Uniti, se effettuato senza il rispetto delle garanzie minime previste dal Regolamento UE 679/2016 (GDPR), è illegittimo, poiché l’ordinamento statunitense non garantisce un livello di protezione dei dati personali pari a quello previsto dal GDPR. Si tratta, evidentemente, di un caso non isolato, ma che interessa la quasi totalità dei siti web italiani, considerata la posizione dominante sul mercato del servizio in esame. Neppure si tratta di un problema nuovo: le istituzioni europee da tempo affermano che un ordinamento come quello statunitense, peraltro frammentato con riguardo alla regolamentazione della data protection, non fornisce adeguate garanzie in termini di protezione dei dati personali, quantomeno non con riferimento alle garanzie specifiche di cui al GDPR. Nel tempo, Stati Uniti e Unione Europea hanno regolamentato con appositi accordi l’attività di trasferimento dalla UE agli USA di dati personali, così permettendo ai data importer americani (tra cui i provider di servizi digitali) di dare corso ai rispettivi business nel rispetto di specifici standard minimi di sicurezza. In tale direzione andava l’accordo “Safe Harbor” adottato nel 2000 ma invalidato dalla Corte di Giustizia della UE nel 2015 (con la sentenza Schrems I del 6.10.2015) in seguito all’emergere di evidenze sulla possibilità, per l’intelligence americana, di spiare la vita e le comunicazioni private dei cittadini anche europei con la “collaborazione” di Google, Facebook, Microsoft, Skype, Apple, Yahoo, AOL, etc. Successivamente, sempre al fine di regolamentare il trasferimento “sicuro” dei dati personali dalla UE verso gli Stati Uniti, è stato adottato nel 2016 il Privacy Shield, anch’esso tuttavia invalidato dalla Corte di Giustizia della UE con la sentenza “Schrems II” del 16.7.2020, con la quale si è evidenziato, tra l’altro, che né le misure previste nel Privacy Shield, né le clausole standard approvate dalla UE come strumento alternativo allo “scudo” possono, di per sé sole, rendere sicuro il trasferimento di dati personali dalla UE verso gli USA. Ebbene, con la sentenza Schrems II, la Corte di Giustizia dell’Unione Europea ha di fatto affermato la illegittimità del trasferimento di dati personali dalla UE verso gli USA, ribadendo come l’ordinamento statunitense non garantisca livelli di protezione dei dati pari a quelli di cui al GDPR e neppure assicuri che gli individui soggetti a intrusione potenzialmente illegale abbiano un diritto concreto e significativo di contestare il possibile illecito e chiedere che ne siano accertate le responsabilità. È dunque emerso in tutta evidenza che il trasferimento sic et simpliciter di dati personali dall’Europa agli Stati Uniti avviene in assenza delle specifiche garanzie previste dal GDPR. Google Analytics (al pari di altri provider statunitensi di servizi digitali) comporta un trasferimento verso gli Stati Uniti di dati personali potenzialmente utili a identificare gli utenti che visitano un sito internet che sia cliente di Google Analytics: indirizzi IP, identificativi di browser, connessione e tempo di connessione, tra gli altri. Sembra che Google si proponga di eliminare la versione Universal Analytics sostituendola, a partire dal 1° luglio 2023, con la versione Google Analytics 4. Non c’è tuttavia ancora alcuna garanzia che quest’ultima sia del tutto conforme al GDPR. Ora come ora, all’indomani del provvedimento del Garante Privacy italiano del 23.6.2022 (ma ci sono anche simili interventi del Garante Privacy austriaco e di quello francese), i Titolari del Trattamento potrebbero considerare di affidarsi ad altro provider di servizi di analitica che garantisca la piena conformità al GDPR, ad esempio selezionando fornitori che sappiano dare informazioni chiare su dove si trovano i data center in cui vengono archiviati i dati degli utenti, sulla criptazione di tali dati e su chi dispone delle chiavi di crittografia, sull’eventuale trasferimento extra UE di tali dati e in quale forma. Va peraltro segnalato che lo scorso 30 giugno il Garante Privacy italiano ha pubblicizzato l’approvazione, da parte dello European Data Protection Board, delle “Linee Guida sulle certificazioni come strumento per i trasferimenti”: si tratta di un documento (ancora in fase di consultazione nel momento in cui si scrive il presente contributo) che, ai sensi dell’art. 46 GDPR, potrebbe legittimare il trasferimento di dati personali extra UE. Anche in questo caso, comunque, non si può che restare in attesa della approvazione definitiva ed eventuale piena operatività di questo altro strumento, per capire se esso sia o meno applicabile anche al trasferimento di dati personali verso gli USA.
Nell’attuale contesto socioeconomico, i Big Data giocano un ruolo sempre più significativo: non si può non tenere in considerazione l’importanza che determinate informazioni hanno per lo svolgimento di una qualsiasi attività economica. In mancanza di informazioni adeguate, complete e immediate, che consentano di mettere in atto scelte consapevoli, difficilmente si potrebbe generare una strategia efficace. Di contro, la possibilità di raccogliere una quantità di dati sempre più elevata, unita a quella di estrazione delle informazioni che si ritengono necessarie (attraverso il data mining), rappresentano oggi due attività centrali nell’ambito di qualsivoglia business. Grazie, infatti, all’utilizzo di queste risorse è possibile accrescere l’efficienza dei processi produttivi, migliorare le capacità decisionali, prevedere con maggiore accuratezza le tendenze attuali e future e, in conseguenza di ciò, rendere più mirate e precise le attività commerciali nell’individuazione del proprio target di mercato.Tuttavia, se da un lato questa mole di dati può essere sfruttata come risorsa aziendale, dall’alto ne derivano innumerevoli rischi.
Alcune criticità riguardano le possibili derive anticoncorrenziali, laddove è pacifico ritenere i Big Data una risorsa capace di incidere profondamente sulle corrette dinamiche di mercato.Rispetto a questo tema, che involve la questione dei Big Data come input che consente di operare nei mercati digitali, si ritiene che alcune caratteristiche dei dati rendano sicuramente peculiare questa tipologia di bene rispetto ad altri input: tra queste caratteristiche si colloca la natura non rivale e non esclusiva dei Big Data:
- i Big Data non sono autonomamente controllabili da nessun operatore (perlomeno in astratto);
- il consumo di tale risorsa da parte di alcuni non ne riduce la possibilità di utilizzo da parte di altri.
Si tratta, comunque, di una tematica oggetto di vivi confronti in dottrina, anche perché, nel contesto dell’economia digitale, il fenomeno in esame è particolarmente rilevante. In ogni caso, sembra difficile sostenere che i Big Data sono concretamente accessibili a tutti e, soprattutto, con le stesse possibilità: i colossi del digitale (Google, Amazon, Facebook, Apple, Microsoft) hanno sicuramente disponibilità, in termini anche e soprattutto tecnologici, molto superiori a quelle di altri operatori!
In secondo luogo, sorgono preoccupazioni nell’ambito del rapporto tra Big Data e tutela della privacy degli utenti rispetto alla raccolta di personal data. Le tecnologie digitali, l’automazione e l’interconnessione hanno rivoluzionato lo scenario economico ma, allo stesso tempo, hanno aumentato enormemente il rischio derivante dagli attacchi cyber. In questo ambito rileva la Domain Threat Intelligence e, dunque, la conoscenza che permette di mitigare o prevenire gli attacchi cyber. Essa fornisce informazioni e indicatori utili per attuare migliori strategie di difesa e implementare la resilienza del perimetro aziendale. In questo caso, il processo di raccolta e analisi dell’informazione è in grado di dare forma a dati non strutturati per connetterli attraverso indicatori concreti con riguardo a livello e numero di vulnerabilità e alle possibili vie attraverso le quali gli hacker potrebbero agire. La Domain Threat Intelligence è in grado di fornire all’imprenditore strumenti immediati per contribuire in modo determinante alle decisioni strategiche aziendali. Usualmente si ripartisce la Threat Intelligence in tre categorie:
- strategica: quella più generalista, fornisce un’ampia panoramica delle minacce a cui è esposta un’organizzazione; è volta a supportare al meglio le decisioni di alto livello prese dai dirigenti e da altri responsabili decisionali di un’organizzazione; il suo contenuto è generalmente meno tecnico e viene presentato attraverso rapporti o briefing;
- operativa: fornisce dettagli specifici di una campagna di hacking criminale; fornisce approfondimenti specializzati che aiutano gli incident response team a comprendere la natura, l’intento e la tempistica di attacchi specifici;
- tattica: descrive le tattiche, le tecniche e le procedure degli hacker non etici ad un pubblico più specializzato (IT manager, amministratori di sistema, …).
Un servizio di Domain Threat Intelligence autenticamente efficace e utile per una organizzazione aziendale è quello che offre la possibilità di mappare e individuare eventuali informazioni pubbliche disponibili a livello OSINT e CLOSINT relative al target. Si tratta di un servizio che non effettua alcun test di sicurezza sul target ed opera unicamente sulle informazioni raccolte a livello OSINT1 e CLOSINT2 e disponibili nel dark web. La ricerca delle informazioni viene effettuata attraverso un processo di individuazione e selezione dei dati disponibili pubblicamente, relativi al dominio di interesse, potendo far emergere eventuali compromissioni di dominio, sottodominio ed e-mail.
Come rilevato dall’ENISA (l’Agenzia europea per la cybersicurezza)3, i Big Data sono al centro dell’evoluzione tecnologica, tanto da costituire la base di nuovi modelli di business ma, se da un lato essi possono supportare processi decisionali sempre più efficienti ed efficaci, dall’altro rischiano di esporre la sicurezza dei dati a rischi crescenti. Siffatti rischi non possono essere trascurati e, anzi, devono essere adeguatamente mappati e gestiti.
- OSINT: acronimo di Open Source Intelligence, fa riferimento al processo di raccolta d’informazioni attraverso la consultazione di fonti di pubblico dominio definite anche “fonti aperte”. ↩︎
- CLOSINT: acronimo di Close Source Intelligence, si riferisce al processo di raccolta d’informazioni attraverso la consultazione di “fonti chiuse“, non accessibili al pubblico o aree “riservate”. ↩︎
- https://www.enisa.europa.eu/topics/cloud-and-big-data/big-data ↩︎


