di Piero Giuseppe Goletto
Nel primo articolo di questa serie abbiamo accennato alla necessità di acquisire, standardizzare e in pratica “pulire” i nostri dati.
Questa è una necessità che sorge indipendentemente dallo strumento tecnico che si usa nella pratica; basterebbe prendere in mano le nostre agende cartacee e le nostre rubriche telefoniche per capire il problema.
Proviamo a entrare nel concreto, e per mostrare alcuni casi pratici useremo un foglio elettronico. La scelta dipende dal fatto che il foglio elettronico permette di visualizzare subito eventuali “anomalie”.
La prima anomalia che può verificarsi nei dati è un errore. Tralasciando gli errori di digitazione , l’esempio che proponiamo è abbastanza clamoroso: attribuire all’ex pilota di F1 Eddie Cheever un romanzo scritto da John Cheever (fig. 1)
IDL Libro | Autore | Titolo | Editore | Luogo |
51 | Cheever, John | Lo scandalo Napshot | Garzanti | Milano |
52 | Cheever, Eddie | Lo scandalo Napshot | Garzanti | Milano |
Fig. 1
La seconda anomalia che può verificarsi, tra le tante, è un’incongruenza nel formato dei dati. E’ quello che successe per esempio con l’anno 2000: non si poteva più avere date quali 23-02-67 perché trascorso il 1° gennaio 2000 queste sarebbero risultate ambigue. In realtà, i sistemi che gestiscono basi dati erano predisposti da tempo per gestire date anche più lontane; al di fuori delle basi dati insidie potevano manifestarsi ovunque.
La terza anomalia è una diversità nel formato dei dati. Un classico: nel mondo anglosassone i numeri con decimali sono rappresentati con il punto (il numero 3,14 viene indicato come 3.14). In una base dati i numeri devono sempre essere rappresentati in modo omogeneo.
Un altro passaggio che può rendersi necessario – e che può rivelarsi particolarmente importante se si considerano gli obblighi derivanti dalla normativa sulla protezione dei dati (GDPR) è la “normalizzazione” dei dati.
Qui proponiamo un caso pratico per il quale non occorre tenere conto di tale normativa
Si immagini di avere registrati su tabelle diverse i seguenti dati:
Tabella 1 – popolazione residente
Comune |
Maschi |
Femmine |
Totale |
Alba |
14.856 |
16.597 |
31.453 |
Borgo San Dalmazzo |
6.052 |
6.375 |
12.427 |
Cuneo |
26.868 |
29.256 |
56.124 |
Tabella 2 – Superficie (Kmq)
Comune |
Superficie |
Alba |
54,01 |
Borgo San Dalmazzo |
22,25 |
Cuneo |
119,88 |
Tabella 3 – Fuso orario
Comune |
Nazione |
Fuso Orario |
Alba |
IT |
GMT+1 |
Borgo San Dalmazzo |
IT |
GMT+1 |
Cuneo |
IT |
GMT+1 |
Londra |
UK |
GMT |
New York |
US |
GMT-5 |
Se dovessimo unificare soltanto questi dati l’operazione si potrebbe effettuare a mano, senza difficoltà, in poco tempo. Provate a immaginare di doverlo fare per tutti i Comuni italiani e, magari, per tutta una serie di dati storicizzati. Un modo per unificare questi dati è di disporre di una tabella coi codici dei Comuni.
A ogni Comune è assegnato un codice ISTAT e un codice catastale (dall’amministrazione finanziaria; è quello che si usa anche nel Codice Fiscale). Possiamo scegliere il codice Istat:
Tabella 3 – Codici Istat
Comune |
Codice Istat |
Codice Catastale |
Alba |
004003 |
A124 |
Borgo San Dalmazzo |
004025 |
B033 |
Cuneo |
004078 |
D205 |
Adesso siamo in grado, a parità di denominazione del Comune, di Codice Istat, o di Codice Catastale, di unificare i dati raccolti.
Con solo tre Comuni è molto intuitivo quello che facciamo, tant’è che mostriamo direttamente il risultato dell’unificazione.
Tabella 4 – Dati di alcuni comuni italiani
Comune |
Codice Istat |
Codice Catastale |
Superficie |
Maschi |
Femmine |
Totale |
Fuso orario |
Alba |
004003 |
A124 |
54,01 |
14.856 |
16.597 |
31.453 |
GMT+1 |
Borgo San Dalmazzo |
004025 |
B033 |
22,25 |
6.052 |
6.375 |
12.427 |
GMT+1 |
Cuneo |
004078 |
D205 |
119,88 |
26.868 |
29.256 |
56.124 |
GMT+1 |
Si noti, tra l’altro, che si sono presi in considerazione tutti gli elementi della tabella dei fusi orari aventi nazione = “IT” (codice che corrisponde all’Italia).
Si deve però pensare, come detto, che quanto da noi fatto manualmente nella gestione concreta delle basi dati viene fatto per migliaia o milioni di elementi attenendosi a procedure e processi ad hoc con passi di controllo e quadratura ben definiti.
I passi di controllo si avvalgono di programmi di diagnostica. Tali programmi non sono che un aiuto per la verifica, ma il primo strato di controllo rimane comunque l’intelligenza di chi lavora sui dati.
Le quadrature vengono realizzate sui dati in input e in output effettuando le sommatorie sulle quantità in ingresso e in uscita, in modo da sincerarsi che ancorché classificati in modo differente i totali corrispondano.