I rischi del riutilizzo dei dati

di Bruce Schneier

Si è saputo della cosa a marzo: contrariamente a quanto negato per decenni, lo U.S. Census Bureau ha utilizzato la documentazione sui singoli individui per calcolare il numero di cittadini americani di origine giapponese durante la Seconda Guerra Mondiale.

Normalmente, il Census Bureau non può, per legge, rivelare informazioni che possano essere collegate a singoli individui; lo scopo della legge è quello di incoraggiare le persone a rispondere alle domande del censimento con precisione e senza paura. E mentre il Second War Powers Act del 1942 sospese temporaneamente tale protezione in modo da poter localizzare i cittadini americani di origine giapponese, il Census Bureau ha sempre dichiarato di aver fornito solamente informazioni generiche su quartieri e dintorni.

Una nuova ricerca dimostra che ha mentito.

L’incidente serve per illustrare in maniera emblematica uno dei problemi più spinosi dell’èra dell’informazione: i dati raccolti per uno scopo e poi utilizzati per un altro, ovvero il “riutilizzo dei dati”.

Quando pensiamo ai nostri dati personali, la cosa che più ci dà fastidio, di solito, non è la raccolta e l’utilizzo iniziali, ma gli usi secondari. A me personalmente fa piacere che Amazon.com mi suggerisca libri che potrebbero interessarmi, basandosi su quelli che ho già acquistato. Mi fa piacere che la linea aerea che uso più spesso sappia dove preferisco sedermi e che cosa mi piace mangiare durante il volo, e che la mia catena di alberghi favorita registri le mie preferenze in fatto di stanze. Non mi importa che il Telepass sia collegato alla mia carta di credito e che a ogni passaggio a un casello mi venga addebitato direttamente il pedaggio. Mi piace persino il riassunto dettagliato degli acquisti che la mia compagnia di carta di credito mi invia a ogni fine anno. Quel che non voglio, però, è che una qualsiasi di queste compagnie venda le mie informazioni a dei broker; né che alle forze dell’ordine sia permesso di frugare fra i miei dati senza un mandato.

Esistono due problematiche fastidiose legate al riutilizzo dei dati. Prima di tutto, perdiamo il controllo dei nostri dati. In tutti gli esempi elencati sopra, esiste un accordo implicito fra chi raccoglie le informazioni e il sottoscritto: i dati vengono ottenuti così da potermi offrire un qualche tipo di servizio. Tuttavia, una volta che chi raccoglie quei dati li rivende a un broker, la faccenda è fuori dal mio controllo. Quelle informazioni potrebbero comparire sullo schermo di un qualche televenditore, o in un rapporto dettagliato per un potenziale datore di lavoro, o come parte di un sistema di data mining per valutare il mio livello di rischio terroristico. Diventano parte della mia ombra di dati, che sempre mi segue ma che io non posso vedere.

Ciò naturalmente va a influenzare la nostra propensione a fornire qualsiasi genere di informazione. Il motivo per cui i dati del censimento USA sono stati dichiarati intoccabili per altri scopi era quello di calmare le paure degli americani, e di rassicurarli che avrebbero potuto rispondere alle domande in modo veritiero. Quanto accurati sareste voi nel compilare il modulo del censimento se sapeste che l’FBI li utilizzerebbe per cercare dei terroristi? Come sarebbero i vostri acquisti al supermercato se sapeste che c’è qualcuno che li sta esaminando e che sta giudicando il vostro stile di vita? Conosco molte persone che adulterano le informazioni intenzionalmente: compilano moduli dicendo menzogne per propagare dati sbagliati. Sono certo che molti di loro si comporterebbero diversamente se fossero certi che i dati venissero usati soltanto per gli scopi per cui sono stati raccolti.

La seconda problematica del riutilizzo dei dati sono i tassi di errore. Tutti i dati contengono errori, e usi diversi possono tollerare tassi di errore differenti. Quelle specie di database commerciali che si possono acquistare su Internet, per esempio, sono notoriamente zeppi di errori. Va bene: se avete appena comprato un database di cittadini americani ultra-ricchi appartenenti a una certa etnia, e il database presenta un tasso di errore del 10%, potete fattorizzarne il costo nella vostra campagna di marketing. Ma quello stesso database, con il medesimo tasso di errore, potrebbe rivelarsi del tutto inutile per le forze dell’ordine.

Comprendere i tassi di errore e come si propagano è cruciale quando si valuta un qualsiasi sistema che riutilizza i dati, specialmente se dev’essere utilizzato dalla polizia. Qualche anno fa Secure Flight, la seconda incarnazione del sistema di watch list della Transportation Security Administration, stava per utilizzare informazioni commerciali per assegnare alle persone un punteggio di rischio terroristico e determinare quanto sarebbero state interrogate o perquisite all’aeroporto. La gente si ribellò giustamente al pensiero di essere giudicata in segreto, ma vi fu un dibattito molto meno acceso per stabilire se i dati commerciali forniti dalle agenzie di credito fossero sufficientemente accurati per tale applicazione.

Un esempio ancora più eclatante dei problemi relativi ai tassi di errore è accaduto nel 2000, quando la Florida Division of Elections si impegnò insieme a Database Technologies (poi fusa con ChoicePoint) di eliminare i criminali condannati dagli elenchi elettorali. I database impiegati erano pieni di errori e le procedure di confronto approssimative, il che provocò la perdita dei diritti di voto per migliaia di persone (specie di colore), e quasi certamente cambiò il risultato di un’elezione presidenziale. Naturalmente esistono impieghi vantaggiosi di dati secondari. Si pensi per esempio alle informazioni mediche personali. Sono dati personali, intimi, e al tempo stesso di grande valore per la società se aggregati. Si pensi a che cosa si potrebbe fare con un database contenente le informazioni sanitarie di tutti: grandi studi per determinare gli effetti a lungo termine di certi farmaci e di opzioni di trattamento, di diversi fattori ambientali, di diverse scelte di stile di vita. Nascosto in quelle informazioni vi è un’enorme quantità di potenziale di ricerca importante, e vale la pena pensare a come ottenerle senza compromettere la privacy dei singoli.

Si tratta per la maggior parte di una questione di legislazione. La tecnologia da sola non potrà mai proteggere i nostri diritti. Vi sono semplicemente troppe ragioni per non fidarsi di essa, e troppi sistemi per sovvertirla. La privacy delle informazioni alla fin fine scaturisce dalle leggi, e forti protezioni legali sono essenziali per difendere i nostri dati dagli abusi. Ma allo stesso tempo la tecnologia rimane altrettanto fondamentale. Sia l’internamento dei giapponesi e l’epurazione degli elenchi elettorali della Florida dimostrano che le leggi possono cambiare, a volte assai rapidamente. Abbiamo bisogno di costruire sistemi dotati di tecnologie che proteggano la privacy e che limitino la raccolta di dati ove possibile. I dati che non vengono mai raccolti non possono essere riutilizzati. È molto difficile riutilizzare quei dati che vengono raccolti in forma anonima, o che vengono cancellati immediatamente dopo l’uso. È facile realizzare sistemi che raccolgono dati su tutto (è ciò che i computer fanno per natura), ma è molto meglio fermarsi e considerare quali informazioni sono necessarie e perché, e raccogliere soltanto quelle.

La storia ricorderà ciò che noi, nei primi decenni dell’èra dell’informazione, abbiamo fatto per favorire la libertà, i diritti e la democrazia. Abbiamo costruito tecnologie di informazione che hanno protetto le libertà delle persone anche in tempi in cui la società cercava di sconvolgerle? O abbiamo costruito delle tecnologie che potevano essere modificate facilmente allo scopo di osservare e controllare? È pessima igiene civica realizzare un’infrastruttura che può essere impiegata per favorire uno stato di polizia.

I dati individuali e l’internamento dei giapponesi: Scientific American, USA Today, Homeland Stupidity.

Database commerciali: Wholesale List, US Data Corp..

Secure Flight: EPIC.

Perdita dei diritti di voto in Florida nel 2000: The Nation

Questo articolo è originariamente apparso su Wired.com.

Pubblicato il 28 giugno 2007, traduzione italiana curata da Communication Valley

1 commento

nadia agustoni 15 Ottobre 2007 At 8:12 AM

” Si tratta per la maggior parte di una questione di legislazione. La tecnologia da sola non potrà mai proteggere i nostri diritti. Vi sono semplicemente troppe ragioni per non fidarsi di essa, e troppi sistemi per sovvertirla. La privacy delle informazioni alla fin fine scaturisce dalle leggi, e forti protezioni legali sono essenziali per difendere i nostri dati dagli abusi.”

Articolo interessante.

I commenti a questo post sono chiusi

I rischi del riutilizzo dei dati

Mi piace:

1 commento

articoli correlati

The clutch – canestri e razzismo sotto pressione (4/4)

The clutch – canestri e razzismo sotto pressione (3/4)

The clutch – canestri e razzismo sotto pressione (2/4)

The clutch – canestri e razzismo sotto pressione (1/4)

Etan Thomas: We matter – racial profiling in USA

Tre incontri sulla letteratura elettronica a Genova

I rischi del riutilizzo dei dati

Condividi:

Mi piace:

1 commento

articoli correlati

The clutch – canestri e razzismo sotto pressione (4/4)

The clutch – canestri e razzismo sotto pressione (3/4)

The clutch – canestri e razzismo sotto pressione (2/4)

The clutch – canestri e razzismo sotto pressione (1/4)

Etan Thomas: We matter – racial profiling in USA

Tre incontri sulla letteratura elettronica a Genova