Înțelegerea datelor agregate, desidentificate și anonime

Înțelegerea datelor agregate, desidentificate și anonime

„Este posibil să împărtășim date agregate cu partenerii noștri.”

„Este posibil să împărtășim date care sunt agregate sau dezidentificate.”

„Produsul nostru colectează date anonime în scopuri de analiză.”

Multe organizații susțin că protejează confidențialitatea prin utilizarea de date agregate, desidentificate sau anonime. Cu toate acestea, utilizatorii lor înțeleg ce înseamnă termenii? Ce înseamnă date agregate? Există o diferență între datele dezactivate și cele anonime? Pentru cercetători, care seturi de date au o valoare mai mare: agregat sau anonim? 

Utilizatorii acceptă adesea schimbul de date personale cu dezidentificarea, fără a înțelege detaliile.

Dacă te-ai întrebat vreodată ce se întâmplă, nu te mai întreba. Iată ghidul dvs. pentru dezidentificarea, agregarea și diferitele niveluri de anonimat.

Date agregate: pentru a combina și a rezuma

Deci, ce înseamnă date agregate? Agregarea se referă la un proces de extragere a datelor popular în statistici. Informațiile pot fi vizualizate numai în grupuri și ca parte a unui rezumat, nu pentru fiecare individ. Atunci când oamenii de știință de date se bazează pe date agregate, nu pot accesa informațiile brute. In schimb, datele agregate colectează, combină și comunică detalii în ceea ce privește totalul sau rezumatul. Multe statistici populare și limbaje ale bazei de date permit funcții de agregare, cu tutoriale disponibile pentru R, SQL și Python.

Luați în considerare următoarele: o companie de marketing realizează un sondaj pentru a vedea dacă oamenii preferă marca companiei lor sau concurenții lor. Când prezintă datele conducerii, aceasta este sub formă agregată: arătând ce marcă este cea mai populară. Acestea pot include informații suplimentare despre grupurile cu care au vorbit, cum ar fi preferința de vot în funcție de vârstă sau locație. Cu informații agregate, putem obține detalii despre mărcile populare în funcție de vârstă sau în anumite regiuni, dar detaliile exacte despre modul în care persoanele au votat nu sunt niciodată dezvăluite.

Poate agregarea să protejeze confidențialitatea?

Deoarece agregarea datelor afișează informații doar în grupuri, mulți consideră că este o garanție pentru protejarea informațiilor personale. La urma urmei, nu puteți compromite confidențialitatea dacă datele arată doar rezultatele pentru grupuri de persoane, nu?

Din păcate, nu este atât de ușor;  cu o analiză corectă, informațiile cumulate pot dezvălui detalii personale semnificativ. Ce se întâmplă dacă întrebați datele despre blogul global: câți vizitatori obțineți din Irlanda, care văd blogul pe un smartphone? Ce se întâmplă dacă cereți numărul de vizitatori din Irlanda, care utilizează un smartphone, într-o singură zi? Sau vizitatori din Irlanda care folosesc un smartphone și au dat clic pe un anunț Amazon pentru articole de îmbrăcăminte într-o singură zi? Prin aplicarea mai multor filtre specifice, s-ar putea să fie posibil un singur individ, intenționat sau nu. Agregarea poate proteja confidențialitatea, dar nu există nicio garanție că o face întotdeauna.

Pentru organizațiile care utilizează agregarea datelor, Ed Felton împreună cu FTC are un avertisment: datele cumulate pot fi utile, dar nu garantează confidențialitatea.

„Simplul argument al faptului că este vorba despre date agregate, deci sigure de publicat, nu este de la sine însuși.”

Dezidentificare: eliminarea detaliilor personale

Dezidentificarea este un proces care elimină detaliile personale dintr-un set de date. Această abordare își propune să protejeze confidențialitatea, oferind în continuare date complete pentru analitice. Unele dintre date sunt mai bune la identificarea persoanelor decât la altele. Suntem ușor de identificat atunci când datele includ numele, adresa, e-mailul, data nașterii sau alți factori unici. Odată cu dezidentificarea, eliminăm acele date unice din datele brute. 

Un magazin cu amănuntul care folosește dezidentificarea poate urmări achizițiile individuale, datele și locațiile magazinului, dar poate elimina numele și adresele. În timp ce „Susan Smith de la 75 Clark Drive din Great Falls, Montana face magazine pentru cărți de inginerie”, baza de date a magazinului o înregistrează ca „utilizator al locației din Montana care cumpără cărți de inginerie”. Dezidentificarea scoate numele și identificatorii lui Susan, astfel încât achiziția ei ar putea veni de la oricine.

Dezidentificarea este o protecție de confidențialitate deosebit de populară cu clinicile și organizațiile care prelucrează informațiile de sănătate. Legea cu privire la portabilitatea și responsabilitatea asigurărilor de sănătate (HIPAA) abordează dezidentificarea în secțiunea 164.514. Potrivit HIPAA, informațiile sunt de-identificabile atunci când

„Nu există nicio bază rezonabilă, informațiile pot fi folosite pentru a identifica o persoană”.

HIPAA permite unele alocații pentru date desidentificate, cum ar fi divulgări pentru cercetare sau pentru funcționarii publici.

De la dezidentificat la reidentificat: s-ar putea să nu dureze mult.

Din păcate, pentru organizațiile care ar putea spera să utilizeze dezidentificarea ca garanție, mulți o consideră acum ca o protecție slabă. Oamenii pot fi identificați cu mai mult decât nume și numere, datorită seturilor de date detaliate. Dacă munca unui subiect de date este „Primar” și datele brute includ orașul, nu este nevoie de mult pentru a afla cine este cine.  

Un caz extrem de popular de evidențiere a defectului de dezidentificare a venit în 2006 cu Netflix. Conform Robert Lemos împreună cu SecurityFocus, într-un concurs pentru îmbunătățirea algoritmului companiei, Netflix a lansat un set de 2 milioane de abonați. Compania a dezidentificat setul de date eliminând numele de utilizator. Totuși, spre surprinderea lor, cercetătorii din Austin au putut identifica utilizatorii. Au făcut acest lucru prin utilizarea datelor disponibile și completarea semnalelor din alte surse: combinarea evaluărilor utilizatorilor cu o bază de date publică cu partituri ale filmelor. Inutil să spun, potrivit Epic.org, Netflix a anulat concursul.

De asemenea, dezidentificarea este defectuoasă, deoarece nu există niciun acord universal cu privire la informațiile care pot fi identificate personal. Sunt dezactivate datele dacă rămân adrese IP? Ce zici de datele nașterii? Există standarde, inclusiv portul sigur al HIPAA, dar sunt suficiente? Potrivit Privacy Analytics, parte a grupului de companii IQVIA, Safe Harbour „nu se asigură de fapt că riscul reidentificării este scăzut decât în ​​circumstanțe foarte limitate”. Aceasta este o veste proastă pentru organizațiile de sănătate care se bazează pe aceasta, deoarece HIPAA secțiunea § 164.514.2.ii, cotele pentru datele de identificare sunt acceptabile numai dacă nu există dovezi că datele pot fi reidentificate. Studii recente din ultimii zece ani, inclusiv Riscuri pentru confidențialitatea pacienților: o reidentificare a pacienților din datele din spitalul din statul Maine și Vermont acum înseamnă că sunt necesare noi standarde.  

Ce zici de datele codificate? tokenizarea?

Datele codificate și tokenizarea sunt modalități solide de a proteja datele sensibile. Pentru datele codificate, toate informațiile sensibile sunt eliminate și înlocuite cu cuvinte de cod, numere sau identificatori unici. Codurile asigură o altă bază de date sau document care funcționează ca cheie. Informațiile sunt reidentificate prin potrivirea codului cu datele sale sensibile corespunzătoare.  

În tokenizare, automatizăm procesul, înlocuind datele sensibile cu o variabilă de referință. Hărți cu jeton cu o bază de date mai sigură care conține informațiile sensibile. Când prelucrați informații, sistemul analizează tokenurile cu înregistrări în baza de date sigură. Dacă găsește potrivirea corespunzătoare a jetonului, procesarea continuă folosind datele sensibile. 

Datele codificate și jetoanele protejează securitatea informațiilor. Sunt eficiente, deoarece ascund doar date sensibile. Dacă un analist dorește să proceseze datele fără a face referințe la datele personale, poate. De asemenea, seturile de date care utilizează identificatori de cod sau jetoane sunt mai sigure împotriva furtului. Dacă datele sunt compromise, datele sensibile rămân ascunse. De exemplu, un atacator care fură date despre vânzările de carduri de credit nu poate vedea numerele de card dacă sunt utilizate jetoane. 

Cu toate acestea, fiți conștienți că, în timp ce token-urile, datele codificate și identificatorii unici oferă o mai bună securitate, acestea nu fac ca datele să fie anonime. Datele care utilizează jetoane sau identificatori de cod sunt încă supuse reglementărilor de confidențialitate. Legile de confidențialitate nu se referă exclusiv la încălcarea și accesul datelor. Legislațiile privind confidențialitatea acționează pentru a minimiza potențialul de utilizare incorectă a datelor cu caracter personal. Atâta timp cât datele pot fi reidentificate, cu autorizația, trebuie să existe acorduri de confidențialitate. 

Date anonime: nu putem spune cine sunteți ... sau putem?

Datele anonime se referă la informații atunci când este imposibil de identificat persoane.  Seturile de date cu adevărat anonime sunt visul unui pasionat de confidențialitate. Capacitatea de a colecta, stoca și analiza date fără capacitatea de a recunoaște persoanele face o protecție ideală. Pentru organizațiile care reușesc să își păstreze datele anonime, beneficiile sunt uriașe. Datele anonime sunt mai ușor de vândut, procesat, analizat și păstrat, deoarece necesită mai puține garanții pentru protecție. 

Se aplică mai puține reguli: datele anonime sunt adesea scutite de legislațiile privind confidențialitatea, inclusiv Regulamentul general privind protecția datelor E.U. Potrivit GDPR, informațiile „care nu se referă la o persoană fizică identificată sau identificabilă sau la datele cu caracter personal redate anonim, astfel încât persoana vizată nu este sau nu mai este identificată” nu este supusă cerințelor de confidențialitate.

Cum faceți ca datele să fie anonime? Majoritatea tehnicilor se încadrează într-una din cele trei categorii: criptografică, generalizare (cunoscută și sub denumirea de recodare) și randomizare. 

Metode criptografice criptați informațiile în stocare, făcând datele anonime până când sunt decriptate pentru utilizare. Acest lucru protejează datele, dar înseamnă că reidentificarea poate avea loc atunci când datele sunt decriptate pentru procesare. 

Tehnici de generalizare împrumuta din agregarea și dezidentificarea datelor, pentru a elimina în mod deliberat identificatorii și a reduce datele precise. În generalizare, de exemplu, înălțimea sau greutatea unei persoane devine un interval, în loc de numărul exact. 

randomizare frânează rezultatele adăugând date și mișcând elemente în așa fel încât rezultatele reidentificării să fie pline de erori. Îndrumările de gestionare a datelor din Arhiva de Științe Sociale din Finlanda oferă explicații detaliate despre tehnicile de anonimizare a datelor calitative și cantitative.

De ce este posibil să avem nevoie să renunțăm la ideea de date anonime cu totul

Din păcate, posibilitatea ca datele personale să fie anonime nu mai poate fi o opțiune. Ingeniozitatea care poate fi folosită pentru reidentificarea indivizilor este complet uluitoare. Scriind pentru The Guardian, Olivia Solon enumeră exemple de folosire a fotografiilor de paparazzi și a jurnalelor de taxi fără nume pentru a stabili cele care au rămas cu celebre. Cory Doctorow scrie pentru BoingBoing.net că jurnalistul Svea Eckert și omul de știință de date Andreas Dewes au identificat regimul de medicație al unui parlamentar german prin datele colectate de plug-in-urile browserului. În iulie 2019, jurnalista New York Times, Gina Kolata, a publicat dovezi conform cărora oamenii de știință pot reidentifica datele „anonimizate” ale recensământului american. Între progresele din știința datelor și o mulțime din ce în ce mai mare de date care să completeze lacunele, conceptul de date anonime poate deveni lipsit de sens.

Deci, dacă niciuna dintre aceste tehnici nu protejează pe deplin confidențialitatea, ce facem?

În primul rând, recunoașteți că, deși seturile de date agregate, desidentificate și anonimizate nu protejează complet confidențialitatea, acestea oferă totuși un anumit nivel de protecție. Dacă datele dvs. sunt agregate, dezidentificate sau anonimizate, există mai puține șanse ca acestea să fie citite de către procesatori zilnic. Din fericire, extragerea informațiilor personale din aceste date puternic prelucrate necesită instrumente și abilități care nu sunt disponibile pentru fiecare persoană în parte.  

În al doilea rând, fiți conștienți dacă vedeți aceste expresii în politicile de confidențialitate sau în termenii de utilizare că informațiile dvs. personale sunt încă accesibile. Un serviciu care colectează date anonime poate fi în continuare colectarea de informații personale. Companiile care împărtășesc informații agregate sau dezafectate încă împărtășesc detalii personale: care sunt sentimentele tale în acest sens? 

Dacă operezi o afacere care utilizează agregarea, desidentificarea sau anonimizarea, recunoașteți că acestea nu pot fi singurele dumneavoastră garanții. Ar trebui să aveți în continuare alte măsuri de protecție fizică, tehnică și administrativă. O încălcare de date a datelor desidentificate vă poate costa în continuare, în special dacă există dovezi că datele personale pot fi colectate. Utilizați aceste tehnici ca instrument, dar nu finalul tuturor programelor de confidențialitate și securitate.

Vezi si: Tendințe privind încălcarea datelor 

Brayan Jackson
Brayan Jackson Administrator
Sorry! The Author has not filled his profile.
follow me

About the author

Leave a Reply

Your email address will not be published. Required fields are marked *

8 + = 15

Adblock
detector