Разбиране на съвкупни, де-идентифицирани и анонимни данни

Разбиране на съвкупни, де-идентифицирани и анонимни данни

„Може да споделяме обобщени данни с нашите партньори.“

„Можем да споделяме данни, които са обобщени или де-идентифицирани.“

„Нашият продукт събира анонимни данни за аналитични цели.“

Много организации твърдят, че защитават неприкосновеността на личния живот чрез използването на обобщени, де-идентифицирани или анонимни данни. Разбират ли обаче техните потребители какво означават термините? Какво са обобщени данни? Има ли разлика между де-идентифицираните и анонимните данни? За изследователите кои набори от данни имат по-голяма стойност: съвкупност или анонимност? 

Потребителите често се съгласяват да споделят лични данни с деидентификация, без да разбират подробностите.

Ако някога сте се чудили какво става, не се чудете повече. Ето вашето ръководство за деидентификация на данни, обобщаване и различните нива на анонимност.

Обобщени данни: за комбиниране и обобщаване

И така, какво е обобщена информация? Обобщаването се отнася до процес на извличане на данни, популярен в статистиката. Информацията е видима само в групи и като част от обобщение, а не за отделните лица. Когато данните учени разчитат на обобщени данни, те не могат да получат достъп до суровата информация. Вместо, обобщени данни събира, комбинира и съобщава подробности по отношение на суми или резюме. Много популярни езици за статистика и база данни позволяват агрегирани функции, като ръководствата са достъпни за R, SQL и Python.

Помислете следното: маркетингова компания провежда проучване, за да види дали хората предпочитат марката на тяхната компания или конкурентите си. Когато представят данните на мениджмънта, това е в обобщен вид: показва коя марка е най-популярна. Те могат да включват допълнителна информация за групите, с които са разговаряли, като предпочитания за гласуване според възрастта или местоположението. С обобщена информация можем да получим подробности за това кои марки са популярни по възраст или в определени региони, но точните подробности за това как хората са гласували, никога не се разкриват.

Може ли агрегацията да защити поверителността?

Тъй като събирането на данни показва информация само в групи, мнозина смятат, че това е гаранция за защита на личната информация. В крайна сметка не можете да компрометирате поверителността, ако данните показват резултатите само за групи от хора, нали?

За съжаление не е толкова лесно;  с правилния анализ, обобщената информация може да разкрие значително лични данни. Какво ще стане, ако попитате съвкупните данни от блога: колко посетители получавате от Ирландия, които гледат блога на смартфон? Ами ако попитате за броя на посетителите от Ирландия, които използват смартфон, за един ден? Или посетители от Ирландия, които използват смартфон, и кликнат върху реклама на Amazon за мъжко облекло за един ден? Чрез прилагане на няколко специфични филтри може да бъде възможно да се отдели отделно, умишлено или не. Агрегацията може да защити поверителността, но няма гаранция, че тя винаги го прави.

За организации, които използват събиране на данни, Ед Фелтън с FTC има предупреждение: обобщените данни могат да бъдат полезни, но не гарантират поверителност.

„Простият аргумент, че това е обобщена информация, следователно безопасна за пускане, сама по себе си не е достатъчна.“

Де-идентификация: премахване на лични данни

Деидентификацията е процес, който премахва личните данни от набор от данни. Този подход има за цел да защити поверителността, като същевременно предоставя всеобхватни данни за анализи. Някои от данните са по-добри за идентифициране на индивиди, отколкото други. Лесно можем да идентифицираме кога данните включват нашето име, адрес, имейл, дата на раждане или други уникални фактори. С деидентификацията премахваме тези уникални идентификатори от необработените данни. 

Магазин на дребно, който използва де-идентификация, може да проследява отделни покупки, дати и места за съхраняване, но премахва имената и адресите. Докато „Сюзън Смит от 75 Clark Drive в Големия водопад, Монтана пазарува за инженерни книги“, базата данни на магазина я записва като „потребител на местоположението в Монтана, който купува инженерни книги“. Деидентификацията изважда името и идентификаторите на Сюзън, така че покупката й да може да идва от всеки.

Деидентификацията е особено популярна защита на поверителността с клиники и организации, които обработват здравна информация. Законът за преносимост на здравно осигуряване и отчетност (HIPAA) разглежда деидентификацията в раздел 164.514. Според HIPAA информацията може да се идентифицира кога

„Няма разумна основа информацията да може да се използва за идентифициране на физическо лице“.

HIPAA разрешава някои квоти за де-идентифицирани данни, като например оповестявания за научни изследвания или за държавни служители.

От де-идентифициран до повторно идентифициран: може да не отнеме много.

За съжаление на организациите, които могат да се надяват да използват деидентификацията като предпазна мярка, много от тях сега я гледат като лоша защита. Хората могат да бъдат идентифицирани по повече от имена и номера, благодарение на подробни набори от данни. Ако заданието на субекта на данните е „Кмет“ и суровите данни включват град, не е нужно много да разберем кой е кой.  

Изключително популярен случай на подчертаване на недостатъка на деидентификация се появи през 2006 г. с Netflix. На Робърт Лемос с SecurityFocus, в конкурс за подобряване на алгоритъма на компанията, Netflix пусна набор от 2 милиона абонати. Компанията де-идентифицира набора от данни, като премахва потребителските имена. И все пак за тяхна изненада изследователите от Остин успяха да идентифицират потребителите. Те направиха това, като използваха наличните данни и попълваха заготовките от други източници: комбинирайки потребителските рейтинги с публична база данни с филмови резултати. Излишно е да казвам, че според Epic.org Netflix отмени конкурса.

Деидентификацията също е недостатъчна, тъй като няма универсално съгласие за това каква информация може да бъде идентифицирана лично. Дали данните са де-идентифицирани, ако останат IP адреси? Ами датите на раждане? Съществуват стандарти, включително безопасното пристанище на HIPAA, но достатъчно ли са? Според Privacy Analytics, част от групата компании IQVIA, Safe Harbour „всъщност не гарантира, че рискът от повторна идентификация е нисък, освен при много ограничени обстоятелства.“ Това е лоша новина за здравните организации, които разчитат на това, тъй като според HIPAA раздел § 164.514.2.ii, квотите за де-идентифицирани данни са приемливи само ако няма доказателства, данните могат да бъдат идентифицирани повторно. Последни проучвания през последните десет години, включително Рискове за неприкосновеността на пациента: Повторна идентификация на данните на болниците в Мейн и Върмонт сега означава, че са необходими нови стандарти.  

Какво ще кажете за кодираните данни? токанизация?

Кодираните данни и токенизацията са солидни начини за защита на чувствителни данни. За кодираните данни цялата чувствителна информация се отнема и се заменя с кодови думи, числа или уникални идентификатори. Кодовете се преобразуват в друга база данни или документ, който работи като ключ. Информацията се преидентифицира чрез съпоставяне на кода със съответните му чувствителни данни.  

При токенизацията ние автоматизираме процеса, замествайки чувствителните данни с референтна променлива. Маркерът се картира с по-защитена база данни, която съхранява чувствителната информация. Когато обработва информация, системата анализира маркери спрямо записи в защитената база данни. Ако открие съответствието на маркера, обработката продължава с помощта на чувствителните данни. 

Кодираните данни и маркери защитават информационната сигурност. Те са ефективни, защото крият само чувствителни данни. Ако анализаторът желае да обработва данните, без да посочва лични данни, те могат. По същия начин, наборите от данни, които използват идентификатори на код или маркери, са по-безопасни срещу кражба. Ако данните са компрометирани, чувствителните данни остават скрити. Например, нападател, който открадне данни за продажбите на кредитни карти, не може да види номера на картата, ако се използват маркери. 

Имайте предвид обаче, че макар кодовете, кодираните данни и уникалните идентификатори дават по-добра сигурност, те не правят данните анонимни. Данните, които използват маркери или идентификатори на код, все още са обект на правила за поверителност. Законите за поверителност не се отнасят единствено до нарушаването и достъпа до данни. Законодателството за поверителност работи за намаляване на потенциалната злоупотреба с лични данни. Докато данните, с разрешение, могат да бъдат идентифицирани повторно, трябва да има споразумения за поверителност. 

Анонимни данни: не можем да кажем кой сте ... или можем?

Анонимните данни се отнасят до информация, когато е невъзможно да се идентифицират лица.  Наистина анонимните набори от данни са мечтата на любителя на поверителността. Способността да се събират, съхраняват и анализират данни без способността за разпознаване на хора правят идеална защита. За организации, които успяват да запазят данните си анонимни, ползите са огромни. Анонимните данни се продават, обработват, анализират и запазват по-лесно, тъй като това изисква по-малко предпазни мерки за защита. 

Прилагат се по-малко правила: анонимните данни често са изключени от законодателството за поверителност, включително Общия регламент за защита на данните на E.U. Според GDPR информацията, „която не се отнася до идентифицирано или идентифицирано физическо лице или до лични данни, направени анонимни по такъв начин, че субектът на данни не е или вече не може да бъде идентифициран“, не е обект на изисквания за поверителност.

Как да направите данните анонимни? Повечето техники попадат в една от трите категории: криптографска, генерализация (известна още като прекодиране) и рандомизация. 

Криптографски методи криптирайте информацията в хранилището, правейки данните анонимни, докато не бъдат декриптирани за използване. Това защитава данните, но означава, че преидентификация може да се случи, когато данните са декриптирани за обработка. 

Техники на обобщение заем от обединяване на данни и деидентификация, за умишлено премахване на идентификатори и намаляване на точните данни. При обобщаването например височината или теглото на индивида става диапазон вместо точното число. 

Произволна сканира резултатите, като добавя данни и движи елементи, така че резултатите от повторна идентификация да са пълни с грешки. Насоките за управление на данни на Финландския архив на социалните науки предоставят задълбочени обяснения за техниките за анонимност на качествени и количествени данни.

Защо може да се наложи да се откажем изцяло от идеята за анонимни данни

За съжаление възможността личните данни да бъдат анонимни вече може да не са възможност. Находчивостта, която може да се използва за повторно идентифициране на хората, е изключително поразителна. Пишейки за The Guardian, Оливия Солон изброява примери за използване на папарашки снимки и безименни таксиметрови дневници за установяване на лоши самосвали на знаменитости. Кори Доктроуу пише за BoingBoing.net, че журналистът Свеа Екерт и ученът по данни Андреас Дюес идентифицираха лекарствения режим на германския депутат чрез данни, събрани от приставки за браузър. През юли 2019 г. журналистката на New York Times Джина Колата публикува доказателства, че учените могат да идентифицират „анонимните“ данни от преброяването в САЩ. Между напредъка в науката за данните и все по-голямото количество данни за попълване на пропуските концепцията за анонимните данни може да стане безсмислена.

Така че, ако никоя от тези техники не защитава напълно личния живот, какво да правим?

Първо, признайте, че докато съвкупните, де-идентифицираните и анонимните набори от данни не защитават напълно поверителността, те все още предлагат някакво ниво на защита. Ако вашите данни се агрегират, де-идентифицират или анонимизират, има по-малък шанс те да бъдат прочетени от ежедневните обработващи устройства. За щастие, извличането на лична информация от тези силно обработени данни изисква инструменти и умения, които не са достъпни за всеки човек.  

Второ, имайте предвид, ако видите тези фрази в политиките за поверителност или условията за ползване, че личната ви информация все още е достъпна. Услугата, която събира анонимни данни, все още може да събира лична информация. Компаниите, които споделят обобщена или де-идентифицирана информация, все още споделят лични данни: какви са вашите чувства към това? 

Ако управлявате бизнес, който използва обобщаване, де-идентификация или анонимност, признайте, че те не могат да бъдат единствените ви защитни мерки. Все още трябва да имате други физически, технически и административни мерки за защита. Нарушаването на идентифицирани данни все още може да ви струва, особено ако има доказателства, че могат да се събират лични данни. Използвайте тези техники като инструмент, но не и в края на всички програми за поверителност и сигурност.

Вижте също: Тенденции за нарушаване на данните 

Brayan Jackson
Brayan Jackson Administrator
Sorry! The Author has not filled his profile.
follow me

About the author

Leave a Reply

Your email address will not be published. Required fields are marked *

92 − = 82

Adblock
detector