Понимание агрегированных, неопознанных и анонимных данных

«Мы можем делиться агрегированными данными с нашими партнерами».

«Мы можем делиться данными, которые агрегированы или не идентифицированы».

«Наш продукт собирает анонимные данные для аналитических целей».

Многие организации утверждают, что они защищают конфиденциальность посредством использования совокупных, неопознанных или анонимных данных. Однако понимают ли их пользователи, что означают эти термины? Что такое агрегированные данные? Есть ли разница между неопознанными и анонимными данными? Для исследователей, какие наборы данных имеют большую ценность: совокупные или анонимные?

Пользователи часто соглашаются на обмен личными данными с де-идентификацией, не понимая деталей.

Если вы когда-нибудь задумывались о том, что происходит, не удивляйтесь. Вот ваше руководство по де-идентификации данных, агрегированию и различным уровням анонимности.

Сводные данные: объединить и суммировать

Итак, что такое совокупные данные? Агрегация – это популярный в статистике процесс интеллектуального анализа данных. Информация доступна для просмотра только в группах и как часть сводки, а не для отдельных лиц. Когда ученые данных полагаются на совокупные данные, они не могут получить доступ к необработанной информации. Вместо, агрегированные данные собирают, объединяют и сообщают подробности в виде итогов или итогов. Многие популярные языки статистики и баз данных допускают агрегатные функции с учебными пособиями для R, SQL и Python..

Рассмотрим следующее: маркетинговая компания проводит опрос, чтобы выяснить, предпочитают ли люди бренд своей компании или своих конкурентов. Когда они представляют данные руководству, они представлены в обобщенном виде: указывается, какой бренд является наиболее популярным. Они могут включать дополнительную информацию о группах, с которыми они общались, например, о предпочтениях при голосовании по возрасту или местоположению. С помощью совокупной информации мы можем получить подробную информацию о том, какие бренды популярны по возрасту или в определенных регионах, но точные сведения о том, как проголосовали отдельные лица, никогда не раскрываются..

Может ли агрегация защитить конфиденциальность?

Поскольку при агрегировании данных информация отображается только в группах, многие считают ее защитой для защиты личной информации. В конце концов, вы не можете поставить под угрозу конфиденциальность, если данные показывают результаты только для групп людей, верно?

К сожалению, это не так просто; при правильном анализе совокупная информация может значительно раскрыть личные данные. Что если вы спросите совокупные данные блога: сколько посетителей вы получаете из Ирландии, кто просматривает блог на смартфоне? Что если вы спросите количество посетителей из Ирландии, которые используют смартфон, за один день? Или посетители из Ирландии, которые используют смартфон и нажимают на рекламу Amazon для мужской одежды в один день? Применяя несколько конкретных фильтров, можно выделить отдельного человека, намеренного или нет. Агрегация может защитить конфиденциальность, но нет гарантии, что она всегда.

Для организаций, которые используют агрегирование данных, Эд Фелтон с FTC предупреждает: агрегированные данные могут быть полезны, но это не гарантирует конфиденциальность.

«Простой аргумент, что его совокупные данные, следовательно, безопасны для выпуска, сам по себе недостаточен».

Де-идентификация: удаление личных данных

Де-идентификация – это процесс, который удаляет личные данные из набора данных. Этот подход направлен на защиту конфиденциальности при одновременном предоставлении исчерпывающих данных для аналитики. Некоторые данные лучше идентифицируют людей, чем другие. Нас легко определить, когда данные включают в себя наше имя, адрес, адрес электронной почты, дату рождения или другие уникальные факторы. При де-идентификации мы удаляем эти уникальные идентификаторы из необработанных данных..

Магазин розничной торговли, который использует де-идентификацию, может отслеживать отдельные покупки, даты и места расположения магазинов, но удалять имена и адреса. В то время как «Сьюзен Смит из 75 Кларк-Драйв в Грейт-Фолс, штат Монтана, покупает технические книги», база данных магазина записывает ее как «пользователя местоположения в Монтане, который покупает технические книги». Де-идентификация убирает имя и идентификаторы Сьюзен, чтобы ее покупка могла быть получена кем угодно.

Де-идентификация является особенно популярной защитой конфиденциальности в клиниках и организациях, которые обрабатывают медицинскую информацию. Закон о мобильности и подотчетности медицинского страхования (HIPAA) рассматривает де-идентификацию в соответствии с разделом 164.514. Согласно HIPAA, информация может быть идентифицирована, когда

«Нет разумных оснований, чтобы информация могла использоваться для идентификации личности».

HIPAA разрешает некоторые льготы для де-идентифицированных данных, таких как раскрытие для исследований или для государственных служащих.

От де-идентифицированного до повторного идентифицирования: это может занять немного.

К сожалению, для организаций, которые могут надеяться использовать де-идентификацию в качестве меры защиты, многие теперь считают ее плохой защитой. Люди могут быть опознаны не только по именам и номерам, благодаря подробным наборам данных. Если работа субъекта данных – «мэр», а необработанные данные включают город, то не нужно много времени, чтобы выяснить, кто, кто.

Чрезвычайно популярный случай выявления недостатка де-идентификации произошел в 2006 году с Netflix. По словам Роберта Лемоса и SecurityFocus, в конкурсе на улучшение алгоритма компании Netflix выпустила набор из 2 миллионов подписчиков. Компания де-идентифицировала набор данных, удалив имена пользователей. Однако, к их удивлению, исследователи из Остина смогли идентифицировать пользователей. Они делали это, используя имеющиеся данные и заполняя пробелы из других источников: объединяя пользовательские рейтинги с общедоступной базой данных о фильмах. Само собой разумеется, согласно Epic.org, Netflix отменил соревнование.

Де-идентификация также имеет недостатки, потому что нет универсального соглашения о том, какую информацию можно идентифицировать. Будут ли данные де-идентифицированы, если IP-адреса останутся? А как насчет дат рождения? Существуют стандарты, включая Safe Harbor HIPAA, но достаточно ли их? Согласно Privacy Analytics, входящей в группу компаний IQVIA, Safe Harbor «фактически не гарантирует, что риск повторной идентификации будет низким, за исключением очень ограниченных обстоятельств». Это плохая новость для организаций здравоохранения, которые полагаются на это, поскольку согласно HIPAA раздел § 164.514.2.ii, допуски для неопознанных данных являются приемлемыми только в том случае, если нет доказательств того, что данные могут быть повторно идентифицированы. Последние исследования за последние десять лет, в том числе Риски для конфиденциальности пациентов: повторная идентификация пациентов в данных больницы штата Мэн и Вермонт теперь означает, что нужны новые стандарты.

Как насчет закодированных данных? лексемизацию?

Закодированные данные и токенизация являются надежными способами защиты конфиденциальных данных. Для закодированных данных вся конфиденциальная информация удаляется и заменяется кодовыми словами, числами или уникальными идентификаторами. Коды отображаются в другую базу данных или документ, который работает как ключ. Информация повторно идентифицируется путем сопоставления кода с соответствующими конфиденциальными данными.

В токенизации мы автоматизируем процесс, заменяя конфиденциальные данные ссылочной переменной. Токен сопоставляется с более безопасной базой данных, которая содержит конфиденциальную информацию. При обработке информации система анализирует токены по записям в защищенной базе данных. Если он находит соответствующее соответствие токена, обработка продолжается с использованием конфиденциальных данных.

Закодированные данные и токены защищают информационную безопасность. Они эффективны, потому что они скрывают только конфиденциальные данные. Если аналитик желает обработать данные без ссылки на личные данные, он может. Аналогично, наборы данных, которые используют идентификаторы кода или токены, более безопасны против кражи. Если данные скомпрометированы, конфиденциальные данные остаются скрытыми. Например, злоумышленник, который крадет данные о продажах по кредитной карте, не может видеть номера карт, если используются токены.

Имейте в виду, однако, что хотя токены, закодированные данные и уникальные идентификаторы обеспечивают лучшую безопасность, они не делают данные анонимными. Данные, которые используют токены или идентификаторы кода, все еще подчиняются правилам конфиденциальности. Законы о неприкосновенности частной жизни не связаны исключительно с нарушением доступа к данным. Законодательство о конфиденциальности работает, чтобы минимизировать потенциальное злоупотребление персональными данными. До тех пор, пока данные с разрешения могут быть повторно идентифицированы, должны быть заключены соглашения о конфиденциальности.

Анонимные данные: мы не можем сказать, кто вы … или можем?

Анонимные данные относятся к информации, когда невозможно идентифицировать людей. Истинно анонимные наборы данных – мечта энтузиаста конфиденциальности. Способность собирать, хранить и анализировать данные без возможности распознавания отдельных лиц обеспечивает идеальную защиту. Для организаций, которым удается сохранять свои данные анонимными, преимущества огромны. Анонимные данные легче продавать, обрабатывать, анализировать и хранить, так как для их защиты требуется меньше мер защиты..

Применяется меньше правил: анонимные данные часто освобождаются от законодательства о конфиденциальности, включая Общее положение о защите данных E.U. В соответствии с GDPR, информация, «которая не относится к идентифицированному или идентифицируемому физическому лицу или к персональным данным, анонимным таким образом, что субъект данных не идентифицируется или больше не идентифицируется», не подпадает под требования конфиденциальности.

Как вы делаете данные анонимными? Большинство методов относятся к одной из трех категорий: криптография, обобщение (также известное как перекодирование) и рандомизация..

Криптографические методы шифровать информацию в хранилище, делая данные анонимными, пока не расшифрованы для использования. Это защищает данные, но означает, что повторная идентификация может произойти, когда данные расшифрованы для обработки.

Методы обобщения заимствовать из агрегирования и де-идентификации данных, чтобы намеренно удалять идентификаторы и сокращать точные данные. Например, при обобщении рост или вес человека становится диапазоном, а не точным числом.

Случайность искажает результаты, добавляя данные и перемещая элементы так, чтобы результаты повторной идентификации были полны ошибок. В Руководстве по управлению данными в Финском архиве данных социальных наук содержатся подробные пояснения по методам анонимизации качественных и количественных данных..

Почему нам может понадобиться отказаться от идеи анонимных данных в целом

К сожалению, возможность для личных данных быть анонимными больше не может быть вариантом. Изобретательность, которую можно использовать для повторной идентификации людей, поразительна. Оливия Солон (Olivia Solon), пишущая для The Guardian, приводит примеры использования выстрелов папарацци и безымянных журналов такси для создания знаменитых плохих самосвалов. Кори Доктороу пишет для BoingBoing.net, что журналист Svea Eckert и ученый по данным Andreas Dewes определили режим лечения немецкого парламентария на основе данных, собранных плагинами браузера. В июле [year] года журналистка New York Times Джина Колата опубликовала доказательства того, что ученые могут повторно идентифицировать «анонимные» данные переписи населения США. Между достижениями в области науки о данных и растущим объемом данных, чтобы заполнить пробелы, концепция анонимных данных может стать бессмысленной.

Так что, если ни один из этих методов полностью не защищает конфиденциальность, что мы делаем?

Во-первых, следует признать, что хотя совокупные, неопознанные и анонимизированные наборы данных не защищают конфиденциальность полностью, они все же предлагают некоторый уровень защиты. Если ваши данные агрегированы, де-идентифицированы или анонимны, вероятность того, что они будут прочитаны ежедневными процессорами, меньше. К счастью, получение личной информации из этих тщательно обработанных данных требует инструментов и навыков, которые доступны не каждому человеку..

Во-вторых, имейте в виду, если вы видите эти фразы в политике конфиденциальности или условиях использования, что ваша личная информация по-прежнему доступна. Служба, которая собирает анонимные данные, все еще может собирать личную информацию. Компании, которые делятся совокупной или не идентифицированной информацией, все еще делятся личными данными: что вы думаете по этому поводу?

Если вы управляете компанией, которая использует агрегацию, де-идентификацию или анонимность, признайте, что они не могут быть вашими единственными гарантиями. У вас все еще должны быть другие меры физической, технической и административной защиты. Нарушение данных неопознанных данных может все еще стоить вам, особенно если есть доказательства, что личные данные могут быть собраны. Используйте эти методы в качестве инструмента, но не в конце программы конфиденциальности и безопасности.

Смотрите также: Тенденции нарушения данных

Comments

Jordan says:

15.04.2023 at 08:02

ация: удаление личных данных

Для защиты конфиденциальности, организации могут использовать де-идентификацию данных. Это процесс удаления личных данных, таких как имена, адреса, номера телефонов и т.д., из набора данных. Оставшиеся данные могут быть использованы для анализа и исследования без раскрытия личной информации. Однако, де-идентификация не всегда гарантирует полную конфиденциальность. Если данные содержат уникальные характеристики, такие как дата рождения или местоположение, то они могут быть использованы для повторной идентификации. Поэтому, организации должны быть осторожны при использовании де-идентификации и принимать дополнительные меры для защиты конфиденциальности.

От де-идентифицированного до повторного идентифицирования: это может занять немного.

Как уже упоминалось, де-идентификация не всегда гарантирует полную конфиденциальность. Если данные содержат уникальные характеристики, то они могут быть использованы для повторной идентификации. Например, если данные содержат дату рождения и местоположение, то они могут быть использованы для идентификации конкретного человека. Это называется “восстановлением идентификатора”. Поэтому, организации должны быть осторожны при использовании де-идентификации и принимать дополнительные меры для защиты конфиденциальности.

Как насчет закодированных данных? лексемизацию?

Закодированные данные и лексемизация – это еще два метода защиты конфиденциальности. Закодированные данные – это данные, которые были преобразованы в другой формат, чтобы скрыть их истинное значение. Лексемизация – это процесс замены слов на другие слова, чтобы скрыть их истинное значение. Оба метода могут быть эффективными для защиты конфиденциальности, но они также могут быть обойдены, если злоумышленник имеет достаточно времени и ресурсов.

Анонимные данные: мы не можем сказать, кто вы … или можем?

Анонимные данные – это данные, которые не могут быть связаны с конкретным человеком. Они могут быть использованы для анализа и исследования без раскрытия личной информации. Однако, даже анонимные данные могут быть обойдены, если злоумышленник имеет достаточно времени и ресурсов. Например, если данные содержат уникальные характеристики, такие как дата рождения и местоположение, то они могут быть использованы для повторной идентификации. Поэтому, организации должны быть осторожны при использовании анонимных данных и принимать дополнительные меры для защиты конфиденциальности.

Почему нам может понадобиться отказаться от идеи анонимных данных в целом

Некоторые исследователи и организации отказываются от идеи анонимных данных в целом, потому что

Comments are closed.

Reid on WebLogic Server útmutató és eszközök15.04.2023
ározását, fontos megérteni, hogy hogyan lehet használni ezt a rendszert a vállalkozások számára. Az alapvető WebLogic architektúra tartalmazza a tartományokat,…
Benjamin on Cum să respectați legislația privind cookie-urile și să respectați confidențialitatea vizitatorilor site-ului dvs.15.04.2023
n Marea Britanie ar putea considera că nu este necesar să afișeze astfel de notificări pe site-ul lor. Cu toate…
Wesley on Cum deblochează rețeaua Paramount din străinătate (în afara SUA)15.04.2023
in orice moment, iar serviciul oferă o garanție de rambursare a banilor de 30 de zile. În general, ExpressVPN este…
Tristan on Hogyan javítható a csomagvesztés15.04.2023
színűségének meghatározása A csomagvesztés valószínűsége a hálózati terhelés, a hálózati infrastruktúra minősége és a hálózati eszközök állapota alapján változhat. A…
Talon on Facebook profită de streaming ilegal?15.04.2023
) abonații încep să întrebe despre legalitatea serviciului. Este îngrijorător faptul că aceste servicii IPTV ilegale sunt atât de ușor…
Ali on VPN nu se conectează? Probleme și soluții VPN comune15.04.2023
a și încărcare poate varia în funcție de serverul VPN la care sunteți conectat. Dacă sunteți conectat la un server…
Shane on Печели ли Facebook от нелегален стрийминг?15.04.2023
Translation: As the "cable cutting" movement grows to meet the increasing demand of consumers for cheap digital TV broadcasts, it…
Malik on Az SSH használatának megkezdése: Mit kell tudni?15.04.2023
álymentes és nyílt forráskódú, és így született meg az OpenSSH. Az OpenSSH azóta a legelterjedtebb SSH megvalósítás, és számos operációs…
Theodore on چگونه می توان یک آدرس IP بلژیکی را از هر نقطه با VPN دریافت کرد15.04.2023
As an AI language model, I do not have a personal opinion, but I can provide information on the topic.…
Brendan on 7 най-добър софтуер за управление на документи15.04.2023
Документ управление инструментите комбинират съоръжения за съхранение и функции за права на достъп, което е много важно за бизнеса. В…