درک داده های جمع آوری شده ، شناسایی نشده و ناشناس است

درک داده های جمع آوری شده ، شناسایی نشده و ناشناس است

"ما ممکن است داده های جمع شده را با شرکای خود به اشتراک بگذاریم."

"ما ممکن است داده هایی را که جمع شده و یا شناسایی نشده اند به اشتراک بگذاریم."

"محصول ما داده های ناشناس را برای اهداف تحلیلی جمع آوری می کند."

بسیاری از سازمان ها استدلال می كنند كه از حریم خصوصی با استفاده از داده های جمع آوری شده ، شناسایی نشده یا ناشناس استفاده می كنند. با این حال ، آیا کاربران آنها می دانند که این اصطلاحات چیست؟ داده های جمع چیست؟? آیا بین داده های شناسایی نشده و ناشناس تفاوت وجود دارد? برای محققان ، کدام مجموعه داده ها ارزش بیشتری دارند: جمع یا ناشناس? 

کاربران غالباً بدون درج جزئیات ، به اشتراک گذاری داده های شخصی با شناسایی شناسایی موافقت می کنند.

اگر تا به حال فکر کرده اید که چه می گذرد ، دیگر تعجب نکنید. در اینجا راهنمای شما برای شناسایی شناسایی داده ها ، تجمیع و سطوح مختلف ناشناس بودن است.

داده های جمع آوری شده: برای ترکیب و خلاصه کردن

بنابراین ، داده های کل چیست؟ جمع آوری به یک فرآیند داده کاوی اشاره دارد که در آمارها رایج است. اطلاعات فقط در گروه ها مشاهده می شود و به عنوان بخشی از خلاصه ، نه برای افراد. هنگامی که دانشمندان داده به داده های کل متکی هستند ، آنها نمی توانند به اطلاعات خام دسترسی پیدا کنند. بجای, جمع آوری داده ها از نظر جمع یا جمع بندی جزئیات را جمع آوری ، ترکیب و ارتباط می دهد. بسیاری از آمارهای رایج و زبانهای پایگاه داده اجازه می دهد تا توابع جمع را با آموزش های R، SQL و Python در دسترس قرار دهند.

موارد زیر را در نظر بگیرید: یک شرکت بازاریابی نظرسنجی را انجام می دهد تا ببینید مارک شرکت یا رقبای آنها را ترجیح می دهد. وقتی داده ها را به مدیریت ارائه می دهند ، به صورت جمع است: نشان می دهد کدام مارک محبوب ترین است. آنها ممکن است شامل اطلاعات اضافی در مورد گروههایی که با آنها صحبت کرده اند ، از جمله رای دادن به سن یا مکان باشند. با اطلاعات کل ، می توانیم جزئیات مربوط به مارک ها را با توجه به سن و یا در مناطق مشخصی به دست آوریم ، اما جزئیات دقیق درباره نحوه رای گیری افراد هرگز مشخص نمی شود.

آیا تجمیع می تواند از حریم خصوصی محافظت کند?

از آنجا که جمع آوری داده ها فقط اطلاعات را در گروه ها نشان می دهد ، بسیاری آن را محافظت از اطلاعات شخصی می دانند. از این گذشته ، اگر داده ها فقط نتایج گروه های افراد را نشان دهند ، نمی توانید حریم خصوصی را به خطر بیاندازید?

متأسفانه ، این چندان آسان نیست ؛  با تجزیه و تحلیل درست ، اطلاعات کل می توانند جزئیات شخصی قابل توجهی را نشان دهند. اگر از داده های وبلاگ جمع شده بپرسید ، چه تعداد بازدید کننده از ایرلند دریافت می کنید ، که وبلاگ را در تلفن هوشمند مشاهده می کنند؟ اگر تعداد بازدید کنندگان ایرلند ، که از تلفن هوشمند استفاده می کنند ، در یک روز بخواهید؟ یا بازدیدکنندگان از ایرلند که از تلفن هوشمند استفاده می کنند و در یک روز تنها روی آگهی آمازون برای پوشاک مردانه کلیک می کنند؟ با استفاده از چندین فیلتر خاص ، ممکن است بتوان فردی را غیر عمدی ، غیر عمدی و غیره عنوان کرد. جمع می تواند از حریم خصوصی محافظت کند ، اما هیچ تضمینی وجود ندارد که همیشه این کار را انجام دهد.

برای سازمانهایی که از تجمیع داده ها استفاده می کنند ، اد فلتون با FTC هشدار داده است: داده های جمع آوری می توانند مفید باشند ، اما این خصوصیات را تضمین نمی کند.

"این استدلال ساده مبنی بر اینکه داده های جمع آوری شده ، بنابراین انتشار بی خطر است ، به خودی خود کافی نیست."

عدم شناسایی: حذف اطلاعات شخصی

شناسایی شناسایی فرایندی است که اطلاعات شخصی را از یک مجموعه داده حذف می کند. این رویکرد با هدف محافظت از حریم خصوصی در حالی که هنوز داده های جامعی را برای تجزیه و تحلیل ارائه می دهد ، ارائه می دهد. برخی از داده ها در شناسایی افراد بهتر از سایرین هستند. ما به راحتی می توان شناسایی کرد که داده ها شامل نام ، آدرس ، ایمیل ، تاریخ تولد یا سایر عوامل منحصر به فرد ما باشد. با شناسایی مجدد ، آن شناسه های منحصر به فرد را از داده های خام حذف می کنیم. 

یک فروشگاه خرده فروشی که از شناسایی مجدد استفاده می کند ممکن است خریدهای فردی ، خرما و مکانهای فروشگاه را ردیابی کند ، اما نام و آدرس را حذف می کند. در حالی که "سوزان اسمیت از 75 Clark Drive در Great Falls ، کتاب فروشی برای کتابهای مهندسی در مغازه مونتانا" ، پایگاه داده فروشگاه وی را به عنوان "کاربر مکان مونتانا که کتابهای مهندسی می خرید" ثبت می کند. شناسایی مجدد نام و شناسه سوزان را به دست می آورد تا خرید وی از هر کسی امکان پذیر باشد.

شناسایی شناسایی نوعی محافظت از حریم خصوصی به ویژه در کلینیک ها و سازمان هایی است که اطلاعات بهداشتی را پردازش می کنند. قانون حمل و نقل و پاسخگویی بیمه نامه سلامت (HIPAA) تحت شناسایی شماره 164.514 است. طبق اطلاعات HIPAA ، اطلاعات در چه زمانی شناسایی می شوند

"هیچ مبنای معقولی وجود ندارد که بتوان از اطلاعات برای شناسایی یک فرد استفاده کرد".

HIPAA برای برخی از داده های شناسایی نشده مانند افشای تحقیقات یا به مقامات دولتی ، برخی از هزینه ها را اجازه می دهد.

از شناسایی مجدد تا شناسایی مجدد: شاید خیلی طول نکشد.

متأسفانه برای سازمانهایی که ممکن است امیدوار باشند از شناسایی مجدد به عنوان حفاظ استفاده کنند ، بسیاری اکنون این امر را ضعف محافظت می دانند. به لطف مجموعه داده های دقیق ، افراد با بیش از نام و اعداد قابل شناسایی هستند. اگر شغل یک موضوع داده "شهردار" است و داده های خام شامل شهر هستند ، برای تشخیص اینکه چه کسی چه کسی است.  

یک مورد بسیار محبوب در مورد برجسته کردن عیب شناسائی در سال 2006 با Netflix رخ داد. به گفته رابرت لموس با SecurityFocus ، در مسابقه ای برای بهبود الگوریتم شرکت ، Netflix مجموعه ای از 2 میلیون مشترک را منتشر کرد. این شرکت با حذف نام کاربر ، داده های مجموعه را شناسایی کرد. با کمال تعجب ، محققان آستین قادر به شناسایی کاربران بودند. آنها این کار را با استفاده از داده های موجود و پر کردن خلاء از منابع دیگر انجام دادند: ترکیب رتبه بندی کاربران با یک پایگاه داده عمومی از نمرات فیلم. نیازی به گفتن نیست ، طبق Epic.org ، نتفلیکس مسابقه را لغو کرد.

شناسایی مجدد نیز دارای نقص است زیرا هیچ توافق جهانی درباره اطلاعاتی که شخصاً قابل شناسایی باشند وجود ندارد. آیا در صورت باقی ماندن آدرس های IP ، داده ها از بین نمی روند؟ در مورد تاریخ تولد چطور؟ استانداردها ، از جمله بندرگاه ایمن HIPAA وجود دارد ، اما آیا آنها کافی هستند؟ طبق اطلاعات آنالیتیکس ، بخشی از گروه IQVIA شرکتها ، "ایمن بندر" در واقع تضمین نمی کند که خطر شناسایی مجدد کم باشد ، مگر در شرایط بسیار محدود. " بخش 4 164.514.2.ii ، کمک هزینه برای داده های شناسایی نشده فقط در صورتی قابل قبول است که هیچ مدرکی وجود نداشته باشد که بتواند دوباره داده ها را شناسایی کند. مطالعات اخیر در طول ده سال گذشته ، از جمله خطرات مربوط به حریم خصوصی بیماران: شناسایی مجدد بیماران در داده های بیمارستان سراسر کشور در ماین و ورمونت اکنون بدان معنی است که استانداردهای جدید مورد نیاز است.  

در مورد داده های رمزگذاری شده چطور؟ نشانه گذاری?

داده های رمزگذاری شده و رمزگذاری روش های محکم برای محافظت از داده های حساس هستند. برای داده های رمزگذاری شده ، تمام اطلاعات حساس جدا شده و با کلمات کد ، اعداد یا شناسه های منحصر به فرد جایگزین می شوند. کدها به پایگاه داده یا سندی دیگر که به عنوان کلید کار می کند ، نقشه می کنند. اطلاعات با همخوانی کد با داده های حساس مربوطه دوباره شناسایی می شوند.  

در صورت رمزگذاری ، ما فرایند را خودکار می کنیم و داده های حساس را با یک متغیر مرجع جایگزین می کنیم. نقشه های توکن با یک پایگاه داده امن تر که اطلاعات حساس را در خود جای داده است. هنگام پردازش اطلاعات ، سیستم نشانه ها را در برابر سوابق موجود در پایگاه داده امن تجزیه و تحلیل می کند. اگر مطابقت مربوط به نشانه را پیدا کند ، پردازش با استفاده از داده های حساس ادامه می یابد. 

داده ها و نشانه های رمزگذاری شده از امنیت اطلاعات محافظت می کنند. آنها کارآمد هستند زیرا فقط داده های حساس را پنهان می کنند. اگر یک تحلیلگر بخواهد داده ها را بدون مراجعه به جزئیات شخصی پردازش کند ، می تواند. به همین ترتیب ، مجموعه داده هایی که از شناسه های کد یا نشانه ها استفاده می کنند در مقابل سرقت ایمن تر هستند. اگر داده به خطر بیفتد ، داده های حساس پنهان می شوند. به عنوان مثال ، مهاجمی که اطلاعات مربوط به فروش کارت اعتباری را سرقت می کند ، در صورت استفاده از نشانه ها ، نمی تواند شماره کارت را ببیند. 

با این حال ، توجه داشته باشید که در حالی که نشانه ها ، داده های رمزگذاری شده و شناسه های منحصر به فرد امنیت بهتری را ارائه می دهند ، اما داده ها را ناشناس نمی کنند. داده هایی که از شناسه ها یا شناسه های کد استفاده می کنند ، هنوز هم طبق مقررات حفظ حریم خصوصی هستند. قوانین حفظ حریم خصوصی فقط مربوط به نقض و دسترسی به داده ها نیست. قوانین مربوط به حریم خصوصی برای به حداقل رساندن سوء استفاده احتمالی از داده های شخصی کار می کنند. تا زمانی که داده ها با مجوز بتوانند دوباره شناسایی شوند ، توافق نامه های حریم خصوصی باید برقرار شود. 

داده ناشناس: ما نمی توانیم بگوییم شما کی هستید ... یا می توانیم?

داده های ناشناس به اطلاعاتی اطلاق می شود که شناسایی افراد غیرممکن باشد.  واقعاً مجموعه داده های ناشناس رویای علاقه مندان به حریم خصوصی است. امکان جمع آوری ، ذخیره و تجزیه و تحلیل داده ها بدون امکان شناسایی افراد ، یک محافظت ایده آل است. برای سازمان هایی که می توانند داده های خود را ناشناس نگه دارند ، مزایا بسیار زیاد است. داده های ناشناس برای فروش ، پردازش ، تجزیه و تحلیل و نگهداری آسان تر است ، زیرا به حفاظت کمتری نیاز دارد. 

قوانین کمتری اعمال می شود: داده های ناشناس اغلب از قوانین مربوط به حریم خصوصی معاف هستند ، از جمله آیین نامه حفاظت از داده های عمومی E.U. مطابق با GDPR ، اطلاعات "كه مربوط به شخص حقیقی شناخته شده یا قابل شناسایی یا داده های شخصی نیست كه ناشناس به گونه ای باشد كه سوژه داده ها شناسایی نشود یا دیگر قابل شناسایی نباشد" مشمول الزامات حریم خصوصی نیست.

چگونه داده ها را ناشناس می کنید؟ بیشتر تکنیکها در یکی از سه دسته قرار می گیرند: رمزنگاری ، کلی سازی (همچنین به عنوان رمزگذاری مجدد شناخته می شود) و تصادفی سازی. 

روشهای رمزنگاری رمزگذاری اطلاعات در فضای ذخیره سازی ، و داده ها را ناشناس می کنیم تا اینکه برای استفاده رمزگشایی شود. این از داده ها محافظت می کند اما به معنای شناسایی مجدد می تواند هنگام رمزگشایی داده ها برای پردازش اتفاق بیفتد. 

تکنیک های تعمیم از جمع آوری داده ها و شناسایی مجدد وام بگیرید ، تا به طور عمدی شناسه ها را حذف کرده و داده های دقیق را کاهش دهید. به عنوان مثال ، طبق تعمیم ، قد یا وزن فرد به جای عدد دقیق ، دامنه ای می شود. 

تصادفی سازی نتایج را با اضافه کردن داده ها و جابجایی عناصر به اطراف بکشید تا نتایج شناسایی مجدد پر از خطا شود. رهنمودهای مدیریت داده های بایگانی علوم اجتماعی فنلاند توضیحات مفصلی در مورد تکنیک های ناشناس سازی داده های کیفی و کمی ارائه می دهد.

چرا ممکن است ما نیاز به کنار گذاشتن ایده داده های ناشناس داشته باشیم

متأسفانه ، امکان ناشناس شدن اطلاعات شخصی ممکن است دیگر گزینه ای نباشد. نبوغی که می توان برای شناسایی مجدد افراد به کار برد کاملاً حیرت انگیز است. اولیویا سولون با نوشتن مقاله برای The Guardian ، نمونه هایی از استفاده از عکس های paparazzi و ثبت نام تاکسی های بی نام را برای ایجاد نوارهای بد مشهور ذکر کرده است. کوری Doctorow برای BoingBoing.net می نویسد که روزنامه نگار Svaa Eckert و دانشمند داده آندریاس دیوز رژیم پزشکی MP نمایندگان آلمانی را از طریق داده های جمع آوری شده توسط افزونه های مرورگر شناسایی کردند. در ژوئیه سال 2019 ، جینا کلاتا ، روزنامه نگار در نیویورک تایمز شواهدی را منتشر کرد مبنی بر اینکه دانشمندان می توانند داده های سرشماری ایالات متحده "ناشناس" را دوباره شناسایی کنند. بین پیشرفت در علم داده و افزایش تعداد داده ها برای پر کردن شکاف ها ، ممکن است مفهوم داده های ناشناس بی معنی شود.

بنابراین اگر هیچ یک از این تکنیک ها به طور کامل از حریم خصوصی محافظت نمی کنند ، ما چه کاری انجام می دهیم?

ابتدا این را تشخیص دهید که در حالی که مجموعه های داده های جمع آوری شده ، شناسایی نشده و ناشناسانه از حریم شخصی کاملاً محافظت نمی کنند ، آنها هنوز هم برخی از محافظت ها را ارائه می دهند. اگر داده های شما جمع شده ، شناسایی نشده یا ناشناس باشند ، احتمال کمتری برای خواندن آن توسط پردازنده های روزانه وجود دارد. خوشبختانه ، جمع آوری اطلاعات شخصی از این داده های به شدت پردازش شده به ابزار و مهارت هایی نیاز دارد که در دسترس همه افراد نیست.  

دوم ، آگاه باشید اگر این عبارات را در خط مشی رازداری یا شرایط استفاده مشاهده می کنید که هنوز هم اطلاعات شخصی شما در دسترس است. خدمتی که اطلاعات ناشناس را جمع می کند هنوز می تواند اطلاعات شخصی را جمع کند. شرکت هایی که اطلاعات جمع آوری شده یا از بین رفته را با یکدیگر به اشتراک می گذارند ، هنوز هم اطلاعات شخصی خود را به اشتراک می گذارند: احساسات شما در مورد آن چیست? 

اگر مشاغلی را اداره می کنید که از تجمیع ، شناسایی یا ناشناس سازی استفاده می کند ، تشخیص دهید که اینها تنها ضمانت شما نیستند. شما هنوز هم باید اقدامات محافظت جسمی ، فنی و اداری دیگری را در دست داشته باشید. نقض اطلاعات داده های شناسایی نشده هنوز هم می تواند برای شما هزینه ای داشته باشد ، به خصوص اگر شواهدی وجود داشته باشد که می تواند اطلاعات شخصی را جمع آوری کند. از این تکنیک ها به عنوان ابزاری استفاده کنید ، اما پایان برنامه های حفظ حریم خصوصی و امنیتی نیست.

همچنین مشاهده کنید: روند نقض داده ها 

Brayan Jackson
Brayan Jackson Administrator
Sorry! The Author has not filled his profile.
follow me

About the author

Leave a Reply

Your email address will not be published. Required fields are marked *

− 5 = 2

Adblock
detector