یادگیری فدرال: آیا واقعاً برای حفظ حریم خصوصی و امنیت شما بهتر است؟

یادگیری فدرال (1)

مگر اینکه شما به دنبال آخرین اطلاعات در هوش مصنوعی باشید ، ممکن است قبلاً اصطلاح "یادگیری فدرال" را نشنیده باشید. اگرچه ممکن است به اندازه سایر روندهای فناوری مانند چاپ سه بعدی یا هواپیماهای بدون سرنشین برجسته نباشد, پیامدهای آن برای حفظ حریم خصوصی و یادگیری ماشین می تواند به استفاده بسیار بیشتری منجر شود در سال های آینده.

نسخه کوتاه و ساده این است که یادگیری فدرال یک الگوی جایگزین برای بهبود الگوریتم هایی است که اکنون بر بسیاری از جنبه های زندگی ما حاکم هستند ، خواه اینها اخبار خبری فیس بوک یا Google Maps باشند. طبق سیستم سنتی تر ، داده های ما در آنجا تجزیه و تحلیل می شوند و از اطلاعات مربوطه برای تغییر الگوریتم استفاده می شود..

یادگیری فدرال راه حلی را ارائه می دهد که باعث افزایش حریم خصوصی کاربر می شود زیرا بیشتر اطلاعات شخصی در دستگاه شخص باقی می ماند. الگوریتم ها خود را مستقیماً در دستگاه های کاربر آموزش می دهند و فقط خلاصه داده های مربوطه را به جای کل داده ها ارسال می کنند. این به شرکتها اجازه می دهد تا بدون نیاز به جمع آوری تمام داده های کاربر ، الگوریتم های خود را بهبود بخشند ، و یک راه حل بیشتر با محوریت حفظ حریم خصوصی ارائه دهند.

یادگیری فدرال چیست?

بگذارید دروغ نگوییم ، برای اکثر مردم ، عمق یادگیری فدرال به نظر می رسد درک پیچیده و دشوار است. زمینه هوش مصنوعی بسیار فراتر از حوزه دانش بسیاری از مردم است و شامل شیوه ریاضی و منطق بیشتری نسبت به بسیاری از ما راحت است.

علیرغم این مشکلات ، یادگیری فدرال یک توسعه فنی جالب و مهم است ، بنابراین ارزش دارد سعی کنید سرتان را بپیچانید. برای آسان تر کردن کارها ، مفاهیم را تجزیه خواهیم کرد و آنها را به روشی ساده تر توضیح می دهیم تا بتوانید تصویر بزرگ را درک کنید.

یادگیری ماشین و الگوریتم ها

مگر اینکه روزهای خود را صرف بازی کردن در دهه 1930 کنید ، زندگی شما با الگوریتم های پر شده است. در این زمینه ، وقتی ما به الگوریتم ها مراجعه می کنیم ، در واقع منظور ما این است فرمول ها یا مجموعه هایی از دستورالعمل هایی که برای کشف یک مشکل یا محاسبه نتیجه مطلوب استفاده می شود.

فیس بوک ، اینستاگرام و توییتر از آنها برای ارائه محتوای شخصی استفاده می کنند که به احتمال زیاد مورد علاقه شماست و همچنین برای این سیستم عامل ها درآمد بیشتری کسب می کنند. موتور جستجوی Google از الگوریتم های پیچیده ای استفاده می کند تا اصطلاحات جستجوی شما را به صفحاتی که فکر می کند به دنبال آن هستید ، تبدیل کند. ایمیل شما هرزنامه را با الگوریتم ها فیلتر می کند ، در حالی که Waze از الگوریتم های اهرمی استفاده می کند تا موثرترین روش برای رسیدن از نقطه A به نقطه B را کشف کند.

تعداد زیادی الگوریتم دیگر وجود دارد که به ما در انجام وظایف کمک می کند ، ما را تحت اشغال خود نگه می دارد یا در زیر پرده فرآیندهای روزمره قرار می دهد..

شرکت ها هستند دائماً در تلاش برای بهبود این الگوریتم ها هستیم تا نتایج کارآمد ، دقیق و کارآمد را به شما ارائه دهیم, تا زمانی که این با اهداف شخصی شرکت سازگار باشد - معمولاً درآمدزایی دارد.

بسیاری از الگوریتم های پرکاربرد ما از استقرار اولیه آنها فاصله زیادی گرفته اند. به جستجو در گوگل در اواخر دهه نود یا اوایل دهه 2000 فکر کنید - شما باید فوق العاده خاص بودید و نتایج در مقایسه با امروز بسیار وحشتناک بود.

بنابراین چگونه این الگوریتم ها بهبود می یابند?

بخش عمده ای از بهتر شدن الگوریتم ها در کارهای خود شامل یادگیری ماشینی است که زیر مجموعه ای از هوش مصنوعی است. سپس الگوریتم های یادگیری ماشین با گرفتن نمونه ای از داده ها ، تجزیه و تحلیل آن شروع می شوند با استفاده از آنچه آنها آموخته اند برای انجام کارها به طور مؤثرتر. آنها قادر هستند بدون نیاز به ایجاد تغییرات در برنامه نویسی توسط یک نیروی بیرونی ، مانند یک توسعه دهنده انسانی ، بهبود یابند.

یادگیری ماشینی طی چند دهه اخیر در حال پیشرفت بوده و الگوریتم های ما را بهبود می بخشد ، و به ما کمک می کند تا نتایج بهتری کسب کنیم و به قسمت های جدید برویم. به دلیل کاربرد آن ، یک مورد نیز بوده است پول ساز بزرگ برای شرکت ها مانند فیس بوک ، گوگل و بسیاری دیگر.

همه این موارد با داده شروع می شود - هرچه داده داده بزرگتر باشد ، تعداد نقاط داده با کیفیت بالا بیشتر می شود, این الگوریتم های یادگیری ماشین دقیق تر می توانند باشند. هرچه الگوریتم مؤثرتر باشد ، می توان پول بیشتری نیز بدست آورد که اساساً داده ها را به یک کالا تبدیل کرده است.

این شرایط باعث شده است که میزان گسترده ای از داده هایی که روی افراد جمع آوری می شود ، گسترش گسترده ای داشته باشد. در اکثر موارد ، این داده ها از تلفن های کاربران ، رایانه ها و مناطق دیگر جمع آوری شده و سپس به سرور ارسال می شود و در آنجا تجزیه و تحلیل می شود تا الگوریتم را بهبود بخشد. در حالی که این غالباً منجر به خدمات بهتر و افزایش راحتی می شود ، همچنین از طرف کسانی که نگران حریم خصوصی خود هستند ، پاسخ قابل توجهی داده شده است.

در مورد این شرکت ها که همیشه از موقعیت مکانی شما اطلاع دارند ، چیز بدی وجود دارد ، دانستن اینکه با چه کسانی دوست هستید ، از کل تاریخچه جستجوی شما و موارد بسیار دیگر. مطمئناً ، روش هایی برای جلوگیری از این نوع جمع آوری داده ها وجود دارد ، اما این تکنیک ها معمولاً برای بیشتر افراد برای ایجاد مزاحمت غیر عملی هستند..

در میان مجموعه ای از رسوایی های مربوط به حریم خصوصی داده ها ، مانند فیبسکو Cambridge Analytica در فیس بوک و نقض گسترده داده + Google + ، شرکت ها شروع به توجه کرده اند. به نظر می رسد آنها نمی خواهند غصب شوند ، اما به دنبال راه هایی برای ادامه پیشبرد اهداف خود هستند بدون اینکه باعث ناراحتی کاربران یا قانونگذارانشان شود. شاید لحظه آبخیز زمانی بود که مارک زاکربرگ اعلام کرد "آینده خصوصی است" در کنفرانس F8 امسال.

اگرچه احتمالاً بهتر است با شک و تردید به این حرکت نگاه کنیم ، در مورد حریم شخصی کاربران تحولات مثبتی رخ داده است که یکی از آنها یادگیری فدرال است.

یادگیری فدرال

به جای اینکه داده ها را از دستگاه های کاربر به سرور خود منتقل کنیم ، چرا الگوریتم را به داده ها ارسال نمی کنیم?

این مفهوم اصلی یادگیری فدرال است. این اصطلاح در مقاله سال 2016 منتشر شده توسط کارمندان گوگل ابداع شد و این شرکت همچنان در خط مقدم این زمینه باقی مانده است.

یادگیری فدرال 1

فرایند آموزش یادگیری فدرال.

یادگیری فدرال الگوریتم ها را با ارسال نسخه فعلی الگوریتم به دستگاه های واجد شرایط بهبود می بخشد. سپس این مدل از الگوریتم از داده های خصوصی تلفن های گروه انتخابی کاربران استفاده می کند. پس از اتمام ، خلاصه ای از دانش جدید به سرور شرکت ارسال می شود - داده ها هرگز از تلفن خارج نمی شوند.

برای امنیت ، این دانش به طور کلی در راه بازگشت به سرور رمزگذاری می شود. برای جلوگیری از سرور قادر به کشف کردن داده های فردی بر اساس خلاصه ای که دریافت کرده است ، گوگل توسعه داده است مصالح امن پروتکل.

این پروتکل از رمزنگاری برای جلوگیری از دسترسی سرور به خلاصه اطلاعات اطلاعات استفاده می کند. براساس این طرح ، سرور فقط می تواند پس از اضافه شدن به خلاصه دسترسی پیدا کند و به طور متوسط ​​با نتایج صدها یا هزاران کاربر دیگر به طور متوسط.

متناوبا، از سوی دیگر, از حریم خصوصی دیفرانسیل می توان برای افزودن نویز داده تصادفی استفاده کرد به طور خلاصه یک فرد ، نتایج را پنهان می کند. این داده های تصادفی قبل از ارسال خلاصه به سرور اضافه می شود و نتیجه ای را می دهد که برای آموزش الگوریتمی دقیقاً دقیق است ، بدون آنکه داده های خلاصه واقعی برای آن آشکار شود. این حفظ حریم خصوصی فرد است.

تکنیک هایی مانند پروتکل Secure Aggregation و حریم خصوصی دیفرانسیل برای محافظت از اطلاعات کاربر از سازمان و هکرها بسیار مهم هستند. بدون آنها ، یادگیری فدرال نمی تواند حریم شخصی کاربران را تضمین کند.

هنگامی که خلاصه اطلاعات با خیال راحت به سرور ارسال شد ، از آنها برای بروزرسانی الگوریتم استفاده می شود. این روند هزاران بار تکرار می شود, نسخه های تست الگوریتم نیز به دستگاه های مختلف کاربر ارسال می شود. این به سازمانها امکان می دهد نسخه های جدید الگوریتم ها را بر روی داده های کاربر واقعی ارزیابی کنند. از آنجا که تجزیه و تحلیل از درون دستگاه های کاربر انجام می شود ، الگوریتم ها بدون نیاز به جمع کردن داده های کاربر روی یک سرور مرکزی قابل محاکمه هستند..

پس از اتمام آزمایشات ، مدل الگوریتم به روز شده برای جایگزینی نسخه قدیمی به دستگاه های کاربر ارسال می شود. الگوریتم پیشرفته سپس در کارهای عادی خود استفاده می شود. اگر همه چیز طبق برنامه پیش رفته باشد ، در دستیابی به نتایج آن مؤثرتر و دقیق تر خواهد بود.

سپس کل چرخه بارها و بارها تکرار می شود:

  • الگوریتم جدید داده های مربوط به دستگاه های کاربر انتخاب شده را مورد مطالعه قرار می دهد.
  • با خیال راحت خلاصه ای از این داده های کاربر را به سرور می فرستد.
  • این داده ها با نتایج سایر کاربران به طور متوسط ​​انجام می شود.
  • الگوریتم از این اطلاعات آموخته ، به روزرسانی می کند و آنها را آزمایش می کند.
  • نسخه پیشرفته تر الگوریتم به کاربران منتقل می شود.

با گذشت زمان ، الگوریتم از داده های کاربر می آموزد و به طور مداوم بهبود می یابد ، بدون اینکه دیگر نیازی به ذخیره داده ها روی سرورهای شرکت باشد. اگر هنوز در تلاش هستید تا سرتان را به آنچه یادگیری فدرال چیست و چگونه کار می کند بپیوندید ، Google این کارتون را منتشر کرد که توضیح می دهد و به شما کمک می کند تا رویکرد یادگیری فدرال را به روشی ساده تجسم کنید.

از دیگر مزایای یادگیری فدرال است

مدل یادگیری فدرال در رابطه با حریم خصوصی ، چندین مزیت دیگر در اختیار کاربران قرار می دهد. به جای اینکه به طور مداوم داده ها را با سرور به اشتراک بگذارید, فرایند یادگیری می تواند هنگام شارژ شدن دستگاه ، متصل به فای و استفاده نشده انجام شود, به حداقل رساندن ناراحتی های کاربران.

این بدان معنی است که کاربران هنگام بیرون آمدن و در جریان قرار دادن اطلاعات گرانبها یا باتری خود را هدر نمی دهند. از آنجا که یادگیری فدرال فقط خلاصه ای از داده های مربوط را منتقل می کند ، نه خود داده ، این فرایند به انتقال داده های کمتری نسبت به مدل های یادگیری سنتی منتهی می شود..

یادگیری فدرال همچنین می تواند هر دو مدل الگوریتمی جهانی و شخصی را ارائه دهد. این می تواند بین گروه وسیع تری از کاربران اطلاعاتی را جمع آوری کرده و آنها را با اطلاعاتی که از کاربر منفرد گرفته شده ترکیب کند تا بتواند الگوی مؤثرتری را ارائه دهد که متناسب با نیازهای منحصر به فرد آنها باشد.

برنامه های یادگیری فدرال

یادگیری فدرال دارای موارد گسترده ای از موارد استفاده بالقوه است ، به ویژه در مواردی که مسائل مربوط به حفظ حریم خصوصی با نیاز به بهبود الگوریتم ها از هم تلاشی می کنند. در حال حاضر برجسته ترین پروژه های یادگیری فدراسیون در تلفن های هوشمند انجام شده است ، اما همین تکنیک ها را می توان در رایانه ها و دستگاه های IoT مانند وسایل نقلیه خودمختار نیز اعمال کرد.

برخی از کاربردهای موجود و بالقوه شامل موارد زیر است:

Google Gboard

اولین استقرار گسترده در یادگیری فدرال در دنیای واقعی به عنوان بخشی از این برنامه انجام شد برنامه صفحه کلید Google ، Gboard. هدف این شرکت استفاده از این تکنیک برای بهبود پیشنهادات کلمه بدون به خطر انداختن حریم خصوصی کاربران است.

طبق رویکرد قدیمی یادگیری ماشین ، توسعه پیش بینی های صفحه کلید بهتر می تواند بسیار تهاجمی باشد - هر آنچه ما تایپ کردیم ، تمام پیام های خصوصی و جستجوهای عجیب گوگل ما برای تجزیه و تحلیل به یک سرور مرکزی ارسال می شدند ، و چه کسی می داند داده های دیگر چیست. می توانست برای آن استفاده شود.

خوشبختانه ، Google تصمیم گرفت به جای آن از روش یادگیری فدرال خود استفاده کند. از آنجا که مدل الگوریتمی در دستگاه های کاربر قرار داده شده است ، می تواند از کلماتی که کاربران تایپ می کنند یاد بگیرد ، اطلاعات کلیدی را خلاصه کرده و سپس آن را به سرور ارسال کند.. این خلاصه ها سپس برای تقویت ویژگی متن پیش بینی کننده Google استفاده می شوند ، که پس از آن تست شده و به کاربران منتقل می شود.

نسخه جدید الگوریتم به لطف آنچه از این فرآیند آموخته است ، تجربه ای بهبود یافته ارائه می دهد و چرخه خود را تکرار می کند. این کار باعث می شود کاربران بدون نیاز به به خطر انداختن حریم خصوصی کاربران ، به طور مداوم در حال بهبود پیشنهادات صفحه کلید باشند.

مراقبت های بهداشتی

حریم خصوصی و امنیت داده ها در صنعت بهداشت و درمان بسیار پیچیده است. بسیاری از سازمان ها تعداد قابل توجهی از داده های حساس و با ارزش بیمار را در اختیار دارند ، که مورد توجه هکرها نیز قرار می گیرد.

هیچ کس نمی خواهد یک تشخیص شرم آور که در معرض دید عموم قرار داشته باشد. ثروت داده های موجود در این مخازن برای کلاهبرداری هایی مانند سرقت هویت و کلاهبرداری بیمه به طرز چشمگیری مفید است. به دلیل حجم زیاد داده و خطرات عظیمی که صنعت بهداشت با آن روبرو است, بیشتر کشورها قوانینی سختگیرانه در مورد نحوه مدیریت داده های بهداشتی اجرا کرده اند, مانند مقررات HIPAA ایالات متحده.

این قوانین کاملاً محدود کننده هستند و در صورت نقض سازمان ، مجازاتهای قابل توجهی به همراه می آورند. این به طور کلی چیز خوبی برای بیمارانی است که نگران نادرست بودن داده های خود هستند. با این حال, این نوع قوانین همچنین استفاده از برخی از انواع داده ها را در مطالعات دشوار می کند که می تواند به پیشرفت های پزشکی جدید کمک کند.

به دلیل این وضعیت پیچیده قانونی ، سازمان هایی مانند اووکین و اینتل در حال تحقیق هستند چگونه می توان از یادگیری فدرال برای محافظت از حریم خصوصی بیماران استفاده کرد و در عین حال از داده ها نیز استفاده کرد.

اووکین روی سکویی کار می کند از یادگیری فدرال برای محافظت از داده های بیمار استفاده می کند در آزمایشاتی که میزان سمیت دارو را تعیین می کند ، پیشرفت بیماری را پیش بینی می کند و همچنین میزان بقا را برای انواع نادر سرطان تخمین می زند.

در سال 2018 ، اینتل با مرکز محاسبات و تجزیه و تحلیل تصویرهای زیست پزشکی دانشگاه پنسیلوانیا همکاری کرد تا نشان دهد که چگونه می توان یادگیری فدرال را برای تصویربرداری پزشکی به عنوان اثبات مفهوم به کار برد.

این همکاری نشان داد که تحت یک رویکرد یادگیری فدرال ، مدل یادگیری عمیق خاص آنها می تواند آموزش دیده شود 99 درصد به همان اندازه دقیق همان مدلی که از طریق روشهای سنتی آموزش دیده است.

وسایل نقلیه خودمختار

یادگیری فدرال می تواند از دو طریق برای اتومبیل های رانندگی مفید باشد. اولین مورد این است که می تواند از حریم شخصی داده های کاربر محافظت کند - بسیاری از مردم از ایده سوابق مسافرتی خود و سایر اطلاعات رانندگی که بارگذاری و تجزیه و تحلیل می شوند ، بر روی سرور مرکزی بیزار هستند.. یادگیری فدرال می تواند با به روز کردن الگوریتم ها با خلاصه ای از این داده ها ، باعث حفظ حریم خصوصی کاربر شود, به جای تمام اطلاعات کاربر.

دلیل اصلی دیگر برای اتخاذ رویکرد یادگیری فدرال این است که به طور بالقوه می تواند تأخیر را کاهش دهد. در سناریوی احتمالی آینده که تعداد زیادی اتومبیل خودران در جاده های ما وجود دارد ، آنها باید بتوانند به سرعت در مقابل حوادث ایمنی به یکدیگر پاسخ دهند..

یادگیری ابری سنتی شامل انتقال داده های بزرگ و سرعت یادگیری کندتر است ، بنابراین این پتانسیل وجود دارد یادگیری فدرال می تواند به وسایل نقلیه مستقل اجازه دهد تا با سرعت بیشتری و دقیق تر عمل کنند ، حوادث را کاهش داده و ایمنی را کاهش دهند.

مطابق با مقررات

یادگیری فدرال همچنین ممکن است به سازمانها کمک کند مدلهای الگوریتمی خود را بدون افشای داده های بیمار و یا پایان دادن به سمت اشتباه مقررات ، بهبود بخشند. قوانینی نظیر آیین نامه حفاظت از داده های عمومی اروپا (GDPR) و قانون قابلیت حمل بیمه سلامت آمریكا در سال 1996 ، مقررات دقیقی در مورد داده های افراد و نحوه استفاده از آن دارند.

این قوانین به طور کلی برای محافظت از حریم شخصی افراد به کار می روند ، به این معنی که یادگیری فدرال می تواند با داشتن فرصت های جدید فرصت های جدیدی را باز کند. از داده ها بیاموزید و در عین حال ایمن نگه دارید و در رهنمودهای نظارتی.

امنیت و حفظ حریم خصوصی یادگیری فدرال

یادگیری فدرال دنیای فرصت های جدیدی را برای آموزش مدل های یادگیری ماشین بدون ایجاد خطر در حفظ حریم خصوصی داده ها باز می کند. با این حال ، برای کاهش مسائل امنیتی و امکان افشای داده های کاربر ، باید با دقت اجرا شود.

برخی از مشکلات اصلی و همچنین راه حلهای احتمالی آنها عبارتند از:

رهگیری خلاصه داده های کاربر

تأمین حریم شخصی و امنیت کافی به طور کلی مستلزم ترکیبی از فناوری های مختلف و همچنین سیاست است. در حالی که یادگیری فدرال راه های جدیدی برای محافظت از داده ها به ما می دهد ، هنوز هم باید در کنار مکانیسم های مکمل اجرا شود.

یک مثال از یک نقطه ضعف بالقوه این است که وقتی خلاصه داده های کاربران از دستگاه به سرور مرکزی ارسال می شود ، توسط هکرهایی که می توانند از آنها برای تشخیص داده های اصلی استفاده کنند ، رهگیری می شوند..

خوشبختانه ، این مشکل یک راه حل نسبتاً ساده دارد که قبلاً در بسیاری از زمینه های امنیت اطلاعات پیاده سازی کرده ایم - ما به سادگی باید داده ها را با الگوریتم مناسب رمزگذاری کنیم زیرا بین دو نقطه طی می شود..

یافتن داده های اصلی از خلاصه های کاربر

در سناریوهای خاص ، از خلاصه داده های کاربر می توان برای تعیین اطلاعات اصلی استفاده کرد. اگر یک شخص بدخواه از طریق API نمایش داده شد به مدل ارسال کند ، ممکن است بازسازی داده ها امکان پذیر باشد ، اگرچه این یک مشکل منحصر به فرد برای یادگیری فدرال نیست.

اگر مهاجمان یا سازمان هایی که سرورها را در اختیار دارند می توانند داده های اصلی کاربر را از این طریق مشخص کنند ، کاملاً مشخص می شود هدف اجرای یادگیری فدرال را شکست دهید. برای جلوگیری از وقوع این کار ، دو مکانیسم مهم وجود دارد که می تواند در کنار یادگیری فدرال مستقر شود: پروتکل Secure Aggregation Google و حریم خصوصی دیفرانسیل.

پروتکل جمع آوری امن از محاسبات چند جانبه برای محاسبه میانگین گروهی از خلاصه داده های کاربر استفاده می کند ، بدون آنکه خلاصه داده های هر فرد مجزا را به سرور یا هر شخص دیگری نشان دهد.

تحت این سیستم ، هر یک از خلاصه های کاربر قبل از اینکه دستگاه کاربر را ترک کنند رمزگذاری می شوند و تا زمانی که به آنها اضافه نشوند و به طور متوسط ​​با تعداد مشخصی از خلاصه های دیگر کاربر ، توسط سرور رمزگشایی نمی شوند. این اجازه می دهد تا سرور مدل خود را به طور متوسط ​​به کاربر آموزش دهد بدون اینکه خلاصه های فردی را که می تواند برای کشف اطلاعات شخصی فرد استفاده شود ، نشان دهد.

Secure Aggregation نه تنها از دسترسی سرور به خلاصه های کاربر جلوگیری می کند بلکه باعث می شود مرد در وسط حملات بسیار دشوارتر است.

گزینه دیگر این است حریم خصوصی دیفرانسیل, که شامل انواع مختلفی از تکنیک های مرتبط است که شامل مقدار مشخصی از سر و صدا به داده ها می شود. پیش فرض اصلی حریم خصوصی دیفرانسیل این است که داده های کاربر خصوصی باقی بمانند ، پرس و جوهای مربوط به پایگاه داده نباید نشان دهند که آیا فرد در داده ها گنجانده شده است یا اطلاعات آنها چیست؟.

برای جلوگیری از آشکار شدن نمایش داده شد این اطلاعات ، از چندین گزینه مختلف برای افزودن نویز به داده ها استفاده می شود. این نویز داده قبل از اینکه دستگاه کاربر را ترک کند ، اضافه می شود و از دسترسی سرور و مهاجمان به بروزرسانی ها به شکل اصلی خود جلوگیری می کند.

مسمومیت مدل

یادگیری فدرال فرصتی را برای مخالفان فراهم می کند تا مدل الگوریتمی را مسموم کنند. اساساً ، این بدان معنی است یک بازیگر بدخواه می تواند مدل را فاسد کند از طریق دستگاه خود یا با به دست آوردن دستگاه های طرف های دیگر درگیر آموزش الگوریتم.

این حملات توسط باغداساریان و همکاران به تفصیل مورد بررسی قرار گرفت. در آنها نحوه یادگیری پشتیبان فدراسیون کاغذ. تحت یک الگوی یادگیری فدرال ، مهاجم توانایی این را دارد که یک یا چند شرکت کننده را در اختیار بگیرد.

در سناریوهای خاص, این امکان وجود دارد که آنها بتوانند داده های هریک از مشارکت کنندگان خود را کنترل کنند, برای تغییر نحوه آموزش این داده ها به صورت محلی ، تغییر پارامترهای بیش از حد مانند میزان یادگیری و وزن مدل فردی (قبل از ارسال به سرور برای جمع آوری). همچنین می توان رویکرد هر یک از شرکت کنندگان به آموزش های محلی را از یک دور به مرحله دیگر تغییر داد.

با استفاده از این توانایی ها ، مهاجمان می توانند از پشتی هایی را تزریق کنند که می توانند الگوریتم ها را به سمت اهداف خود تغییر دهند. براساس آمار و ارقام این مطالعه ، مسمومیت از این مدل بسیار مؤثرتر از سایر حملات مسمومیت با داده است.

در یک کار پیش بینی کلمه شامل 80،000 شرکت کننده ، محققان می توانند با به خطر انداختن فقط هشت نفر از شرکت کنندگان ، 50 درصد دقت در فضای باز را بدست آورند. برای تحقق همین اثر با مسموم کردن داده ها ، محققان باید 400 شرکت کننده را به خطر بیاندازند.

یکی از بزرگترین موضوعات این واقعیت ناشی می شود که یادگیری فدرال شده و پروتکل Secure Aggregation با هدف حفظ اطلاعات شخصی کاربران. در صورت اجرای صحیح ، این کار سرور را غیر ممکن می کند تا ناهنجاری ها را در خلاصه های یک کاربر خاص تشخیص دهد.

همانطور که در بالا اشاره کردیم ، پروتکل Secure Aggregation فقط در صورت اضافه شدن آنها به همراه سایر داده های کاربر ، اجازه دسترسی به خلاصه های کاربر را می دهد. از آنجا که خلاصه ها به صورت جداگانه قابل نمایش نیستند ، این امر غیرممکنی را که ممکن است در درون آنها قرار داشته باشد غیرممکن می کند ، و به حملات مسمومیت مدل راهی عالی برای دزدکی در داخل می دهد.

در این مرحله ، این حملات و دفاع احتمالی آنها نیاز به تحقیق دقیق تری دارند.

خصوصی نگه داشتن مدل

مدل های الگوریتمی پیشرفته می توانند ارزش میلیون ها دلار داشته باشند که این امر آنها را به هدف سارقان تبدیل می کند. آنها می توانند از آنها برای کسب درآمد به همان روشی استفاده کنند که شرکتهای پشت الگوریتم انجام می دهند یا حتی برای اهداف غیرقانونی از آنها استفاده می کنند. این نه تنها باعث می شود که سارقان از سرمایه گذاری های هنگفتی که برای ساختن این مدل سرمایه گذاری می کنند ، نجات دهند ، بلکه می تواند باعث کاهش ارزش اصلی شود.

شرکت ها باید از مالکیت معنوی خود محافظت کنند ، و به نظر می رسد که ارسال مدل به طور مستقیم به دستگاه های کاربران است به راحتی می تواند منجر به این شود که این مدل ها در معرض هر کسی باشد که بخواهد آنها را بگیرد. با این حال ، راه حل هایی وجود دارد که شرکت ها می توانند از آنها برای محافظت از مدل های الگوریتمی خود استفاده کنند.

یکی از این موارد این است که به اشتراک گذاری مخفیانه از محاسبات چند حزبی کمک می کند. این به سازمانها اجازه می دهد تا با توزیع قطعاتی از آن در دستگاه ها ، وزن مدل را پنهان کنند. براساس این سیستم ، هیچ یک از طرفهای مخفی نمی توانند کل مدل را بشناسند.

این امر به سازمانها اجازه می دهد تا مدلهای آموزش الگوریتمی خود را به دستگاهها سوق دهند بدون اینکه نگران سرقت مالکیت معنوی خود باشند.

محدودیت های یادگیری فدرال

علاوه بر مسائل امنیتی بالقوه ، یادگیری فدرال محدودیت های دیگری نیز دارد که مانع از آن می شود که یک قرص جادویی برای حل همه مسائل مربوط به حریم خصوصی داده های ما باشد.

یک نکته این است که در مقایسه با روشهای سنتی یادگیری ماشین, یادگیری فدرال نیاز به قدرت و حافظه دستگاه محلی به میزان قابل توجهی بیشتر برای آموزش مدل دارد. با این حال ، بسیاری از دستگاه های جدید دارای قدرت کافی برای این توابع هستند ، و این رویکرد همچنین منجر به انتقال مقدار بسیار کمی از داده ها به سرورهای مرکزی می شود و باعث کاهش مصرف داده می شود. بسیاری از کاربران ممکن است این تجارت را سودمند بدانند ، تا زمانی که دستگاه آنها به اندازه کافی قدرتمند باشد.

مسئله فنی دیگر شامل پهنای باند است. یادگیری فدرال از طریق wifi یا 4G انجام می شود ، در حالی که یادگیری ماشین سنتی در مراکز داده اتفاق می افتد. پهنای باند wifi یا 4G بزرگی پایین تر از مواردی است که بین گره های کار و سرورهای این مراکز استفاده می شود..

پهنای باند دستگاهها به اندازه قدرت محاسباتی آنها طی سالها رشد نمی کند ، بنابراین پهنای باند کافی نمی تواند به طور بالقوه باعث ایجاد تنگنا شود. تأخیر را افزایش داده و روند یادگیری را کندتر می کند در مقایسه با رویکرد سنتی.

اگر آموزش الگوریتم در حین استفاده از دستگاه انجام شود ، عملکرد دستگاه را کاهش می دهد. گوگل این مشکل را تنها با آموزش دستگاه ها هنگام کار کردن ، خاموش کردن و وصل شدن به یک پریز برق برطرف کرده است. در حالی که این مشکل را حل می کند ، آن را حل می کند چرخه یادگیری را کند می کند, زیرا آموزش فقط در مواقع خارج از اوج انجام می شود.

چالش دیگر این است که دستگاه ها در طی فرایند آموزش از بین می روند - ممکن است آنها توسط صاحبانشان مورد استفاده قرار بگیرند ، خاموش شوند یا اختلال دیگری را متحمل شوند. داده های دستگاه هایی که رها می شوند ممکن است نتوانند به درستی مورد استفاده قرار گیرند ، که می تواند به یک مدل الگوریتمی کمتری منجر شود.

فدراسیون یادگیری راه جدید برای یادگیری ماشین است?

یادگیری فدرال یک الگوی آموزشی نسبتاً جدید است و پتانسیل را در تعدادی از برنامه های مختلف نشان می دهد. زیرا هنوز در مراحل نسبتاً اولیه تحصیل است, قبل از اینکه همه کاربردهای احتمالی آن مشخص شود ، این روند به تحقیقات بیشتری نیاز دارد, و همچنین خطرات احتمالی امنیتی و امنیتی که با آن روبروست.

تا آن زمان ، با اطمینان می توان گفت که این رویکرد در آینده چقدر گسترده اجرا خواهد شد. خبر خوب این است که قبلاً شاهد بودیم که آن را به طور موثری در دنیای واقعی با Gboard Google مستقر کند.

با این حال ، به دلیل برخی از محدودیت هایی که قبلاً مورد بحث قرار گرفت ، برای یادگیری فدرال امکان جایگزینی مدل های یادگیری سنتی در همه سناریوها بعید نیست. آینده همچنین به این بستگی دارد که شرکتهای بزرگ فناوری ما واقعاً به حفظ حریم خصوصی متعهد هستند. در این مرحله ، دلیل خوبی داریم که شک کنیم.

همچنین مشاهده کنید: آمار نقض داده های سال 2019

Brayan Jackson
Brayan Jackson Administrator
Sorry! The Author has not filled his profile.
follow me

About the author

Leave a Reply

Your email address will not be published. Required fields are marked *

7 + 1 =

Adblock
detector