Федеративно учење: Да ли је заиста боље за вашу приватност и сигурност?

Федеративно учење (1)

Осим ако нисте посвећени томе да пратите најновије вештачке интелигенције, можда никада раније нисте чули термин 'удружено учење'. Иако можда није толико истакнут као други технолошки трендови попут 3Д штампања или дронова, његове импликације на приватност и машинско учење могло би довести до много веће употребе у наредним годинама.

Кратка и једноставна верзија је да је федерално учење алтернативни модел за побољшање алгоритама који сада доминирају многим аспектима нашег живота, било да су то Невс Невс или Гоогле Мапс. Под традиционалнијим системом наши се подаци шаљу на централни сервер где се анализирају, а релевантне информације се користе за промену алгоритма.

Федеративно учење нуди решење које повећава приватност корисника јер већина личних података остаје на нечијем уређају. Алгоритми се директно обучавају на корисничким уређајима и шаљу назад релевантне сажетке података, а не податке у целини. То омогућава компанијама да побољшају своје алгоритме без потребе да прикупљају све корисничке податке, пружајући решење усмерено на приватност.

Шта је удружено учење?

Немојмо лагати, за већину људи дубина федералног учења може се чинити сложеном и тешком за разумевање. Поље АИ је далеко изван подручја знања многих људи и укључује много више математике и логике него што је већини нас угодно.

Упркос овим потешкоћама, федерално учење је занимљив и важан технолошки развој, па је вредно покушати заобићи то. Да бисмо вам олакшали ствари, раздвојићемо концепте и објаснити их на поједностављен начин тако да можете разумети ширу слику.

Машинско учење и алгоритми

Ако своје дане не проводите играјући се 1930-их, ваш живот је испуњен алгоритмима. У овом контексту, када говоримо о алгоритмима, у суштини мислимо формула или скупа упутстава која се користе за откривање проблема или за израчунавање жељеног резултата.

Фацебоок, Инстаграм и Твиттер користе их за испоруку персонализованог садржаја који ће вас највероватније занимати, као и како би платформе добиле више новца. Гоогле-ов претраживач користи софистициране алгоритме да би ваше појмове за претрагу претворио у странице онога што мислите да тражите. Ваша е-пошта филтрира нежељену пошту помоћу алгоритама, док Вазе користи алгоритме да би пронашао најефикаснији начин да се пређе из тачке А до тачке Б.

Постоји безброј других алгоритама који нам помажу да испунимо задатке, држе нас заузете или вребамо под хаубом свакодневних процеса.

Компаније су непрестано покушавајући да побољшавате ове алгоритме да бисте добили најефикасније, тачне и најефикасније резултате, све док се то поклапа са сопственим циљевима компаније - обично зарађивањем новца.

Многи од наших најчешће коришћених алгоритама већ су далеко од свог првобитног увођења. Размислите о претраживању преко Гоогле-а крајем деведесетих или почетком 2000-их - морали сте бити невероватно специфични, а резултати су били ужасни у поређењу с данашњим даном.

Па како се ови алгоритми побољшавају?

Главни део начина на који алгоритми побољшавају своје задатке укључује машинско учење, што је потпоље вештачке интелигенције. Алгоритми машинског учења почињу узимањем узорка података, затим њиховим анализирањем користећи оно што су научили да ефикасније извршавају задатке. Они су у стању да се побољшају, а да не морају да ове промене програмирају од стране спољашње силе, као што је људски програмер.

Машинско учење је у процвату у последњих неколико деценија, побољшавајући наше алгоритме, помажући нам да постигнемо боље резултате и пређемо на нова поља. Због своје корисности, такође је био а огроман новац за компаније попут Фацебоока, Гоогле-а и многих других.

Све започиње подацима - већи је база података и већи је број висококвалитетних података, тачнији могу бити ови алгоритми машинског учења. Што је алгоритам ефикаснији, то више новца може да заради, што је у основи претворило податке у робу.

Ови услови су проузроковали велико повећање количине података која се прикупља о људима. Највећи део ових података се прикупља са телефонских бројева корисника, рачунара и других подручја, а затим шаље на сервер где се анализирају ради побољшања алгоритма. Док ово има често доводи до бољих услуга и повећања практичности, такође је дошло до значајног повратка од оних који су забринути за своју приватност.

Нешто је језиво у тим компанијама да знају вашу локацију у сваком тренутку, знају с ким сте пријатељи, знате целокупну историју претраге и још много, много више. Наравно, постоје начини за избегавање ове врсте прикупљања података, али технике су углавном непрактичне за већину људи.

Усред низа скандала о приватности података, попут Фацебоок-ове фијаске Цамбридге Аналитица и масовног кршења података компаније Гоогле, компаније су почеле да примећују пажњу. Не желећи да буду узурпирани, изгледа да гледају путеве како да наставе са напредовањем својих циљева без подизања бијеса својих корисника или законодаваца. Можда је преломни тренутак када је Марк Зуцкерберг најавио да је „Будућност приватна“ на овогодишњој конференцији Ф8.

Иако је на овај покрет вероватно најбоље гледати сумњичаво, дошло је до позитивних помака у погледу приватности корисника, од којих је једно удружено учење.

Федеративно учење

Уместо да податке с корисничких уређаја преносимо на наш сервер, зашто не пошаљемо алгоритам тим подацима?

Ово је суштински концепт који стоји иза федералног учења. Термин је скован у документу из 2016. године који су објавили запослени од стране Гооглеа, а компанија је остала на челу поља.

федерално учење 1

Федеративни процес обуке.

Федеративно учење побољшава алгоритме слањем тренутне верзије алгоритма одговарајућим уређајима. Овај модел алгоритма затим учи из приватних података на телефонима изабране групе корисника. Када се заврши, сажетак новог знања враћа се на сервер компаније - сами подаци никада не напуштају телефон.

Ради сигурности, ово знање се углавном шифрује на повратку на сервер. Да би спречио сервер да може да утврди појединачне податке на основу сажетка који је примио, Гоогле је развио систем Сигурна агрегација протокол.

Овај протокол користи криптографију да спријечи послужитељ да приступи појединачним сажетцима информација. Према овој шеми, сервер може да приступи резимеу тек након што је додан и упоређен са резултатима стотина или хиљада других корисника.

Алтернативно, диференцијална приватност се може користити за додавање случајних шума података на сажетак појединца, прикривајући резултате. Ови случајни подаци се додају пре него што се сажетак пошаље на сервер, дајући серверу резултат који је довољно тачан за алгоритамски тренинг, без да му се открију стварни сажети подаци. Тиме се чува приватност појединца.

Технике попут протокола сигурне агрегације и разлике у приватности су кључне за заштиту информација корисника и од организације и од хакера. Без њих, федерално учење не би могло да осигура приватност корисника.

Након што се сажеци информација сигурно пошаљу на сервер, они се користе за ажурирање алгоритма. Процес се понавља хиљадама пута, и тест верзије алгоритма се такође шаљу на различите корисничке уређаје. То омогућава организацијама да процене нове верзије алгоритама на стварним подацима корисника. Будући да се анализа врши унутар ограничења корисничких уређаја, алгоритми се могу тестирати без обједињавања корисничких података на централном серверу.

Када се тестови заврше, ажурирани модел алгоритма шаље се корисничким уређајима на замену старог. Побољшани алгоритам се затим користи у својим уобичајеним задацима. Ако све иде по плану, биће ефикасније и тачније у постизању резултата.

Затим се цео циклус понавља изнова и изнова:

  • Нови алгоритам проучава податке о одабраним корисничким уређајима.
  • Сигурно шаље сажетке ових корисничких података на сервер.
  • Ови подаци се затим упоређују са резултатима других корисника.
  • Алгоритам учи из ових информација, производи ажурирања и тестира их.
  • Напреднија верзија алгоритма се гура корисницима.

Временом се алгоритам учи из корисничких података и континуирано се побољшава, без икаквог похрањивања података на сервере компаније. Ако се и даље борите да замотате главу о томе шта је удружено учење и како то функционише, Гоогле је објавио овај цртани филм који објашњава и помаже вам да визуелно приступите удруженом учењу на једноставан начин.

Остале предности федералног учења

Модел удруженог учења корисницима пружа још неколико предности које имају додатну приватност. Уместо да континуирано делимо податке са сервером, процес учења може се одвијати када се уређај пуни, повезан је на вифи и није у употреби, минимизирање непријатности са којима се суочавају корисници.

То значи да корисници не троше драгоцене податке или батерију када су вани или у близини. Будући да удружено учење преноси само сажетак релевантних података, а не сам податак, процес на крају пребацује мање података у целини него у традиционалним моделима учења.

Федеративно учење такође може пружити и глобалне и персонализоване алгоритамске моделе. Може да прикупи увид шире групе корисника и комбинује их са информацијама појединог корисника како би испоручио ефикаснији модел који одговара њиховим јединственим потребама.

Примене федералног учења

Федеративно учење има широку лепезу случајева потенцијалне употребе, посебно у ситуацијама када питања приватности пресијецају се потребом за побољшањем алгоритама. Тренутно су најистакнутији удружени пројекти учења спроведени на паметним телефонима, али исте технике се могу применити и на рачунаре и ИоТ уређаје попут аутономних возила.

Неке од постојећих и потенцијалних употреба укључују:

Гоогле Гбоард

Прва велика примена федералног учења у стварном свету била је део тога Гоогле-ова апликација за тастатуру, Гбоард. Компанија је имала за циљ да користи технику за побољшање предлога речи без нарушавања приватности корисника.

Према старом приступу машинском учењу, развијање бољих предвиђања на тастатури било би страховито инвазивно - све што бисмо уписали, све наше приватне поруке и чудне Гоогле претраге морало би бити послато на централни сервер на анализу, и ко зна које још података могао да се користи.

Срећом, Гоогле је одлучио да уместо њих користи њихов федерални приступ учењу. Будући да се алгоритамски модел поставља на корисничке уређаје, он је у стању да научи из речи које корисници укуцају, сажети кључне информације и затим га врати на сервер. Ови сажеци се затим користе за унапређење Гооглеове функције предвиђања текста, која се затим тестира и пребацује на кориснике.

Нова верзија алгоритма понудиће побољшано искуство захваљујући ономе што је научио из процеса, а циклус се понавља. Ово омогућава корисницима да непрестано побољшавају сугестије на тастатури, а да не морају да угрожавају своју приватност.

Здравствена заштита

Приватност и сигурност података невероватно су сложени у здравственој индустрији. Многе организације имају значајне количине осетљивих и драгоцених података о пацијентима, што хакери такођер трагају.

Нико не жели да срамотна дијагноза процури у јавност. Богатство података садржаних у тим складиштима изузетно је корисно за преваре попут крађе идентитета и преваре осигурања. Због велике количине података и огромних ризика с којима се суочава здравствена индустрија, већина земаља је применила строге законе о начину на који треба управљати здравственим подацима, као што су амерички ХИПАА прописи.

Ови закони су прилично рестриктивни и имају значајне казне ако их организација крши. То је генерално добра ствар за пацијенте који су забринути због погрешног руковања њиховим подацима. Међутим, ове врсте законодавства такође отежавају употребу неких облика података у студијама које би могле помоћи новим исходима медицине.

Због ове сложене правне ситуације, организације као што су Овкин и Интел истражују како се може користити удружено учење да се заштити приватност пацијената, а истовремено се подаци користе.

Овкин ради на платформи која користи удружено учење да заштити податке о пацијентима у експериментима који одређују токсичност лекова, предвиђају еволуцију болести и такође процењују стопе преживљавања за ретке врсте рака.

У 2018. години, Интел је у сарадњи са Центром за рачунарско биомедицинско снимање и аналитику Универзитета у Пенсилванији показао како удружено учење може бити примењено на медицинско снимање као доказ концепта..

Сарадња је открила да се према федералном приступу учењу може обучити њихов посебан модел дубоког учења 99 процената тачно као исти модел трениран традиционалним методама.

Аутономна возила

Федеративно учење би могло бити корисно за самовозна возила на два главна начина. Прва је да би могла заштитити приватност корисничких података - многи не воле идеју да се њихови путни записи и друге информације о вожњи преносе и анализирају на централном серверу. Федеративно учење може побољшати приватност корисника само ажурирањем алгоритама сажетцима ових података, а не све корисничке информације.

Други кључни разлог за усвајање федералног приступа учењу је тај што може потенцијално смањити кашњење. У вероватном будућем сценарију где на нашим путевима постоји велики број аутомобила за самосталну вожњу, они ће морати да реагују једни на друге током безбедносних инцидената.

Традиционално учење у облаку укључује велике преносе података и спорији темпо учења, тако да постоји потенцијал да федерално учење могло би омогућити аутономним возилима да брже и прецизније дјелују, смањујући несреће и повећавајући сигурност.

Придржавање прописа

Федеративно учење такође може помоћи организацијама да побољшају своје алгоритамске моделе без излагања података о пацијентима или не заврше на погрешној страни прописа. Закони, попут европске опште уредбе о заштити података (ГДПР) и америчког Закона о преносивости здравственог осигурања из 1996. године, имају строге прописе о подацима појединаца и како се они могу користити.

Ови закони су углавном на снази за заштиту приватности појединаца, што значи да би федеративно учење могло да отвори нове могућности ако буде у могућности да учите из података, а притом их чувате сигурно иу оквиру регулаторних смерница.

Сигурност и приватност федералног учења

Федеративно учење отвара свет нових могућности за моделе машинског учења без нарушавања приватности података. Међутим, треба га пажљиво имплементирати у циљу ублажавања проблема сигурности и могућности излагања корисничких података.

Неки од главних проблема, као и њихова потенцијална решења, укључују:

Пресретање резимеа података корисника

Омогућавање одговарајуће приватности и сигурности обично укључује комбинацију различитих технологија, као и политике. Иако нам удружено учење даје нове начине заштите података, оно се и даље мора проводити заједно са комплементарним механизмима.

Један пример потенцијалне слабе тачке је да када сажеци података корисника буду послати са уређаја на централни сервер, могли би их пресретнути хакери који би их користили за откривање оригиналних података.

Срећом, овај проблем има релативно једноставно решење које већ имплементирамо у многим областима информационе безбедности - једноставно морамо да кодирамо податке одговарајућим алгоритмом, јер се крећу између две тачке.

Откривање оригиналних података из корисничких сажетака

У одређеним сценаријима, сажеци корисничких података могу се користити за одређивање изворних информација. Ако злонамерна страна пошаље модел уз помоћ АПИ-ја, можда ће бити могуће реконструисати податке, мада то није јединствени проблем савезном учењу.

Ако би нападачи или организације које поседују сервере могли на овај начин схватити оригиналне корисничке податке, то би у потпуности било порази сврху примене федералног учења. Постоје два кључна механизма која се могу користити уз удружено учење да се то спречи: Гоогле-ов протокол сигурне агрегације и различита приватност.

Тхе Сигурни протокол агрегације користи рачунарство са више страна да израчуна просјек групе сажетака корисничких података, без откривања сажетака података било којег појединца на послужитељу или било којој другој страни.

У оквиру овог система, сваки кориснички сажетак се шифрира пре него што напусти корисников уређај и сервер их не може дешифровати све док се не додају и просече са одређеним бројем других корисничких сажетака. То омогућава серверу да обучи свој модел на корисничком просеку, без излагања појединачних сажетака који би се могли користити за откривање приватних података појединца.

Сигурна агрегација не само да спречава сервер да приступи резимеима корисника, већ и чини Човек у средини напади много тежи.

Друга опција је диференцијална приватност, која укључује разне сродне технике које укључују одређену количину буке која се додаје подацима. Главна претпоставка разлике у приватности је да подаци корисника остају приватни, упити у базу података не би требали откривати да ли је појединац укључен у податке, нити које су њихове информације биле.

Да би се спречило откривање ових података упитима, може се користити неколико различитих опција за додавање шума подацима. Ова бука података додаје се пре него што напусти корисников уређај, спречавајући и сервер и нападаче да приступају ажурирањима у свом оригиналном облику.

Модел тровања

Федеративно учење отвара могућност противницима да „отровају“ алгоритамски модел. У суштини, то значи то злонамерни глумац може да поквари модел преко сопственог уређаја или преузимањем уређаја других страна укључених у обуку алгоритмичког модела.

Ови напади су детаљно истражени од стране Багдасариан-а и др. у њиховим Како подржати удружено учење папир. Према федералном моделу учења, нападач има потенцијал да преузме једног или више учесника.

У одређеним сценаријима, могу да контролишу податке сваког учесника који су преузели, да се промени начин на који се ти подаци тренирају локално, да се измене хиперпараметри као што су стопа учења и пондерисање појединачног модела (пре него што се поднесу серверу на агрегацију). Такође је могуће променити приступ сваког учесника локалном тренингу из једног круга у други.

Помоћу ових способности нападачи могу убризгати заледје који могу модификовати алгоритме у складу са сопственим циљевима. Према подацима из студије, модел тровања је био далеко ефикаснији од осталих напада тровања подацима.

У задатку за предвиђање речи који укључује 80.000 учесника, истраживачи су могли постићи 50% тачности у задњем делу, компромитујући само осам учесника. Да би постигли исти ефекат тровањем података, истраживачи би морали да компромитују 400 учесника.

Једно од највећих питања долази из чињенице да је федерално учење и протокол сигурне агрегације усмјерен на одржавање приватних података о корисницима. Ако се правилно имплементира, сервер онемогућава да открије аномалије у резимеу појединог корисника.

Као што смо горе споменули, протокол Сецуре Аггрегатион омогућава приступ резимеима корисника тек након што су додани заједно са другим корисничким подацима. Будући да се сажеци не могу приказивати појединачно, то онемогућава да се виде аномалије које се могу налазити у њима, што даје нападима тровања модела савршеним начином за ушуњавање.

У овој фази потребно је детаљније истражити ове нападе и њихову могућу одбрану.

Задржавање модела приватним

Софистицирани алгоритамски модели могу вриједити милионе, што их чини метом лопова. Могу их користити за зарађивање на исти начин као што то раде компаније иза алгоритама или их чак искористити у незаконите сврхе. Не само што би спасило лопове од улагања огромних финансијских средстава у изградњу модела, већ би такође могло девалвирати оригинал.

Компаније морају да заштите своју интелектуалну својину, а чини се да модел шаљу директно на уређаје корисника лако би могло резултирати да ови модели буду изложени свима који их желе узети. Међутим, постоје решења која компаније могу да користе за заштиту својих алгоритамских модела.

Једно од њих је искористити тајно дијељење рачунања на више страна. То омогућава организацијама да сакрију пондерирање модела тако што дистрибуирају његове фрагменте по уређајима. Према овом систему, ниједна страна која држи тајне не може знати цео модел.

То омогућава организацијама да своје алгоритамске моделе обуке гурну у уређаје без бриге да ће им бити украдена интелектуална својина.

Ограничења федералног учења

Поред потенцијалних сигурносних проблема, удружено учење има и низ других ограничења која га спречавају да постане чаробна пилула за решавање свих наших проблема са приватношћу података..

Једно разматрање је да у поређењу са традиционалним методама машинског учења, за федерално учење потребно је значајно више снаге и меморије локалног уређаја за обуку модела. Међутим, многи нови уређаји имају довољно снаге за ове функције, а овај приступ такође резултира преношењем пуно веће количине података на централне сервере, смањујући употребу података. Многи корисници могу сматрати да је ово погодно ако је њихов уређај довољно моћан.

Други технички проблем укључује пропусност. Федеративно учење се изводи преко вифи-ја или 4Г, док се традиционално машинско учење дешава у центрима података. Стопе пропусности за вифи или 4Г су величине ниже од оних које се користе између радних чворова и сервера у овим центрима..

Пропусни опсег за уређаје није нарастао тако брзо као њихова рачунска снага током година, тако да недовољна ширина појаса може потенцијално да проузрокује уско грло које повећава латенцију и процес учења чини споријим у поређењу са традиционалним приступом.

Ако се тренинг алгоритама проводи док се уређај користи, то смањује перформансе уређаја. Гоогле се око овог проблема суочио само са уређајима за тренирање у празном ходу, укључивању и укључивању у утичницу. Иако ово решава проблем, то успорава циклус учења, јер се обука може обављати само у ван шетње.

Додатни изазов је да уређаји испусте током процеса обуке - могу их користити њихови власници, искључити или проћи кроз неке друге сметње. Подаци уређаја који одустају можда се неће моћи правилно користити што може довести до мање тачног алгоритмичког модела.

Да ли је удружено учење нови пут за машинско учење?

Федеративно учење је релативно нов модел тренинга и показује потенцијал у бројним различитим апликацијама. Јер још увек је у релативно раним фазама учења, процесу треба много више истраживања пре него што се утврде све његове могуће употребе, као и потенцијални ризици за сигурност и приватност с којима се суочава.

До тада, тешко је са сигурношћу рећи колико ће се широко примењивати приступ у будућности. Добра вест је да смо то већ видели како се ефикасно распоређује у стварном свету са Гоогле-овим Гбоардом.

Међутим, због неких претходно разматраних ограничења, мало је вероватно да ће федерално учење заменити традиционалне моделе учења у свим сценаријима. Будућност ће такође зависити од тога колико су посвећене приватности наше велике технолошке компаније. У овој фази имамо добрих разлога да будемо скептични.

Такође видети: Статистика кршења података за 2019. годину

Brayan Jackson
Brayan Jackson Administrator
Sorry! The Author has not filled his profile.
follow me

About the author

Leave a Reply

Your email address will not be published. Required fields are marked *

2 + 7 =

Adblock
detector