Федерално обучение: Наистина ли е по-добре за вашата поверителност и сигурност?

Федерално обучение (1)

Освен ако не сте посветени да сте в крак с най-новото в областта на изкуствения интелект, може би никога не сте чували понятието „федерално учене“ преди. Въпреки че може да не е толкова изявен, колкото други технологични тенденции като 3D печат или дронове, последиците от него за личния живот и машинното обучение могат да доведат до много по-голямо използване в следващите години.

Кратката и проста версия е, че федералното обучение е алтернативен модел за усъвършенстване на алгоритмите, които сега доминират в много аспекти от нашия живот, независимо дали са News News или Google Maps на Facebook. При по-традиционната система нашите данни се изпращат до централен сървър, където се анализират, а съответната информация се използва за промяна на алгоритъма.

Федералното обучение предлага решение, което повишава поверителността на потребителите, защото по-голямата част от личните данни остават на устройството на човек. Алгоритмите се обучават директно на потребителски устройства и само изпращат обратно съответните обобщения на данните, а не данните като цяло. Това позволява на компаниите да подобряват алгоритмите си, без да е необходимо да събират всички данни на потребителя, осигурявайки по-фокусирано решение за поверителност.

Какво е федерално обучение?

Нека не лъжем, за повечето хора дълбочината на федералното обучение може да изглежда сложна и трудна за разбиране. Полето на AI е далеч извън сферата на знанията на много хора и включва много повече математика и логика, отколкото повечето от нас са удобни.

Въпреки тези трудности, федералното обучение е интересно и важно технологично развитие, така че си струва да се опитате да го заобиколите. За да улесним нещата, ще разбием понятията и ще ги обясним опростено, за да можете да разберете голямата картина.

Машинно обучение и алгоритми

Освен ако не прекарате дните си в игра на 1930-те, животът ви е изпълнен с алгоритми. В този контекст, когато имаме предвид алгоритмите, ние по същество имаме предвид формули или набори инструкции, които се използват за намиране на проблем или за изчисляване на желания резултат.

Facebook, Instagram и Twitter ги използват, за да доставят персонализирано съдържание, което е най-вероятно да ви заинтересува, както и да направят платформите повече пари. Търсачката на Google използва усъвършенствани алгоритми, за да превърне вашите думи за търсене в страници на това, което смятате, че търсите. Вашият имейл филтрира спам с алгоритми, докато Waze използва алгоритми, за да измисли най-ефективния начин да стигнете от точка А до точка Б.

Има безброй други алгоритми, които ни помагат да изпълняваме задачи, поддържат ни заети или дебнат под капака на ежедневните процеси.

Компаниите са непрекъснато се опитват да подобряват тези алгоритми, за да ви дадат най-ефективни, точни и ефикасни резултати, стига това да се приведе в съответствие със собствените цели на компанията - обикновено печелене на пари.

Много от най-използваните ни алгоритми изминаха дълъг път от първоначалното им внедряване. Помислете за търсенето през Google в края на деветдесетте или началото на 2000-те - трябваше да сте невероятно конкретни и резултатите бяха ужасни в сравнение с днешния ден.

И така, как се подобряват тези алгоритми?

Основна част от това как алгоритмите се усъвършенстват в своите задачи включва машинно обучение, което е подполе на изкуствения интелект. Алгоритмите за машинно обучение започват с вземане на извадка от данни, анализирането им след това използвайки наученото за по-ефективно изпълнение на задачите. Те са в състояние да се подобрят, без да е необходимо тези промени да бъдат програмирани от външна сила, като например човешки разработчик.

През последните няколко десетилетия машинното обучение процъфтява, подобрявайки нашите алгоритми, помага ни да постигнем по-добри резултати и да преминем в нови полета. Поради своята полезност, тя също е била огромен производител на пари за компании като Facebook, Google и много други.

Всичко започва с данни - колкото по-голям е резервоарът от данни и толкова по-голям е броят на висококачествените точки от данни, толкова по-точни могат да бъдат тези алгоритми за машинно обучение. Колкото по-ефективен е един алгоритъм, толкова повече пари може да направи, което по същество превърна данните в стока.

Тези условия са предизвикали масово разширяване на количеството данни, което се събира на хората. В по-голямата си част тези данни се събират от телефоните, компютрите и други области на потребителите, след което се изпращат на сървър, където се анализират за подобряване на алгоритъма. Докато това има често водеше до по-добри услуги и повишено удобство, имаше и значително въздействие от тези, които се притесняват от личния си живот.

Има нещо зловещо в тези компании, които знаят местоположението ви по всяко време, знаят с кого сте приятели, знаете цялата си история на търсенето и много, много повече. Разбира се, има начини да се избегнат тези видове събиране на данни, но като цяло техниките са твърде непрактични за притесненията на повечето хора.

На фона на поредица скандали за поверителност на данни, като фиаско Cambridge Analytica на Facebook и масовото нарушаване на данни на Google +, компаниите започнаха да забелязват. Не искат да бъдат узурпирани, те изглежда търсят пътища, за да продължат да напредват своите цели, без да повишават яростта на своите потребители или законодатели. Може би преломният момент беше, когато Марк Зукърбърг обяви, че „бъдещето е частно“, на тазгодишната конференция на F8.

Въпреки че е най-добре да гледате на това движение със скептицизъм, имаше някои положителни развития по отношение на поверителността на потребителите, едно от които е федерално обучение.

Федерално обучение

Вместо да вземаме данни от потребителски устройства на нашия сървър, защо не изпратим алгоритъма към данните?

Това е основната концепция зад федералното обучение. Терминът беше въведен в документ от 2016 г., публикуван от служители на Google, а компанията остана начело на полето.

федерално обучение 1

Федералният обучителен процес.

Федералното обучение подобрява алгоритмите, като изпраща текущата версия на алгоритъм на подходящи устройства. Този модел на алгоритъма след това се учи от личните данни на телефоните на избрана група потребители. Когато приключи, обобщение на новите знания се изпраща обратно на сървъра на компанията - самите данни никога не напускат телефона.

За сигурност, тези знания обикновено са криптирани на връщане към сървъра. За да спре сървъра да може да разбере отделни данни въз основа на полученото обобщение, Google разработи Сигурна агрегация протокол.

Този протокол използва криптография, за да предотврати достъпа на сървъра до отделните информационни обобщения. При тази схема сървърът може да получи достъп до обобщението само след като е добавен и осреднен с резултатите от стотици или хиляди други потребители.

алтернативно, диференциалната поверителност може да се използва за добавяне на случаен шум от данни към резюмето на индивида, затъмнявайки резултатите. Тези случайни данни се добавят преди обобщението да бъде изпратено до сървъра, което дава на сървъра резултат, който е достатъчно точен за алгоритмично обучение, без да му се разкриват реалните обобщени данни. Това запазва поверителността на индивида.

Техники като протокола за сигурна агрегация и различната поверителност са от решаващо значение за защита на потребителската информация както от организацията, така и от хакерите. Без тях федералното обучение не би могло да гарантира поверителността на потребителите.

След като информационните обобщения са изпратени безопасно до сървъра, те се използват за актуализиране на алгоритъма. Процесът се повтаря хиляди пъти, и тестовите версии на алгоритъма също се изпращат на различни потребителски устройства. Това позволява на организациите да оценяват нови версии на алгоритми върху реални потребителски данни. Тъй като анализът се извършва от границите на потребителските устройства, алгоритмите могат да бъдат изпробвани, без да се налага обединяване на потребителски данни на централен сървър.

Когато тестовете приключат, актуализираният модел на алгоритъм се изпраща на потребителски устройства, за да замени старото. След това подобреният алгоритъм се използва при нормалните си задачи. Ако всичко е тръгнало по план, ще бъде по-ефективно и точно в постигането на своите резултати.

След това целият цикъл се повтаря отново и отново:

  • Новият алгоритъм изучава данните на избрани потребителски устройства.
  • Той сигурно изпраща обобщения на тези потребителски данни до сървъра.
  • След това тези данни се осредняват с резултати от други потребители.
  • Алгоритъмът се учи от тази информация, произвежда актуализации и ги тества.
  • По-усъвършенстваната версия на алгоритъма е изтласкана към потребителите.

С течение на времето алгоритъмът се учи от потребителски данни и непрекъснато се усъвършенства, без изобщо да се налага да съхранявате данните на сървърите на компанията. Ако все още се мъчите да увиете главата си какво е федералното учене и как работи, Google публикува тази карикатура, която обяснява и ви помага да визуализирате подхода на федеративното обучение по прост начин.

Други предимства на федералното обучение

Федерираният модел на обучение предлага на потребителите няколко други предимства, наред с поверителността. Вместо непрекъснато споделяне на данни със сървъра, процесът на обучение може да се проведе, когато дадено устройство се зарежда, свързано с wifi и не се използва, минимизиране на неудобствата, с които се сблъскват потребителите.

Това означава, че потребителите не губят ценните си данни или батерия, когато са навън. Тъй като федералното обучение прехвърля само обобщение на съответните данни, а не самите данни, процесът завършва с прехвърляне на по-малко данни, отколкото при традиционните модели на обучение.

Федералното обучение може също да предостави както глобални, така и персонализирани алгоритмични модели. Той може да събере прозрения от по-широка група потребители и да ги комбинира с информация от отделния потребител, за да предостави по-ефективен модел, който отговаря на техните уникални нужди.

Приложения на федерално обучение

Федералното обучение има широк спектър от потенциални случаи на използване, особено в ситуации, когато проблемите с поверителността се пресичат с необходимостта от подобряване на алгоритмите. В момента най-изявените федерални учебни проекти се провеждат на смартфони, но същите техники могат да се прилагат за компютри и IoT устройства като автономни превозни средства.

Някои от съществуващите и потенциалните приложения включват:

Google Gboard

Първото мащабно внедряване на федерално обучение в реалния свят беше част от Приложение на клавиатурата на Google, Gboard. Компанията има за цел да използва техниката за подобряване на предложенията за думи, без да нарушава поверителността на потребителите.

Съгласно стария подход за машинно обучение, разработването на по-добри прогнози за клавиатурата би било изключително инвазивно - всичко, което въведохме, всички наши лични съобщения и странни търсения с Google трябваше да бъдат изпратени на централен сървър за анализ и кой знае какви още данни можеше да се използва за.

За щастие, Google избра вместо това да използва техния федерален подход за обучение. Тъй като алгоритмичният модел е поставен на потребителски устройства, той е в състояние да се поучи от думите, които потребителите въвеждат, да обобщи ключовата информация и след това да я изпрати обратно на сървъра. След това тези обобщения се използват за подобряване на функцията за предсказуем текст на Google, която след това се тества и извежда на потребителите.

Новата версия на алгоритъма ще предложи подобрено изживяване благодарение на наученото от процеса и цикълът се повтаря. Това дава възможност на потребителите непрекъснато да подобряват предложенията за клавиатура, без да се налага да се нарушава тяхната поверителност.

Здравеопазване

Поверителността и сигурността на данните са изключително сложни в индустрията на здравеопазването. Много организации притежават значителни количества както чувствителни, така и ценни данни за пациентите, които също са търсени от хакерите.

Никой не иска смущаваща диагноза, излязла в обществеността. Богатството от данни, съдържащи се в тези хранилища, е изключително полезно за измами като кражба на самоличност и застрахователни измами. Поради големите количества данни и огромните рискове, пред които е изправена здравната индустрия, повечето държави са приложили строги закони за това как трябва да се управляват здравните данни, като правилата на САЩ относно HIPAA.

Тези закони са доста рестриктивни и имат значителни санкции, ако дадена организация ги наруши. По принцип това е добро за пациентите, които се притесняват от неправилно обработване на техните данни. въпреки това, тези видове законодателство също затрудняват използването на някои форми на данни в проучвания, които биха могли да помогнат за нови медицински пробиви.

Поради това сложно правно положение организации като Оукин и Intel провеждат проучвания как федералното обучение може да се използва за защита на личния живот на пациентите, като същевременно се използват данните за използване.

Оукин работи върху платформа, която използва федерално обучение за защита на данните на пациента в експерименти, които определят лекарствената токсичност, прогнозират развитието на заболяването и също така оценяват процента на преживяемост на редки видове рак.

През 2018 г. Intel си партнира с Центъра за биомедицински изображения и изчисления на Университета в Пенсилвания, за да демонстрира как федералното обучение може да се приложи към медицинските изображения като доказателство за концепция.

Сътрудничеството разкри, че при федерален подход на обучение техният конкретен модел на задълбочено обучение може да бъде обучен да бъде 99 процента по-точен като същия модел, обучен чрез традиционни методи.

Автономни превозни средства

Федералното обучение може да бъде полезно за самостоятелно шофиране на превозни средства по два основни начина. Първата е, че тя може да защити поверителността на данните на потребителите - много хора не харесват идеята техните пътни записи и друга информация за шофиране да се качват и анализират на централен сървър. Федералното обучение може да подобри поверителността на потребителите само чрез актуализиране на алгоритмите с обобщения на тези данни, а не цялата информация за потребителя.

Другата ключова причина за възприемане на федерален подход за обучение е, че той потенциално може да намали латентността. При евентуален бъдещ сценарий, при който има голям брой самоуправляващи се автомобили по нашите пътища, те ще трябва да могат бързо да реагират един на друг по време на инциденти с безопасността.

Традиционното облачно обучение включва голям трансфер на данни и по-бавен темп на обучение, така че има потенциал това федералното обучение може да позволи на автономните превозни средства да действат по-бързо и точно, като намалява злополуките и повишава безопасността.

Спазване на регулацията

Федералното обучение може също да помогне на организациите да подобрят своите алгоритмични модели, без да излагат данни за пациентите или да не се окажат на грешната страна на регулациите. Законите, като Общия европейски регламент за защита на данните (GDPR) и Законът за преносимост на здравното осигуряване на САЩ от 1996 г., имат строги разпоредби относно данните на хората и как могат да бъдат използвани.

Обикновено тези закони са в сила за защита на личния живот на хората, което означава, че федералното учене може потенциално да отвори нови възможности, като може да научете се от данните, като все още го пазите и в рамките на регулаторните насоки.

Сигурността и поверителността на федералното обучение

Федералното обучение отваря свят на нови възможности за модели на обучение за машинно обучение, без да се нарушава поверителността на данните. Въпреки това, той трябва да бъде приложен внимателно, за да смекчи проблемите със сигурността и възможността за излагане на потребителски данни.

Някои от основните проблеми, както и техните потенциални решения включват:

Прихващане на обобщения на потребителските данни

Осигуряването на адекватна поверителност и сигурност обикновено включва комбинация от различни технологии, както и политика. Въпреки че федералното обучение ни дава нови начини за защита на данните, то все още трябва да се прилага заедно с допълнителни механизми.

Един пример за потенциална слаба точка е, че когато обобщените данни на потребителите се изпращат от устройството до централния сървър, те могат да бъдат прихващани от хакери, които биха могли да ги използват, за да разберат оригиналните данни.

За щастие, този проблем има сравнително лесно решение, което вече прилагаме в много области на информационната сигурност - просто трябва да криптираме данните с подходящ алгоритъм, докато преминават между двете точки.

Измисляне на оригиналните данни от потребителските обобщения

В определени сценарии резюметата на потребителските данни могат да се използват за определяне на оригиналната информация. Ако злонамерена страна изпраща заявки към модела чрез API, възможно е да реконструирате данните, въпреки че това не е уникален проблем за федералното обучение.

Ако нападателите или организациите, които притежават сървърите, могат да разберат оригиналните потребителски данни по този начин, това би било напълно победи целта за прилагане на федерално обучение. Има два ключови механизма, които могат да бъдат разгърнати заедно с федералното обучение, за да се предотврати това да се случи: Протоколът за сигурна агрегация на Google и диференциалната поверителност.

Най- Защитен протокол за агрегиране използва многостранни изчисления, за да изчисли средната стойност на група обобщения на потребителските данни, без да разкрива обобщените данни на всеки отделен индивид на сървъра или на която и да е друга страна.

Съгласно тази система всеки от обобщенията на потребителя се криптира преди да напусне устройството на потребителя и те не могат да бъдат дешифрирани от сървъра, докато не бъдат добавени заедно и осреднени с определен брой други потребителски обобщения. Това позволява на сървъра да обучава своя модел средно за потребителя, без да излага отделни обобщения, които биха могли да бъдат използвани за разкриване на лични данни на даден човек.

Защитената агрегация не само не позволява на сървъра да получи достъп до обобщенията на потребителите, но и прави човек-в-средата атаки много по-трудно.

Другият вариант е диференциална поверителност, която включва различни свързани техники, които включват специфично количество шум, добавян към данните. Основната предпоставка за различна поверителност е, че за да останат лични данни на потребителя, заявките към базата данни не трябва да разкриват дали дадено лице е включено в данните, нито каква е тяхната информация.

За да се предотврати разкриването на тази информация на заявките, могат да се използват няколко различни опции за добавяне на шум към данните. Този шум от данни се добавя, преди да напусне устройството на потребителя, като не позволява на сървъра и атакуващите да имат достъп до актуализациите в оригиналния им вид.

Модел отравяне

Федералното обучение отваря възможност за противниците да „отровят” алгоритмичния модел. По същество това означава, че това злонамерен актьор може да поквари модела чрез собствено устройство или чрез приемане на устройствата на други страни, участващи в обучението на алгоритмичния модел.

Тези атаки са проучени подробно от Bagdasaryan et al. в техните Как да подкрепяме федералното обучение хартия. При федерален модел на обучение нападателят има потенциал да поеме един или повече участници.

При определени сценарии, е възможно те да контролират данните на всеки участник, който са поели, да променя начина, по който тези данни се обучават на местно ниво, да променя хиперпараметрите като скоростта на учене и тежестта на отделния модел (преди да бъдат изпратени на сървъра за обобщаване). Възможно е също така да се промени подходът на всеки участник към местното обучение от един кръг в друг.

С тези способности нападателите могат да инжектират на заден план, които могат да променят алгоритмите към техните собствени цели. Според данни от изследването, отравянето на модела е било далеч по-ефективно от други атаки за отравяне с данни.

В задача за предсказване на думи, включваща 80 000 участници, изследователите биха могли да постигнат 50-процентова точност на задната врата, като компрометират само осем от участниците. За да постигнат същия ефект чрез отравяне на данните, изследователите би трябвало да компрометират 400 участници.

Един от най-големите проблеми идва от факта, че федералното обучение и протоколът за сигурна агрегация имат за цел да запазят личните данни на потребителите. Когато се прилага правилно, това прави невъзможно сървърът да открие аномалии в обобщенията на отделния потребител.

Както споменахме по-горе, протоколът за сигурна агрегация позволява достъп до обобщения на потребителите само след като са добавени заедно с други потребителски данни. Тъй като резюметата не могат да бъдат преглеждани поотделно, това прави невъзможно да се видят аномалии, които може да се крият вътре в тях, което дава атаки за отравяне на модела перфектен начин да се промъкнете.

На този етап тези атаки и техните възможни защити трябва да бъдат проучени по-задълбочено.

Запазване на модела частен

Сложните алгоритмични модели могат да струват милиони, което ги прави цел за крадци. Те могат да ги използват, за да печелят пари по същия начин, по който правят компаниите, които стоят зад алгоритмите, или дори да ги използват за незаконни цели. Това не само би спестило на крадците да инвестират огромните средства за изграждането на модела, но и биха могли да обезценят оригиналния.

Компаниите трябва да защитават интелектуалната си собственост и изглежда, че изпращат модела директно на устройствата на потребителите може лесно да доведе до излагане на тези модели на всеки, който иска да ги вземе. Има обаче решения, които компаниите могат да използват за защита на своите алгоритмични модели.

Едно от тях е да да се използва тайното споделяне на многостранни изчисления. Това позволява на организациите да прикриват теглото на модела, като разпределят фрагменти от него на устройства. При тази система никоя от тайнодържащите партии не може да знае целия модел.

Това позволява на организациите да избутват своите алгоритмични модели на обучение до устройства, без да се притеснявате от откраднатите им интелектуална собственост.

Ограничения на федералното обучение

В допълнение към потенциалните проблеми със сигурността, федералното обучение има редица други ограничения, които не му позволяват да бъде вълшебно хапче за решаване на всички наши проблеми с поверителността на данните..

Едно от съображенията е, че в сравнение с традиционните методи за машинно обучение, федералното обучение изисква значително повече мощност и памет на локалното устройство, за да се обучава моделът. Въпреки това много нови устройства имат достатъчно мощност за тези функции и този подход също води до прехвърляне на много по-малък обем данни към централните сървъри, намалявайки използването на данни. Много потребители могат да намерят това компромис за полезно, стига устройството им да е достатъчно мощно.

Друг технически проблем включва честотна лента. Федералното обучение се провежда през wifi или 4G, докато традиционното машинно обучение се осъществява в центровете за данни. Скоростта на честотната лента на wifi или 4G е по-ниска от тази, използвана между работещите възли и сървърите в тези центрове.

Пропускателната способност към устройствата не се е увеличила толкова бързо, колкото тяхната изчислителна мощност през годините, така че недостатъчната честотна лента може потенциално да причини затруднение, което увеличава латентността и прави процеса на обучение по-бавен в сравнение с традиционния подход.

Ако се провежда обучение по алгоритми, докато се използва устройство, това намалява производителността на устройството. Google се справи с този проблем само от устройства за обучение, когато те работят на празен ход, включени и включени в контакт. Докато това решава проблема, то забавя цикъла на обучение, защото обучението може да се извършва само в извън пикови моменти.

Друго предизвикателство е, че устройствата отпадат по време на тренировъчния процес - те могат да бъдат използвани от собствениците им, изключени или да претърпят някакво друго прекъсване. Данните за устройства, които отпадат, може да не могат да бъдат използвани правилно, което може да доведе до не толкова точен алгоритмичен модел.

Федералното обучение е новият път за машинно обучение?

Федералното обучение е сравнително нов модел на обучение и показва потенциал в редица различни приложения. Защото все още е в сравнително ранните етапи на обучение, процесът се нуждае от много повече изследвания, преди всички негови възможни приложения да бъдат определени, както и потенциалните рискове за сигурността и поверителността, пред които е изправена.

Дотогава е трудно да се каже със сигурност колко широко ще бъде приложен подходът в бъдеще. Добрата новина е, че вече видяхме, че се използва ефективно в реалния свят с Gboard на Google.

Въпреки това, поради някои от обсъжданите по-рано ограничения, е малко вероятно федералното обучение да замени традиционните модели на обучение във всички сценарии. Бъдещето ще зависи и от това доколко са ангажирани в личния живот нашите големи технологични компании. На този етап имаме основателна причина да бъдем скептични.

Вижте също: Статистика за нарушения на данните за 2019 г.

Brayan Jackson
Brayan Jackson Administrator
Sorry! The Author has not filled his profile.
follow me

About the author

Leave a Reply

Your email address will not be published. Required fields are marked *

68 − = 64

Adblock
detector