Если вы не стремитесь идти в ногу с новейшими достижениями в области искусственного интеллекта, возможно, вы никогда раньше не слышали термин «федеративное обучение». Хотя это может быть не так заметно, как другие технические тенденции, такие как 3D-печать или дроны, его последствия для конфиденциальности и машинного обучения могут привести к гораздо большему использованию в ближайшие годы.
Короткая и простая версия заключается в том, что федеративное обучение является альтернативной моделью для улучшения алгоритмов, которые сейчас доминируют во многих аспектах нашей жизни, будь то лента новостей Facebook или Google Maps. В более традиционной системе наши данные отправляются на центральный сервер, где они анализируются, и соответствующая информация используется для изменения алгоритма..
Федеративное обучение предлагает решение, которое повышает конфиденциальность пользователей, потому что большая часть личных данных остается на устройстве человека. Алгоритмы обучаются непосредственно на пользовательских устройствах и только отправляют обратно релевантные сводки данных, а не данные в целом. Это позволяет компаниям улучшать свои алгоритмы без необходимости собирать все данные пользователя, предоставляя более сфокусированное на конфиденциальности решение..
Что такое федеративное обучение?
Давайте не будем лгать, для большинства людей глубина федеративного обучения может показаться сложной и трудной для понимания. Область ИИ находится далеко за пределами знаний многих людей и включает в себя гораздо больше математики и логики, чем большинству из нас удобно.
Несмотря на эти трудности, федеративное обучение является интересной и важной технологической разработкой, поэтому стоит попытаться обдумать это. Чтобы упростить задачу, мы разберем понятия и объясним их в упрощенной форме, чтобы вы могли понять общую картину.
Машинное обучение и алгоритмы
Если вы не проводите свои дни за косплеем 1930-х годов, ваша жизнь наполнена алгоритмами. В этом контексте, когда мы ссылаемся на алгоритмы, мы по существу имеем в виду формулы или наборы инструкций, которые используются, чтобы выяснить проблему или вычислить желаемый результат.
Facebook, Instagram и Twitter используют их для доставки персонализированного контента, который, скорее всего, вас заинтересует, а также для увеличения платформ. Поисковая система Google использует сложные алгоритмы, чтобы превратить ваши поисковые термины в страницы того, что, по вашему мнению, вы ищете. Ваша электронная почта отфильтровывает спам с помощью алгоритмов, а Waze использует алгоритмы, чтобы найти наиболее эффективный способ добраться из точки А в точку Б.
Есть бесчисленное множество других алгоритмов, которые помогают нам выполнять задачи, держать нас занятыми или скрываться под капотом повседневных процессов.
Компании постоянно пытаясь улучшить эти алгоритмы, чтобы дать вам наиболее эффективные, точные и действенные результаты, до тех пор, пока это соответствует собственным целям компании – как правило, зарабатывать деньги.
Многие из наших наиболее используемых алгоритмов прошли долгий путь с момента их первоначального развертывания. Вспомните поиск в Google в конце девяностых или в начале 2000-х – вы должны были быть невероятно точными, а результаты были ужасными по сравнению с сегодняшним днем.
Так как же улучшить эти алгоритмы?
Большая часть того, как алгоритмы становятся лучше в своих задачах, включает машинное обучение, которое является областью искусственного интеллекта. Алгоритмы машинного обучения начинаются с выборки данных, их анализа, а затем используя то, что они узнали, для более эффективного выполнения задач. Они могут улучшаться без необходимости запрограммировать эти изменения со стороны внешних сил, таких как разработчик-человек.
В последние несколько десятилетий машинное обучение активно развивается, совершенствуя наши алгоритмы, помогая нам добиваться лучших результатов и переходя в новые области. Из-за его полезности, он также был огромный источник денег для компаний как Facebook, Google и многие другие.
Все начинается с данных – чем больше пул данных и тем больше точек данных высокого качества, более точные алгоритмы машинного обучения могут быть. Чем эффективнее алгоритм, тем больше денег он может заработать, что по сути превратило данные в товар.
Эти условия привели к значительному увеличению объема данных, собираемых о людях. По большей части эти данные собираются с телефонов, компьютеров и других областей пользователей, а затем отправляются на сервер, где они анализируются для улучшения алгоритма. Хотя это имеет часто приводили к улучшению обслуживания и повышению удобства, также были значительные отклики от тех, кто беспокоится о своей конфиденциальности.
Есть что-то зловещее в том, что эти компании всегда знают ваше местоположение, знают, с кем вы дружите, знают всю историю поиска и многое, многое другое. Конечно, есть способы избежать сбора данных такого типа, но методы, как правило, слишком непрактичны для большинства людей..
На фоне серии скандалов с конфиденциальностью данных, таких как фиаско Cambridge Analytica в Facebook и массовое нарушение данных Google, компании начали замечать. Не желая быть узурпированными, они, похоже, ищут пути для продолжения продвижения своих целей, не вызывая гнева своих пользователей или законодателей. Возможно, переломный момент наступил, когда Марк Цукерберг объявил, что «будущее – личное» на конференции F8 этого года..
Хотя, вероятно, лучше всего смотреть на это движение со скептицизмом, произошли некоторые позитивные изменения в отношении конфиденциальности пользователей, одним из которых является федеративное обучение.
Федеративное обучение
Вместо того, чтобы передавать данные с пользовательских устройств на наш сервер, почему бы нам не отправить алгоритм данным?
Это основная концепция федеративного обучения. Термин был придуман в газете 2016 года, опубликованной сотрудниками Google, и компания остается в авангарде.
Федеративный учебный процесс обучения.
Федеративное обучение улучшает алгоритмы, отправляя текущую версию алгоритма на подходящие устройства. Затем эта модель алгоритма учится на основе личных данных телефонов выбранной группы пользователей.. Когда он заканчивается, сводка новых знаний отправляется обратно на сервер компании – сами данные никогда не покидают телефон.
В целях безопасности эти знания обычно зашифровываются на обратном пути к серверу. Чтобы сервер не мог определить отдельные данные на основе полученной сводки, Google разработал Безопасная агрегация протокол.
Этот протокол использует криптографию для предотвращения доступа сервера к отдельным информационным сводкам. По этой схеме сервер может получить доступ к сводке только после того, как она была добавлена и усреднена с результатами сотен или тысяч других пользователей..
альтернативно, дифференциальная конфиденциальность может использоваться для добавления случайного шума данных к резюме человека, скрывая результаты. Эти случайные данные добавляются до того, как сводка отправляется на сервер, что дает серверу результат, достаточно точный для алгоритмического обучения, без предоставления ему фактических сводных данных. Это сохраняет личную жизнь.
Такие методы, как протокол Secure Aggregation и дифференциальная конфиденциальность, имеют решающее значение для защиты информации пользователя как от организации, так и от хакеров.. Без них федеративное обучение не сможет обеспечить конфиденциальность пользователей..
После того как информационные сводки благополучно отправлены на сервер, они используются для обновления алгоритма.. Процесс повторяется тысячи раз, и тестовые версии алгоритма также рассылаются различным пользовательским устройствам. Это позволяет организациям оценивать новые версии алгоритмов на реальных пользовательских данных. Поскольку анализ выполняется в пределах пользовательских устройств, алгоритмы могут быть опробованы без необходимости объединения пользовательских данных на центральном сервере..
Когда тесты завершены, обновленная модель алгоритма отправляется на пользовательские устройства для замены старого. Расширенный алгоритм затем используется в его обычных задачах. Если все идет по плану, это будет более эффективным и точным в достижении своих результатов.
Затем весь цикл повторяется снова и снова:
- Новый алгоритм изучает данные на выбранных пользовательских устройствах.
- Он безопасно отправляет сводки этих пользовательских данных на сервер.
- Эти данные затем усредняются с результатами других пользователей.
- Алгоритм учится на этой информации, производит обновления и тестирует их.
- Более продвинутая версия алгоритма выдвигается пользователям.
Со временем алгоритм извлекает уроки из пользовательских данных и постоянно совершенствуется без необходимости хранить данные на серверах компании. Если вы все еще не можете понять, что такое федеративное обучение и как оно работает, Google опубликовал этот мультфильм, в котором объясняется и помогает вам наглядно представить подход федеративного обучения..
Другие преимущества федеративного обучения
Модель федеративного обучения предлагает пользователям ряд других преимуществ помимо конфиденциальности. Вместо постоянного обмена данными с сервером, процесс обучения может проводиться, когда устройство заряжается, подключено к Wi-Fi и не используется, сведение к минимуму неудобств, с которыми сталкиваются пользователи.
Это означает, что пользователи не тратят свои драгоценные данные или батарею, когда они отсутствуют. Поскольку федеративное обучение передает только сводку соответствующих данных, а не сами данные, процесс в итоге передает меньше данных в целом, чем в традиционных моделях обучения..
Федеративное обучение может также предоставлять как глобальные, так и персонализированные алгоритмические модели.. Он может собрать идеи от более широкой группы пользователей и объединить их с информацией от отдельного пользователя, чтобы создать более эффективную модель, соответствующую их уникальным потребностям..
Приложения федеративного обучения
Федеративное обучение имеет множество потенциальных вариантов использования, особенно в ситуациях, когда вопросы конфиденциальности пересекаются с необходимостью улучшения алгоритмов. На данный момент наиболее выдающиеся федеральные учебные проекты были реализованы на смартфонах, но те же методы можно применять к компьютерам и устройствам IoT, таким как автономные транспортные средства..
Некоторые из существующих и потенциальных применений включают в себя:
Google Gboard
Первое крупномасштабное внедрение федеративного обучения в реальном мире было частью Клавиатурное приложение Google, Gboard. Компания стремилась использовать эту технику, чтобы улучшить предложения слов без ущерба для конфиденциальности пользователей..
При старом подходе машинного обучения разработка более совершенных предсказаний клавиатуры была бы чрезвычайно инвазивной – все, что мы печатали, все наши личные сообщения и странные поиски в Google должны были быть отправлены на центральный сервер для анализа, и кто знает, что еще за данные мог быть использован для.
К счастью, Google решил использовать их федеративный подход к обучению. Поскольку алгоритмическая модель размещается на пользовательских устройствах, она может учиться на словах, которые вводят пользователи, обобщать ключевую информацию и затем отправлять ее обратно на сервер.. Эти сводные данные затем используются для улучшения функции предиктивного ввода текста Google, которая затем тестируется и отправляется пользователям..
Новая версия алгоритма предложит улучшенный опыт благодаря тому, что он извлек из процесса, и цикл повторяется. Это позволяет пользователям постоянно улучшать предложения клавиатуры, не подвергая риску их конфиденциальность.
Здравоохранение
Конфиденциальность и безопасность данных невероятно сложны в индустрии здравоохранения. Во многих организациях хранятся значительные объемы как конфиденциальных, так и ценных данных о пациентах, которые также остро востребованы хакерами.
Никто не хочет смущающего диагноза, просочившегося до публики. Огромное количество данных, содержащихся в этих репозиториях, чрезвычайно полезно для таких мошенников, как кража личных данных и мошенничество при страховании. Из-за большого количества данных и огромных рисков, с которыми сталкивается индустрия здравоохранения, большинство стран ввели строгие законы о том, как следует управлять данными о здоровье, такие как правила США HIPAA.
Эти законы довольно строгие и предусматривают значительные штрафы, если организация их нарушает. Как правило, это хорошо для пациентов, которые обеспокоены неправильным обращением с их данными. тем не мение, эти типы законодательства также затрудняют использование некоторых форм данных в исследованиях, которые могут помочь с новыми медицинскими открытиями.
Из-за этой сложной правовой ситуации такие организации, как Owkin и Intel, проводят исследования как федеративное обучение может быть использовано для защиты конфиденциальности пациентов и одновременного использования данных.
Оукин работает на платформе, которая использует федеративное обучение для защиты данных пациентов в экспериментах, которые определяют токсичность лекарств, предсказывают развитие болезни, а также оценивают выживаемость для редких видов рака.
В [year] году Intel установила партнерские отношения с Центром биомедицинских вычислений и аналитики изображений в Пенсильванском университете, чтобы продемонстрировать, как федеративное обучение может быть применено к медицинской визуализации в качестве доказательства концепции..
Сотрудничество показало, что в рамках федеративного подхода к обучению их конкретная модель глубокого обучения может быть подготовлена к Точность 99% по сравнению с той же моделью, обученной традиционными методами.
Автономные транспортные средства
Федеративное обучение может быть полезным для транспортных средств с самостоятельным вождением двумя основными способами. Во-первых, это может защитить конфиденциальность пользовательских данных – многим не нравится идея, что их записи поездок и другая информация о вождении загружаются и анализируются на центральном сервере.. Федеративное обучение может повысить конфиденциальность пользователей, только обновляя алгоритмы с обобщением этих данных, а не вся информация пользователя.
Другая ключевая причина принятия федеративного подхода к обучению заключается в том, что он потенциально может снизить задержку. В вероятном будущем сценарии, когда на наших дорогах будет большое количество автомобилей с автоматическим управлением, они должны быть в состоянии быстро реагировать друг на друга во время происшествий, связанных с безопасностью..
Традиционное облачное обучение включает в себя передачу больших объемов данных и более медленный темп обучения, поэтому существует вероятность того, что федеративное обучение может позволить автономным транспортным средствам действовать быстрее и точнее, уменьшая количество аварий и повышая безопасность.
Соблюдение правил
Федеративное обучение может также помочь организациям улучшить свои алгоритмические модели, не подвергая данные пациента и не попадая в неправильную сторону норм. Законы, такие как Европейское общее положение о защите данных (GDPR) и Закон о переносимости медицинского страхования США от 1996 года, содержат строгие правила в отношении данных отдельных лиц и способов их использования..
Эти законы обычно применяются для защиты частной жизни отдельных лиц, что означает, что федеративное обучение потенциально может открыть новые возможности, если учиться на данных, сохраняя при этом безопасность и в рамках нормативных руководящих принципов.
Безопасность и конфиденциальность федеративного обучения
Федеративное обучение открывает мир новых возможностей для обучения моделям машинного обучения без ущерба для конфиденциальности данных. Тем не менее, это должно быть реализовано тщательно, чтобы смягчить проблемы безопасности и возможность раскрытия пользовательских данных.
Некоторые из основных проблем, а также их возможные решения, включают в себя:
Перехват сводок пользовательских данных
Обеспечение надлежащей конфиденциальности и безопасности обычно включает в себя сочетание различных технологий, а также политики. В то время как федеративное обучение дает нам новые способы защиты данных, его все же необходимо реализовать наряду с дополнительными механизмами..
Одним из примеров потенциального слабого места является то, что когда сводки данных пользователей отправляются с устройства на центральный сервер, они могут быть перехвачены хакерами, которые могут использовать их для выяснения исходных данных..
К счастью, эта проблема имеет относительно простое решение, которое мы уже внедрили во многих областях информационной безопасности – нам просто нужно зашифровать данные с помощью соответствующего алгоритма, когда он перемещается между двумя точками.
Выяснение исходных данных из резюме пользователя
В определенных сценариях сводки пользовательских данных могут использоваться для определения исходной информации. Если злоумышленник отправляет запросы к модели через API, может оказаться возможным восстановить данные, хотя это не является единственной проблемой для федеративного обучения..
Если злоумышленники или организации, владеющие серверами, смогут таким образом определить исходные пользовательские данные, это полностью победить цель реализации федеративного обучения. Существует два ключевых механизма, которые могут быть развернуты вместе с федеративным обучением, чтобы предотвратить это: протокол безопасной агрегации Google и дифференциальная конфиденциальность.
Протокол безопасной агрегации использует многопартийные вычисления для вычисления среднего значения для группы сводок пользовательских данных, не раскрывая сводки данных какого-либо отдельного лица на сервере или любой другой стороне.
В этой системе каждая из пользовательских сводок шифруется перед тем, как покинуть пользовательское устройство, и они не могут быть расшифрованы сервером до тех пор, пока они не будут добавлены вместе и усреднены с заданным числом других пользовательских сводок. Это позволяет серверу обучать свою модель в среднем по пользователю, не раскрывая отдельных сводок, которые могут быть использованы для раскрытия личных данных отдельных лиц..
Secure Aggregation не только предотвращает доступ сервера к пользовательским сводкам, но также человек посередине атаки гораздо сложнее.
Другой вариант дифференциальная конфиденциальность, который включает в себя множество связанных методов, которые включают в себя определенное количество шума, добавляемого к данным. Основная предпосылка дифференциальной конфиденциальности состоит в том, что для того, чтобы данные пользователя оставались конфиденциальными, запросы к базе данных не должны показывать, был ли человек включен в данные, или какова их информация..
Чтобы запретить запросам раскрывать эту информацию, можно использовать несколько различных опций для добавления шума в данные. Этот шум данных добавляется до того, как он покидает пользовательское устройство, не давая серверу и злоумышленникам доступа к обновлениям в их первоначальном виде..
Модель отравления
Федеративное обучение открывает противникам возможность «отравить» алгоритмическую модель. По сути, это означает, что злой актер может испортить модель через свое собственное устройство или путем захвата устройств других сторон, участвующих в обучении алгоритмической модели.
Эти атаки были подробно исследованы Багдасаряном и соавт. в их Как заделать федеративное обучение бумага. Согласно федеративной модели обучения, злоумышленник может захватить одного или нескольких участников..
В определенных сценариях, они могут контролировать данные каждого участника, которого они приняли, изменить то, как эти данные обучаются локально, изменить гиперпараметры, такие как скорость обучения и вес отдельной модели (до того, как они будут переданы на сервер для агрегации). Также возможно изменить подход каждого участника к местному обучению с одного раунда на другой.
С этими способностями злоумышленники могут внедрить бэкдоры, которые могут модифицировать алгоритмы в соответствии с их собственными целями. Согласно данным исследования, отравление модели было гораздо более эффективным, чем другие атаки по отравлению данных..
В задаче прогнозирования слов, в которой участвуют 80 000 участников, исследователи могут достичь 50-процентной точности бэкдора, скомпрометировав только восемь участников. Чтобы добиться того же эффекта путем отравления данных, исследователям пришлось бы скомпрометировать 400 участников..
Одна из самых больших проблем связана с тем фактом, что федеративное обучение и протокол Secure Aggregation направлены на обеспечение конфиденциальности пользовательских данных.. При правильной реализации это делает невозможным для сервера обнаружение аномалий в сводках отдельных пользователей..
Как мы упоминали выше, протокол Secure Aggregation разрешает доступ к сводкам пользователей только после их добавления вместе с другими пользовательскими данными. Поскольку сводки не могут быть просмотрены по отдельности, это делает невозможным обнаружение аномалий, которые могут находиться внутри них, давая модельным атакам отравления идеальный способ проникнуть в.
На данном этапе эти атаки и их возможные средства защиты должны быть исследованы более тщательно..
Сохранение модели частной
Сложные алгоритмические модели могут стоить миллионы, что делает их мишенью для воров. Они могут использовать их, чтобы зарабатывать деньги так же, как это делают компании, стоящие за алгоритмами, или даже использовать их в незаконных целях. Это не только спасет воров от инвестирования огромных средств в построение модели, но также может обесценить оригинал.
Компании должны защищать свою интеллектуальную собственность, и похоже, что отправка модели напрямую на устройства пользователей может легко привести к тому, что эти модели будут выставлены любому желающему. Однако есть решения, которые компании могут использовать для защиты своих алгоритмических моделей..
Одним из них является использовать секретный обмен многопартийных вычислений. Это позволяет организациям скрывать взвешивание модели, распределяя ее фрагменты по устройствам. В рамках этой системы ни одна из секретных сторон не может знать всю модель.
Это позволяет организациям передавать свои алгоритмические модели обучения на устройства, не беспокоясь о краже их интеллектуальной собственности..
Ограничения федеративного обучения
В дополнение к потенциальным проблемам безопасности федеративное обучение имеет ряд других ограничений, которые не позволяют ему стать волшебной пилюлей для решения всех наших проблем с конфиденциальностью данных..
Одним из соображений является то, что по сравнению с традиционными методами машинного обучения, федеративное обучение требует значительно большей мощности локального устройства и памяти для обучения модели. Тем не менее, многие новые устройства обладают достаточной мощностью для этих функций, и этот подход также приводит к гораздо меньшему объему данных, передаваемых на центральные серверы, что снижает использование данных. Многие пользователи могут найти этот компромисс полезным, если их устройство достаточно мощное.
Другая техническая проблема связана с пропускной способностью. Федеративное обучение проводится через Wi-Fi или 4G, в то время как традиционное машинное обучение происходит в центрах обработки данных. Пропускная способность Wi-Fi или 4G на порядок ниже, чем между рабочими узлами и серверами в этих центрах..
Пропускная способность для устройств не росла так быстро, как их вычислительная мощность в течение многих лет, поэтому недостаточная пропускная способность потенциально может стать причиной узкого места, которое увеличивает задержку и замедляет процесс обучения по сравнению с традиционным подходом.
Если обучение алгоритму проводится во время использования устройства, это снижает производительность устройства. Google справился с этой проблемой, только обучая устройства, когда они работают на холостом ходу, включены и подключены к розетке. Хотя это решает проблему, оно замедляет цикл обучения, потому что обучение может быть сделано только в непиковое время.
Еще одной проблемой является то, что устройства выпадают во время процесса обучения – они могут быть использованы их владельцами, выключены или подвергнуты некоторой другой неисправности. Данные выпадающих устройств могут быть не в состоянии использоваться должным образом, что может привести к менее точной алгоритмической модели.
Является ли федеративное обучение новым способом машинного обучения??
Федеративное обучение – это относительно новая модель обучения, которая демонстрирует потенциал в различных областях. Потому что это все еще на относительно ранних этапах обучения, процесс требует гораздо больше исследований, прежде чем все его возможные применения могут быть определены, а также потенциальные риски безопасности и конфиденциальности, с которыми он сталкивается.
До этого трудно с уверенностью сказать, насколько широко этот подход будет реализован в будущем. Хорошей новостью является то, что мы уже видели, как она эффективно развернута в реальном мире с Google Gboard.
Однако из-за некоторых ранее обсуждавшихся ограничений федеративное обучение вряд ли заменит традиционные модели обучения во всех сценариях. Будущее также будет зависеть от того, насколько привержены частной жизни наши крупные технологические компании. На данном этапе у нас есть веские основания для скептицизма..
Смотрите также: [year] статистика утечки данных
льшая часть улучшений алгоритмов происходит через машинное обучение. Это процесс, при котором компьютеры используют данные для обучения и улучшения своих алгоритмов. Например, если компания хочет улучшить свой алгоритм рекомендаций для пользователей, она может использовать данные о том, какие товары покупают пользователи, чтобы обучить свой алгоритм предлагать более релевантные товары. Однако, как мы уже упоминали, сбор и использование личных данных пользователей может вызывать проблемы с конфиденциальностью. Федеративное обучение предлагает решение этой проблемы.
Федеративное обучение – это альтернативная модель машинного обучения, которая позволяет обучать алгоритмы, не собирая все данные на центральном сервере. Вместо этого данные остаются на устройствах пользователей, и алгоритмы обучаются непосредственно на этих устройствах. Только релевантные сводки данных отправляются на центральный сервер для улучшения алгоритма. Это позволяет компаниям улучшать свои алгоритмы, не нарушая конфиденциальность пользователей.
Федеративное обучение уже используется в различных областях, таких как здравоохранение, автономные транспортные средства и даже в Google Gboard. Однако, как и любая технология, у федеративного обучения есть свои ограничения и проблемы безопасности. Например, возможен перехват сводок пользовательских данных или модель отравления.
В целом, федеративное обучение – это важная технологическая разработка, которая может помочь компаниям улучшить свои алгоритмы, не нарушая конфиденциальность пользователей. Однако, как и с любой технологией, необходимо учитывать проблемы безопасности и ограничения.