За конфиденциальность данных приходится платить. Существуют методы безопасности, которые защищают конфиденциальные пользовательские данные, такие как адреса клиентов, от злоумышленников, которые могут попытаться извлечь их из моделей искусственного интеллекта, но они часто делают эти модели менее точными.
Исследователи Массачусетского технологического института недавно разработали фреймворк, основанный на новом показателе конфиденциальности под названием PAC Privacy, который мог бы поддерживать производительность модели искусственного интеллекта, обеспечивая при этом сохранность конфиденциальных данных, таких как медицинские изображения или финансовые записи, от злоумышленников. Теперь они продвинулись в этой работе на шаг вперед, сделав свою технику более эффективной с точки зрения вычислений, улучшив соотношение между точностью и конфиденциальностью и создав формальный шаблон, который можно использовать для приватизации практически любого алгоритма, не требуя доступа к внутренней работе этого алгоритма.
Команда использовала свою новую версию PAC Privacy для приватизации нескольких классических алгоритмов для анализа данных и задач машинного обучения.
Они также продемонстрировали, что более "стабильные" алгоритмы легче приватизировать с помощью их метода. Предсказания стабильного алгоритма остаются неизменными даже при незначительном изменении его обучающих данных. Большая стабильность помогает алгоритму делать более точные прогнозы на основе ранее невидимых данных.
Исследователи говорят, что повышенная эффективность новой платформы конфиденциальности PAC и четырехэтапный шаблон, которому можно следовать для ее реализации, упростили бы внедрение этой технологии в реальных ситуациях.
"Мы склонны рассматривать надежность и конфиденциальность как не связанные или, возможно, даже противоречащие построению высокопроизводительного алгоритма. Сначала мы создаем работающий алгоритм, затем делаем его надежным, а затем приватным. Мы показали, что это не всегда правильное обрамление. Если вы улучшите работу своего алгоритма в различных настройках, вы, по сути, сможете получить конфиденциальность бесплатно", - говорит Маюри Шридхар, аспирант Массачусетского технологического института и ведущий автор статьи об этой системе конфиденциальности.
К ней присоединились Хансен Сяо, доктор философии, 24 года, которая осенью начнет работать в качестве доцента в Университете Пердью; и старший автор Срини Девадас, профессор электротехники Эдвина Сибли Вебстера. Исследование будет представлено на симпозиуме IEEE по безопасности и конфиденциальности.
Оценка шума
Чтобы защитить конфиденциальные данные, которые использовались для обучения модели искусственного интеллекта, инженеры часто добавляют в модель шум или общую случайность, чтобы противнику было сложнее угадать исходные обучающие данные. Этот шум снижает точность модели, поэтому чем меньше шума можно добавить, тем лучше.
PAC Privacy автоматически оценивает наименьшее количество шума, которое необходимо добавить в алгоритм для достижения желаемого уровня конфиденциальности.
Оригинальный алгоритм конфиденциальности PAC многократно запускает пользовательскую модель искусственного интеллекта на разных выборках набора данных. Он измеряет дисперсию, а также корреляции между этими многочисленными выходными данными и использует эту информацию для оценки того, сколько шума необходимо добавить для защиты данных.
Этот новый вариант PAC Privacy работает таким же образом, но ему не нужно представлять всю матрицу корреляций данных между выходными данными; ему нужны только отклонения выходных данных.
"Поскольку то, что вы оцениваете, намного, намного меньше, чем вся ковариационная матрица, вы можете сделать это намного, намного быстрее", - объясняет Шридхар. Это означает, что можно масштабировать до гораздо больших наборов данных.
Добавление шума может снизить полезность результатов, и важно свести к минимуму потери полезности. Из-за вычислительных затрат оригинальный алгоритм конфиденциальности PAC был ограничен добавлением изотропного шума, который добавляется равномерно во всех направлениях. Поскольку новый вариант оценивает анизотропный шум, который адаптирован к конкретным характеристикам обучающих данных, пользователь может добавлять меньше общего шума для достижения того же уровня конфиденциальности, повышая точность приватизированного алгоритма.
Конфиденциальность и стабильность
Изучая конфиденциальность PAC, Шридхар предположила, что с помощью этого метода было бы легче приватизировать более стабильные алгоритмы. Она использовала более эффективный вариант PAC Privacy, чтобы проверить эту теорию на нескольких классических алгоритмах.
Алгоритмы, которые являются более стабильными, имеют меньшую дисперсию в своих выходных данных, когда их обучающие данные незначительно изменяются. PAC Privacy разбивает набор данных на фрагменты, запускает алгоритм для каждого фрагмента данных и измеряет разницу между выходными данными. Чем больше дисперсия, тем больше шума необходимо добавить, чтобы приватизировать алгоритм.
Использование методов стабильности для уменьшения дисперсии выходных данных алгоритма также уменьшило бы количество шума, которое необходимо добавить, чтобы приватизировать его, объясняет она.
"В лучшем случае мы можем получить эти беспроигрышные сценарии", - говорит она.
Команда показала, что эти гарантии конфиденциальности оставались надежными, несмотря на протестированный ими алгоритм, и что новый вариант PAC Privacy потребовал на порядок меньше испытаний для оценки уровня шума. Они также протестировали этот метод при моделировании атак, продемонстрировав, что его гарантии конфиденциальности могут противостоять самым современным атакам.
"Мы хотим изучить, как можно было бы совместно разрабатывать алгоритмы с PAC Privacy, чтобы алгоритм был более стабильным, безопасным и надежными с самого начала", - говорит Девадас. Исследователи также хотят протестировать свой метод с помощью более сложных алгоритмов и продолжить изучение компромисса между конфиденциальностью и полезностью.
"Теперь вопрос в том, когда случаются эти беспроигрышные ситуации и как мы можем сделать так, чтобы они случались чаще?" - говорит Шридхар.
Комментарии