На семинаре в НЦЦЭ МГУ обсудили деперсонификацию данных

11 декабря в Национальном центре цифровой экономики МГУ (НЦЦЭ МГУ) состоялся семинар по теме «Деперсонификация (анонимизация) больших данных». Мероприятие было организовано Центром компетенций НТИ по большим данным (структурным подразделением НЦЦЭ МГУ) совместно с Техническим комитетом (ТК) по стандартизации 164 «Искусственный интеллект».

ТК 164 создан по инициативе РВК как зеркальное отражение на национальном уровне профильного международного подкомитета ISO/IEC JTC 1 SC 42 Artificial Intelligence, в рамках которого, в частности, действует рабочая группа (РГ) «Большие данные». В российском ТК 164 функции секретариата РГ 02 «Большие данные» выполняются Московским университетом, а именно – Центром компетенций НТИ по хранению и анализу больших данных.

С приветственным словом к участникам семинара обратился советник НЦЦЭ МГУ, член Наблюдательного совета Центра НТИ по большим данным, председатель Совета директоров Института развития информационного общества Юрий Хохлов:

«Сегодня мы проводим семинар, посвященный деперсонификации персональных данных – тема, которая достаточно горячая сейчас. Мы освещаем ее в рамках деятельности Технического комитета по стандартизации “Искусственный интеллект” – ТК 164».

Юрий Хохлов, Сергей Гарбук (слева направо). НЦЦЭ МГУ

В семинаре также приняли участие заинтересованные эксперты, в частности, представители ТК 26 «Криптографическая защита информации», ТК 362 «Защита информации», Ассоциации больших данных. Юрий Хохлов отметил, что ее представители выступили с инициативой создания целого ряда национальных стандартов, не имеющих аналогов на международном уровне.

О необходимости совместной работы экспертов над стандартами в области защиты информации рассказал Сергей Гарбук, председатель ТК 164, директор по научным проектам НИУ «Высшая школа экономики»:

«Безусловно, вопрос защиты информации в системах искусственного интеллекта является смежным между различными техническими комитетами. Мы собираемся так же его и решать».

Эксперт отметил: «Создание и эксплуатация систем искусственного интеллекта очень тесно связана со сбором, обработкой, хранением больших данных. И зачастую при этом возникают вопросы, связанные с обеспечением информационной безопасности этих данных. Необходимость выполнения этих требований накладывает определенные рамки на создание и применение систем искусственного интеллекта. Эта проблема настолько актуальна и важна, что на необходимость поиска компромисса между безусловным соблюдением требований в области информационной безопасности и обнаружением эффективных механизмов создания комфортных условий для разработки и внедрения систем искусственного интеллекта обратил внимание Президент Российской Федерации на прошедшей примерно месяц назад конференции AI Journey под эгидой Сбербанка».

Участники семинара «Деперсонификация (анонимизация) больших данных». НЦЦЭ МГУ

Сергей Гарбук перечислил некоторые особенности, связанные с интеллектуальными информационными технологиями и деперсонификацией данных:

«Первое – это то, что зачастую данные, которые предстоит обрабатывать в процессе реальной эксплуатации систем, являются конфиденциальными. Но сама модель сбора (сами условия получения) этих данных не представляет собой никакой тайны и является первичной, может быть предоставлена разработчиками систем искусственного интеллекта. В этом плане встает вопрос о создании обезличенных, анонимных наборов данных, которые не являются конфиденциальными, могут обрабатываться в открытом режиме, но наборы, которые по своим информационным характеристикам полностью соответствуют, эквиваленты тестовым выборкам».

Вторая особенность, по словам Сергея Гарбука, заключается в том, что в процессе эксплуатации систем искусственного интеллекта уровень конфиденциальности данных может возрастать, то есть данные, которые не являются конфиденциальными на ранней стадии (например, потому что были обезличены), по мере накопления позволяют снова восстановить личность человека.

«Через год этих данных становится столько, что они однозначно указывают на конкретную персону, данные де-факто становятся персональными. Соответственно, нужно реагировать на это, принимать меры по защите уже вновь образовавшихся персональных данных», – пояснил Сергей Гарбук.

«Наконец, третий момент, на который тоже хотелось бы обратить внимание, – то, что конфиденциальными, подлежащими защите, являются не только данные систем искусственного интеллекта, но и, скажем, архитектура нейронных сетей, которая используется для обработки этих данных, потому что знание архитектуры злоумышленником существенно повышает его возможности по реализации ряда специфических атак на системы искусственного интеллекта», – обратил внимание Сергей Гарбук.

Далее Михаил Забежайло, заведующий отделом интеллектуального анализа данных и автоматизированной поддержки научных исследований ФИЦ «Информатика и управление» РАН, рассказал о некоторых наукоемких аспектах деперсонификации.

Доклад Михаила Забежайло в рамках семинара «Деперсонификация (анонимизация) больших данных». НЦЦЭ МГУ

Среди наиболее актуальных угроз в данной области докладчик выделил следующие:

– Контекстные «ключи», позволяющие по недеперсонифицированным данным указать на конкретную личность, и доступность таких «ключей»;

– Каким должен быть правильный ответ?

– Что именно должно быть подвержено «зашумлению»?

Эксперт пояснил: «Мы должны не только указать, каким должен быть правильный ответ (даже на модифицированных данных). Мы должны позаботиться, чтобы даже при соответствующем “зашумлении” этих данных была проделана работа с тем, что условно названо контекстные “ключи”».

По словам Михаила Забежайло, при управлении рисками можно использовать следующие меры:

– Юридические (NDA, или Non-disclosure agreement, а также персональная ответственность в случае утечки информации);

– Организационные (разграничение доступа);

– Технические (получение условно реальных данных из реальных).

«Научиться генерировать данные, которые были бы похожи на реальные, были бы условно реальными, но такими, где мы можем по генерированным данным точно сказать, что такое правильный ответ, чтобы иметь возможность проверить соответствие, – это и оказывается основной задачей», – поделился Михаил Забежайло.

Максим Емец, представитель Ассоциации больших данных; Николай Дмитрик, руководитель департамента правового регулирования НЦЦЭ МГУ; Максим Часовиков, ведущий специалист НЦЦЭ МГУ (слева направо). НЦЦЭ МГУ

Андрей Костогрызов, главный научный сотрудник ФИЦ «Информатика и управление» РАН, в своем выступлении рассказал об использовании методов системной инженерии и теории вероятности для прогнозирования рисков.

Максим Елец, представитель Ассоциации больших данных, обратил внимание на то, как организация подходит к обезличиванию данных. Сегодня ее членами являются «Яндекс», Mail.Ru Group, Сбербанк, Газпромбанк, «Тинькофф Банк», «Мегафон», «Ростелеком», oneFactor, QIWI, «Билайн», Аналитический центр при Правительстве РФ.

Далее состоялась дискуссия участников встречи.

Подводя итоги семинара, Юрий Хохлов пригласил экспертов к прямому сотрудничеству по целому ряду стандартов, связанных с большими данными.

Юрий Хохлов, Сергей Гарбук (слева направо). НЦЦЭ МГУ

На семинаре в НЦЦЭ МГУ обсудили деперсонификацию данных

Полезные ссылки