Состоялось первое заседание ПК 02 «Данные», входящего в ТК 164

Состоялось первое заседание ПК 02 «Данные», входящего в ТК 164

1 октября 2020 года в онлайн-режиме состоялось первое заседание подкомитета «Данные» (ПК 02), входящего в технический комитет по стандартизации «Искусственный интеллект» (ТК 164). Встреча прошла в рамках III Всероссийского научно-практического форума с международным участием «Цифровизация-2020», проводимого МГУ имени М.В. Ломоносова.

Напомним, ТК 164 создан в 2019 году по инициативе Российской венчурной компании (РВК) при поддержке Минпромторга РФ и Росстандарта. В сферу ответственности ТК 164 входит широкий спектр вопросов, связанных с нормативно-техническим регулированием различных аспектов прикладного использования технологий искусственного интеллекта. ТК 164 представляет собой зеркальное отражение на национальном уровне профильного международного подкомитета ISO/IEC JTC 1/SC 42 Artificial Intelligence. В составе ТК 164 действует подкомитет «Данные» (ранее рабочая группа «Большие данные», или РГ 02), функции секретариата которого выполняет Национальный центр цифровой экономики МГУ (НЦЦЭ МГУ). Деятельность секретариата ПК 02 поддерживается в рамках программы Центра компетенций НТИ по большим данным (структурного подразделения НЦЦЭ МГУ).

С приветственным словом к участникам заседания обратилась Татьяна Ершова, директор Национального центра цифровой экономики МГУ (НЦЦЭ МГУ), руководитель организационного направления Центра компетенций НТИ по большим данным:

«В современной цифровой экономике чрезвычайно важны так называемые сквозные технологии, среди которых столь близкие нам искусственный интеллект и работа с большими данными. Трудно переоценить значение сбора, обработки и анализа огромных массивов данных, включая персональные данные. Все это происходит в государственном управлении, бизнесе, научно-технической сфере – да и во всех отраслях народного хозяйства. Поэтому для обеспечения информационной безопасности и конфиденциальности данных необходимо взвешенное нормативно-техническое регулирование. Осознавая это, Национальный центр цифровой экономики МГУ поддерживает деятельность по стандартизации в области искусственного интеллекта и больших данных».

Татьяна Ершова рассказала, что по инициативе НЦЦЭ МГУ в июле 2019 года была создана РГ 02 «Большие данные» в составе ТК 164, в соответствии с приказом Росстандарта от 20 августа 2020 года преобразованная в ПК 02 «Данные». Деятельность подкомитета поддерживается в рамках проекта «Технологии хранения и анализа больших данных» (выполняется МГУ совместно с РВК и Фондом поддержки проектов НТИ). Для реализации этого проекта в структуре НЦЦЭ МГУ в 2018 году был создан Центр компетенций НТИ по большим данным, одним из ключевых научно-исследовательских проектов которого стал «Мониторинг и стандартизация развития и использования технологий хранения и анализа больших данных в цифровой экономике Российской Федерации». Руководитель данного научно-исследовательского проекта – председатель совета директоров Института развития информационного общества (ИРИО), научный сотрудник Центра компетенций НТИ по большим данным на базе МГУ Юрий Хохлов.

С приветственным словом также выступил председатель ТК 164 Сергей Гарбук. Он поблагодарил руководство и экспертов ПК 02 за «активную и плодотворную работу в рамках развития документов по стандартизации, посвященных регулированию данных для систем искусственного интеллекта», и отметил, что «не менее половины всех стандартов, разрабатываемых в области искусственного интеллекта, в той или иной степени посвящены данным». 

По словам Сергея Гарбука, при активном участии экспертов ПК 02 разработан проект перспективной программы стандартизации в области искусственного интеллекта до 2025 года. «Там содержится большое количество стандартов, посвященных данным. Этот проект находится на согласовании с федеральными органами исполнительной власти и заинтересованными организациями. Этим занимается Минэкономразвития России. До 25 октября будет происходить такое согласование», – поделился председатель ТК 164.

Сергей Гарбук обратил внимание на два аспекта, которые связаны с регулированием в области данных. Первый касается отраслевых данных. «В федеральном проекте “Искусственный интеллект” (в разделе “Стандартизация”) предусмотрено создание тестовых массивов данных 22 федеральных органов исполнительной власти и пяти отраслей <…>. Должны быть созданы тестовые наборы данных, необходимые для обучения и тестирования систем искусственного интеллекта. И такие стандарты, которые устанавливают требования к этим отраслевым наборам данных, предусмотрены в федеральном проекте “Искусственный интеллект”. Это предстоит делать в течение ближайших пяти лет», – сообщил Сергей Гарбук.

Второй аспект регулирования данных, по словам председателя ТК 164, относится к информационной безопасности: необходимо «достижение компромисса, когда будут выполняться требования в области защиты информации» и при этом «будет обеспечен легкий и комфортный доступ разработчиков и потребителей систем искусственного интеллекта к необходимым данным». Системы искусственного интеллекта, считает Сергей Гарбук, обладают двумя особенностями в сфере информационной безопасности. «Первая: наборы данных, которые используются для обучения систем искусственного интеллекта, зачастую изначально непубличного распространения, конфиденциальные <…>. [Эти данные] могут быть подвергнуты некоторой обработке, которая сохранит их информационные свойства, но при этом выведет из-под регулирования законов, которые касаются конфиденциальной информации. Создание стандартов, которые устанавливают требования к такого рода преобразованиям (деперсонификации, анонимизации данных, придания им открытого характера) – это важнейшая задача», – поделился Сергей Гарбук.

«Второй момент – возможность повышения уровня конфиденциальности данных в процессе работы систем искусственного интеллекта. Это специфично, пожалуй, только для интеллектуальных систем, когда на входе большое количество абсолютно открытой информации, собранной из публичных источников, но по мере ее агрегирования, обработки возникают конфиденциальные данные, которые, скажем, являются персональными или представляют собой какую-то другую тайну. Необходимость отслеживания уровня конфиденциальности на стадии жизненного цикла систем и оперативного и адекватного реагирования (без перегибов, но и без послаблений, которые допускают утечку информации), нахождение опять же разумного компромисса – это тоже задача ПК 02 в области безопасности систем искусственного интеллекта», – подытожил Сергей Гарбук.

С докладом о деятельности ПК 02 «Данные», планах на 2020 и 2021 годы выступил председатель подкомитета Юрий Хохлов. По его словам, на текущий момент в ПК 02 входят 37 организаций, от лица которых в работе подкомитета участвуют 77 экспертов.

Целью деятельности ПК 02 является проведение работ по национальной, межгосударственной, региональной и международной стандартизации в сфере работы с данными в области искусственного интеллекта, больших данных и аналитики данных.

Председатель ПК 02 Юрий Хохлов

Текущая деятельность подкомитета, по словам Юрия Хохлова, связана с разработкой следующих национальных стандартов, находящихся на разных стадиях готовности:

– ГОСТ Р «Информационные технологии. Большие данные. Обзор и словарь»;

– ГОСТ Р «Информационные технологии. Эталонная архитектура больших данных. Часть 1. Структура и процесс применения»;

– ГОСТ Р «Информационные технологии. Эталонная архитектура больших данных. Часть 2. Примеры использования и производные требования»;

– ГОСТ Р «Информационные технологии. Эталонная архитектура больших данных. Часть 4. Безопасность и защита персональных данных (конфиденциальность)»;

– ГОСТ Р «Информационные технологии. Эталонная архитектура больших данных. Часть 5. Дорожная карта стандартов»;

– ГОСТ Р «Информационные технологии. Большие данные. Техническое задание. Требования к содержанию и оформлению».

В рамках деятельности по международной стандартизации продолжается участие подкомитета в разработке стандарта ISO/IEC 24668 Information technology – Artificial intelligence – Process management framework for Big data analytics. Начинается также работа над новой серией стандартов по качеству данных для аналитики и машинного обучение: 1) ISO/IEC NP 5259-1 Data quality for analytics and ML – Overview; 2) ISO/IEC Data quality for analytics and ML – DQ Measures (NP); 3) ISO/IEC NP 5259-3 Data quality for analytics and ML – Management; 3) ISO/IEC NP 5259-4 Data quality for analytics and ML – Process. Временная рабочая группа «Данные для искусственного интеллекта» (AI Data AHG) продолжает работу над докладом по данным для искусственного интеллекта.

Юрий Хохлов призвал входящие в подкомитет организации принять участие в подготовке предложений в области стандартизации для их включения в план работ. «Наша задача заключается в том, чтобы сформировать план работ и дать предложения в Программу национальной стандартизации на 2021 и последующие годы», – обратил внимание председатель ПК 02.

О порядке и ходе разработки проекта национального стандарта ГОСТ Р «Информационные технологии. Большие данные. Обзор и словарь» (адаптация ISO/IEC 20546:2019 Information technology – Big data – Overview and vocabulary, IDT) рассказала научный редактор Елизавета Иванова. По ее сообщению, цель документа заключается в установлении стандартизированных терминов, обеспечении единства терминологии и взаимопонимания в предметной области «большие данные». Разработчиками стандарта выступают МГУ и ИРИО.

После публичного обсуждения, в результате которого редакторы обработали 54 экспертных замечания, 15 сентября была подготовлена окончательная версия данного документа. Одними из основных принципов адаптации международного стандарта стали стремление к русификации, отказ от калькированных терминов, а также точное, однозначное соотнесение с понятиями и объектами.

По словам научного редактора, проект стандарта утверждает и нормализует русскоязычные понятия, применяемые в области больших данных и имеющие отношение к их сбору, анализу и обработке. В документе сформулированы адаптированные дефиниции для ключевых терминов предметной области «большие данные» (velocity, variety, volume, veracity, variability – скорость обработки, изменчивость, объем, достоверность, вариативность); обеспечена терминологическая основа для стандартов, связанных с большими данными; заложена база для формирования и развития русскоязычного терминологического аппарата в области больших данных.

Ход разработки проекта национального стандарта ГОСТ Р «Информационные технологии. Эталонная архитектура больших данных. Часть 5: Дорожная карта стандартов» (адаптация ISO/IEC TR 20547-5:2018 Information technology – Big data reference architecture – Part 5: Standards roadmap, IDT) охарактеризовал научный редактор Алексей Аверкин. По его словам, 30 сентября был завершен сбор экспертных замечаний и предложений касательно содержания документа.

Подобно упомянутому выше документу, этот проект стандарта разрабатывается на средства МГУ и ИРИО и призван выполнить две функции: во-первых, дать описание существующих и разрабатываемых стандартов, относящихся к большим данным, во-вторых, определить приоритетные направления разработки будущих стандартов больших данных на основе анализа пробелов и несоответствий.

В совместном докладе научного редактора национального стандарта ГОСТ Р «Информационные технологии. Эталонная архитектура больших данных. Часть 1. Структура и процесс применения» (адаптация ISO/IEC 20547-1:2020 Information technology – Big data reference architecture – Part 1: Framework and application process, IDT) Андрея Микрюкова и ведущего специалиста Центра компетенций НТИ по большим данным на базе МГУ Максима Часовикова шла речь об особенностях разработки этого проекта стандарта. Цель стандарта – описание структуры эталонной архитектуры больших данных, процесса сопоставления конкретного ряда проблем/сценариев использования с этой архитектурой и оценки сопоставления. Стандарт по эталонной архитектуре необходим для обеспечения эффективного и последовательного описания организациями используемой ими архитектуры и ее реализации с учетом ролей/исполнителей и связанных с ними этапов применения. По словам Максима Часовикова, особенностью разработки данного национального проекта стандарта стало то, что работы начались, когда еще не был утвержден международный стандарт.

На текущий момент МГУ и ИРИО завершают подготовку первой редакции проекта стандарта. С середины октября по середину декабря 2020 года планируется провести общественное обсуждение документа. Подготовка окончательной редакции стандарта будет завершена к 1 февраля 2021 года.

В рамках заседания с докладом, посвященным проекту «Стандартопедия» как инструменту для создания онтологий предметных областей (в том числе при разработке стандартов по данным), выступил Сергей Израйлит, директор департамента развития и планирования Фонда «Сколково».

«“Стандартопедия” – это ресурс, который Фонд “Сколково” сделал специально для методологической, терминологической работы экспертов. В рамках этой задачи цель – попробовать применение машиночитаемого представления стандартов и нормативно-правовых актов», – сообщил Сергей Израйлит. По его словам, под «машиночитаемостью» подразумеваются «форматы, которые позволяют фиксировать онтологические взаимосвязи понятий, логику уточнений» и т. д. «Стандартопедия» поддерживает следующие типы процессов: «прототипирование, тестирование, формирование сценариев использования и сценариев коллаборации рабочей группы (в том числе специальные инструменты, которые позволяют совместно разрабатывать тот или иной тезаурус)».

Юрий Хохлов выразил готовность в экспериментальном режиме использовать инструмент «Стандартопедия» при разработке стандартов по большим данным. «Я не сомневаюсь, что наши эксперты точно так же будут участвовать в том, чтобы помочь запустить такой механизм, потому что негоже нам пользоваться достаточно устаревшими технологиями для коллективной работы, которые к тому же не позволяют выстраивать онтологии предметных областей. Для этого нужно, конечно, более современные инструменты использовать», – подчеркнул председатель ПК 02.

В последовавшей за докладами дискуссии активное участие принял Александр Райков, руководитель департамента интеллектуальных технологий НЦЦЭ МГУ.

Модератором заседания выступил Сергей Афанасьев, ответственный секретарь ПК 02, ведущий специалист Центра компетенций НТИ по большим данным на базе МГУ.

Авторизация
*
*
Генерация пароля