Объединенный технический комитет Международной организации по стандартизации и Международной электротехнической комиссии (ISO/IEC JTC 1) опубликовал международный стандарт в формате технического отчета ISO/IEC TR 20547-1 Information technology – Big data reference architecture – Part 1: Framework and application process. В подготовке документа принял участие входящий в российский технический комитет по стандартизации «Искусственный интеллект» (ТК 164) подкомитет «Данные» (ПК 02), работу которого организует МГУ имени М.В. Ломоносова.
Напомним, в составе ТК 164 действует подкомитет «Данные» (ПК 02), функции секретариата которого выполняет Национальный центр цифровой экономики МГУ (НЦЦЭ МГУ). Деятельность ПК 02/ТК 164 поддерживается в рамках программы Центра компетенций НТИ по технологиям хранения и анализа больших данных (структурного подразделения НЦЦЭ МГУ).
Опубликованный технический отчет ISO/IEC TR 20547-1 является основой для национального стандарта ГОСТ Р «Информационные технологии. Эталонная архитектура больших данных. Часть 1. Структура и прикладные процессы», который совместно разрабатывают Национальный центр цифровой экономики МГУ и Институт развития информационного общества (ИРИО). Национальный стандарт призван обеспечить эффективное и последовательное описание организациями используемой архитектуры и ее реализации с учетом ролей/исполнителей и связанных с ними проблемных вопросов.
О завершении подготовки первой редакции этого национального стандарта на прошедшем в июле ежегодном заседании ТК 164 сообщил Юрий Хохлов – руководитель ПК 02, член президиума Наблюдательного совета Центра компетенций НТИ по технологиям хранения и анализа больших данных на базе МГУ, председатель совета директоров ИРИО. Планируемый срок начала публичного обсуждения стандарта – сентябрь 2020 года.
Ниже предлагаем вашему вниманию перевод статьи издания E-tech, посвященной публикации технического отчета ISO/IEC TR 20547-1.
Ожидается, что глобальный рынок аналитики больших данных достигнет $105,08 млрд к 2027 году благодаря увеличению объемов данных и внедрению инструментов работы с данными, следует из доклада Research and Markets.
В докладе отмечается, что основным фактором роста рынка аналитики больших данных является увеличение объемов данных мобильного трафика, использование облачных вычислений, а также быстро ускоряющееся развитие и внедрение таких цифровых технологий, как технологии интернета вещей (IoT) и искусственного интеллекта.
В этой активно развивающейся области разработчики сталкиваются с проблемой отсутствия последовательного подхода к описанию архитектуры больших данных и ее внедрению.
Роль стандартов
Международная организация по стандартизации и Международная электротехническая комиссия разрабатывают материалы и международные стандарты в сфере ИКТ в рамках Объединенного технического комитета ISO/IEC JTC 1, который, в свою очередь, состоит из подкомитетов, охватывающих 22 предметные области. В частности, подкомитет SC 42 Artificial Intelligence занимается стандартизацией в области искусственного интеллекта.
Разработанный и опубликованный подкомитетом SC 42 международный стандарт в формате технического отчета ISO/IEC TR 20547-1 описывает структуру и процесс построения архитектуры больших данных. Предлагаемая стандартом структура нацелена на то, чтобы организации могли эффективно и последовательно описать свою архитектуру, ее внедрение с учетом ролей/участников (поставщиков приложений и структуры в сфере больших данных, сервисных партнеров) и проблемных вопросов (технических, операционных, правовых и т. д.), а также с учетом основополагающей технологии. Затем организации могут сопоставить предлагаемую структуру с собственными мероприятиями и функциональными компонентами, направленными на реализацию архитектуры.
«Цифровая трансформация промышленности сфокусировала внимание на необходимости компьютерных систем по работе с большими и разнообразными наборами данных, свойства которых (разнообразие, объем, скорость и достоверность) могут значительно отличаться в зависимости от практического применения, – сообщил председатель SC 42 Ваэль Уильям Диаб. – Серия стандартов по эталонной архитектуре больших данных [Big data reference architecture, BDRA] устанавливает основы для экосистемы больших данных».
Технический отчет ISO/IEC TR 20547-1 описывает структуру BDRA, позволяет сопоставить конкретные наборы задач/примеры использования с эталонной архитектурой, а также оценить это сопоставление.
ISO/IEC TR 20547-1 входит в серию стандартов ISO/IEC 20547-X по эталонной архитектуре больших данных. Эта серия также включает в себя ISO/IEC TR 20547-2 (сценарии использования и производные требования), ISO/IEC 20547-3 (эталонная архитектура), ISO/IEC 20547-4 (безопасность больших данных и конфиденциальность персональных данных), ISO/IEC TR 20547-5 (дорожная карта стандартов). На основе международного стандарта ISO/IEC 20547-3 Российской венчурной компанией в 2019 году была подготовлена первая редакция предварительного национального стандарта «Информационные технологии. Большие данные. Типовая архитектура» (прошла общественное обсуждение летом 2019 года).
Кроме того, в 2019 году был утвержден международный стандарт ISO/IEC 20546, который содержит обзор предметной области работы с большими данными и терминологический словарь (в рамках разработки российским ПК 02 идентичного национального стандарта ГОСТ Р «Информационные технологии. Большие данные. Обзор и словарь» в июле 2020 года завершилась стадия общественного обсуждения документа).
Понимание больших данных
Для того чтобы заинтересованные стороны понимали, какие системы работы с большими данными внедряют, и поддерживали надежную и четкую коммуникацию, необходима однозначная экосистема взаимодействия с потенциальными поставщиками технологий и услуг в области больших данных.
Она включает в себя понимание возможных проблемных вопросов и обязательств, связанных с управлением данными и их контролем, с целью обеспечения их безопасности, качества, соответствия требованиям, соблюдения авторских прав и конфиденциальности.
«Очень важно, чтобы организации могли определять, устанавливать, формулировать политику безопасности и происхождения данных, политику управления ими, а также внедрять и документировать технические средства контроля для обеспечения соблюдения этих политик. Так они [организации] могут защитить себя от ответственности за нарушения или злоупотребления в сфере данных, которые они [организации] контролируют», – отметил Во Чанг, руководитель рабочей группы по данным подкомитета SC 42, которая разрабатывает стандарты серии ISO/IEC 20547-X.
Кроме того, многие организации, работающие с большими данными, получают данные извне. Следовательно, системы, которые собирают и анализируют большие данные, должны безопасно и надежно обмениваться данными и быть совместимыми.
Ключевые элементы эталонной архитектуры больших данных
В ISO/IEC TR 20547-1 рассматриваются эталонные архитектуры систем больших данных, позволяющих организовывать массивы данных для эффективного хранения, обработки и анализа, а также приводятся определения компонентов BDRA.
Рассмотрены ключевые элементы эталонной архитектуры больших данных, в том числе:
• Предметный охват каждой из пяти частей серии ISO/IEC 20547-X и логические взаимосвязи между ними, а также прикладные процессы BDRA.
• Многочисленные заинтересованные стороны (например, владельцы систем, клиенты и разработчики). В случае работы с большими данными это может быть любое лицо, заинтересованное в обрабатываемых системой данных: например, владельцы данных, которые могут предоставлять данные системе, потребители данных, которые принимают решения, основанные на данных, а также люди или организации, которые могут быть описаны данными.
• Вызовы, определяемые как различные аспекты систем больших данных, включая технические, деловые, операционные, нормативные и даже социальные воздействия на систему в окружающей ее среде (например, качество программного обеспечения в системе больших данных, подразумевающее производительность, оперативность, доверие, риски и их снижение, гибкость).
• Представления, включая пользовательское представление, описывающее роли, подроли, виды деятельности и межсекторальные аспекты, необходимые для удовлетворения потребностей заинтересованных сторон. Сюда же входит функциональный вид, который описывает функциональные слои, функциональные компоненты и многослойные функции, необходимые для реализации мероприятий и межсекторальных аспектов, определенных в пользовательском представлении.
Процесс применения BDRA
Наконец, ISO/IEC TR 20547-1 рассматривает, как применить BDRA в конкретной проблемной области. В документе пошагово описывается процесс применения эталонной архитектуры для разработки описания архитектуры конкретной реализации системы больших данных.
«Эти прикладные процессы обеспечивают тщательный подход, основанный на стандартах архитектуры, системной и программной инженерии, позволяют создателям систем сопоставлять и применять доступные технологии и стандарты для удовлетворения своих требований в рамках гибкой, открытой и основанной на стандартах архитектуры», – подчеркнул Дэвид Бойд, редактор ISO/IEC 20547-1.
Идентификация заинтересованных сторон и их интересов
Первым шагом в процессе применения BDRA является идентификация заинтересованных сторон и их интересов, связанных с разработкой системы больших данных. Интересы заинтересованных сторон должны включать в себя разные аспекты, такие как нормативное регулирование и защита персональных данных (например, GDPR в Европейском союзе).
Эти элементы архитектуры должны быть определены таким образом, чтобы обеспечить прослеживаемость действий системы и ее компонентов при верификации процесса.
Отражение заинтересованных сторон и их интересов в ролях и подролях
Стандарт рекомендует использовать матрицу перекрестных ссылок как полезный инструмент для отражения интересов заинтересованных сторон в соответствующих ролях/подролях, что предполагает их действия для удовлетворения интересов. Этот шаг гарантирует, что разрабатываемая система будет учитывать все необходимые действия.
Разработка подробных описаний действий и их отражение в интересах
На данном шаге определяется, что должна делать система или архитектура. Благодаря определенным в BDRA ролям и подролям может быть сформирована структура для сбора и организации результатов реализации процессов системной и программной инженерии.
Определение функциональных компонентов для реализации действий
Данный шаг представляет собой стадию высокоуровневого проектирования системы больших данных. Функциональные уровни и классы функциональных компонентов в функциональном представлении BDRA предоставляют структуру для определения конфигурационных элементов (программных или аппаратных), которые и составляют архитектуру системы больших данных.
Этот последний шаг процесса разработки предполагает валидацию того, что каждый интерес может быть прослежен в некотором действии, и что каждое действие фактически присутствует в этих взаимосвязях.
Для эффективной валидации высокоуровневой архитектуры существенным является выбор инструментов трассировки баз данных для сбора необходимых сведений.
Источник: Центр компетенций НТИ на базе МГУ имени М.В. Ломоносова по технологиям хранения и анализа данных