Опубликовано интервью со специалистами Центра компетенций НТИ по большим данным МГУ

Входящий в структуру Национального центра цифровой экономики МГУ Центр компетенций НТИ по технологиям хранения и анализа больших данных и РВК выпустили интервью со специалистами ЦК НТИ. О том, зачем большие данные нужны бизнесу и государствам, что подразумевается под защитой персональных данных и как формировались научно-исследовательские и образовательные направления ЦК НТИ, читайте ниже.

– Почему хранение и анализ больших данных буквально «взорвали» рынок в последние годы?

Сергей Тростьянский, заместитель директора Центра

Объем накопленных миром данных в настоящий момент составляет приблизительно 40 зеттабайт, с прогнозом увеличения количества накопленных данных к 2025 году в четыре раза. На текущий момент компании научились собирать и хранить большие данные, но далеко не все из этих компаний способны извлечь полезную для себя информацию из собранных данных. При этом, в соответствии с прогнозами исследовательского агентства TAdviser, использование big data может увеличить прибыль компаний на 5–25% в зависимости от сферы деятельности.

Экспоненциальное развитие технологий «умных» вещей, содержащих в себе компьютеры, которые позволяют улучшить возможность взаимодействия людей с ними, создает свое отражение в киберпространстве. Взаимодействие интернета вещей и «интернета людей» образует невиданный симбиоз киберпространства и реального мира, под воздействием чего большие данные расширяют возможности людей при решении различных задач.

Например, маркетолог из Amazon, наблюдая за следами пользователя в киберпространстве, может придумать, какой товар предложить клиенту. Обработка данных позволяет в подходящее время сделать предложение о покупке, от которого будет трудно отказаться. Аналитик из Федеральной службы безопасности, анализируя данные о миллионах людей в киберпространстве, может обнаружить персон с аномальным поведением и предотвратить террористический акт.

Использование big data сегодня становится обязательным условием для развития не только крупных IT-компаний, но и крупных компаний из других отраслей экономики, а также малого и среднего бизнеса. Без анализа поведения своих пользователей, без возможности прогнозирования, руководствуясь только опытом и интуицией, уже крайне сложно оставаться конкурентоспособным.

– Как были выбраны основные научно-исследовательские направления работы Центра? Будет ли этот список расширяться с учетом того, что анализ больших данных применяется в самых разных областях, иногда неожиданных?

Константин Рудаков, академик, научный руководитель, руководитель направления «Реализация ключевых комплексных научно-исследовательских и опытно-конструкторских проектов» Центра, профессор кафедры математических методов прогнозирования факультета ВМК МГУ

Направления были выбраны на основе предложений ученых, работающих в МГУ и сотрудничающих с ним. Сначала мы собрали все возможные предложения – получилось 44 проекта. Потом выяснилось, что часть из них нельзя качественно выполнить, но не потому что направления плохие, а потому что никто не может реализовывать их в рамках имеющихся ресурсов.

Главное – нужны люди, по крайней мере имеющие шанс получить результаты выше мирового уровня. Это единственный вариант для России. Повторять, бежать вслед – абсолютно проигрышная история, играть надо на своем поле. Таким образом, сначала процедура представляла собой открытый сбор предложений, в результате фильтрации и интеграции которых осталось восемь проектов. По двум-трем из них планируется явное опережение мирового уровня.

Состав работ и далее будет модифицироваться и уточняться. Вообще, планирование результатов НИРов – вещь очень плохая. Планировать надо НИОКРы. НИРы – вещь фантазийная. Если вы знаете, что заведомо получите результат, то это уже не НИР. В этом есть рефлексивное противоречие.

То, что поступают все новые и новые социальные заказы, – правда. Это может происходить в результате личного общения с теми, кто заинтересован в решении задачи, тогда становятся видны области, где можно и нужно применять большие данные.

Список будет модифицироваться и в том случае, когда удастся преодолеть технологические барьеры. Фундаментальнейший из них состоит в следующем: одни люди, работающие в конкретных прикладных областях, собирают и имеют данные, а дальше не знают, что с ними делать, не умеют придумывать новые или эффективно применять имеющиеся алгоритмы и методы обработки и анализа данных, но в то же время не дают их и другим людям – реальным специалистам. Этот барьер существовал еще во времена СССР и приводил к «сложным отношениям» между академической и прикладной (отраслевой) наукой, но тогда эти противоречия в важных случаях снимались Госкомитетом по науке и технике, что было одной из его важнейших функций.

– Какое из направлений кажется вам самым перспективным и интересным?

Константин Рудаков

Самым главным мне всегда кажется математическое направление. Я сам математик, и моя позиция (почти не шучу) состоит в том, что человечество существует ради культуры, важнейшей частью которой является наука, а в ней самое главное (для меня) – математика. У нас есть фундаментальный проект «Математические основы интеллектуального анализа больших данных». Здесь могут быть достигнуты результаты мирового уровня. Соревноваться в организации производства с китайцами и в извлечении прибыли с американцами бессмысленно. Но математика у нас получше, чем там, поэтому математическое направление надо развивать и по возможности на его основе получать более качественные решения в сфере анализа данных.

– Большие данные не берутся из ниоткуда, и каждый день каждый из нас делает свой вклад в формирование огромного массива данных. Как?

Константин Рудаков

Человек просто живет, тем самым продуцируя данные. Его действия фиксируют и измеряют. Например, люди покупают продукты, в результате чего операторам фискальных данных поступают миллионы чеков в день. Вас снимают видеокамеры, вы едете на машине или входите в метро – все это порождение данных.

Изредка человек сам что-то вводит в компьютер или смартфон, причем делает это очень медленно: одно нажатие клавиши – это меньше одного байта информации, страница – порядка двух килобайт. Безумное количество данных возникает при фотографировании. Изображение – это матрица, содержащая миллионы пикселей. Делая фото, вы записываете числа, которыми закодирован цвет (скажем, восемь байт на пиксель). Соответственно, один снимок – это четыре тысячи страниц текста. Видео (это обычно 24 кадра в секунду) тоже представляет собой безумное количество формальной информации. Наверное, 99% объема данных в Интернете составляют картинки в разных видах (фото, видео). Звук также содержит довольно много информации, но гораздо меньше по сравнению с изображениями.

Тут стоит попробовать ответить на ключевой вопрос о том, что такое большие данные. Я, как математик, предлагаю такое определение: «Это данные, которые в силу своего объема при имеющихся у вас вычислительных мощностях не допускают квадратичного анализа, только субквадратичный». При этом надо иметь в виду, что бывают вычислительно трудные задачи, которые и на «маленьких» данных неразрешимы. Ни квантовые компьютеры, ни компьютеры размером со Вселенную здесь не помогут.

Объясню про квадратичность и субквадратичность на реальном примере. Одному региональному оператору сотовой связи нужно было разбить 10 миллионов абонентов на группы, которые демонстрируют схожее поведение. Учитывая время, место, продолжительность звонков, можно предложить различные числовые оценки сходства клиентов. Фактически получаются матрицы в виде квадратных таблиц, количество чисел в которых равно 10 в 12 степени (итог возведения 10 миллионов в квадрат). Даже с учетом того, что матрица симметричная и число можно поделить пополам, все равно ни один компьютер не потянет работу с такими данными. Работать с такой матрицей невозможно. Получить ответ на вопрос, что в конкретной ячейке, легко, а про все сразу – невозможно. Следовательно, надо работать субквадратично. Это и есть большие данные, они требуют уважительного отношения и соответствующей математической культуры.

Сейчас большие данные порождаются повсеместно с безумной скоростью. Если у вас нет задачи и вы не знаете, как ее решить, то не нужно ни в коем случае собирать данные. Сначала придумайте, зачем они необходимы, научитесь их использовать правильно, придумайте или подберите алгоритмы, создайте и протестируйте макетные решения, выберите лучшее. Только после этого начинайте собирать данные, делать промышленное решение, потом занимайтесь его внедрением и сопровождением. Это, кстати, уже не должно быть, по моему мнению, функцией академических институтов и вузов, для это существуют или создаются соответствующие производственные компании с сфере IT.

– Стоит ли нам переживать за свои данные? Как бизнес и государства должны защищать персональные данные? Защищают ли?

Константин Рудаков

Переживать – не очень правильное здесь слово, нужно приспосабливаться, учиться жить с пониманием того, что громадное количество данных о вас уже везде есть. Мир становится другим, прозрачным.

Персональные данные должны защищаться, это уже в некотором смысле делается, хотя пока недостаточно. Но что подразумевается под защитой? Одно дело – технологическая защита данных от считывания и копирования, другое – выявление случаев некорректного использования данных. Во втором случае проблема страшнее. Если где-то меня зафиксировали без моего желания, пока это у них просто лежит – ничего страшного. Но как только эти данные используются и распространяются, за это надо наказывать крайне строго. Любое нелегальное использование персональных данных опаснее их воровства.

Однако нельзя абсолютизировать персональные данные. Например, не было бы медицины, если бы абсолютизировалась охрана персональных данных о здоровье. Медицина основана на прецедентах. Представьте себе, что врач, вылечив больного, должен все забыть. В таком случае полученный опыт невозможно будет использовать при лечении следующего пациента. Тут встает вопрос адекватной деперсонификации и корректного использования данных. С водой нельзя выплескивать ребенка.

– Какие задачи индустриальные партнеры консорциума хотят решить с помощью анализа больших данных?

Константин Рудаков

Задачи поддержки интеллектуальной деятельности на основании имеющихся у нас уникальных технологий анализа больших данных. Я бы разделял индустриальных партнеров типа соисполнителей и типа заказчиков. Например, компания «Антиплагиат», совместно с которой реализуется проект «Средства интеллектуального анализа больших массивов текстов», во многом соисполнитель. Сам по себе «Антиплагиат» является специализированным поисковиком, в котором, кстати, в отличие от привычных нам поисковых систем, нет таргетированной рекламы. Возникающие научные проблемы в сфере анализа текстов, в частности, способен решать Московский университет. По данному проекту появляются хорошие и где-то опережающие технологии, связанные с кросс-языковым поиском, метаописаниями документов, внедрением элементов искусственного интеллекта.

Юрий Чехович, исполнительный директор компании «Антиплагиат»

Мы заинтересованы в развитии наших поисковых алгоритмов – как в части повышения их производительности и показателей качества, так и в части расширения их возможностей. В 2017 году мы ввели в эксплуатацию совершенно новые возможности по поиску переводных заимствований. «Антиплагиат» стал обнаруживать тексты на русском языке, которые были переведены с английского. Сейчас эти возможности расширены на казахский и киргизский языки, а в ближайших планах начать обнаруживать перевод в рамках 100 самых распространенных языков мировой науки.

Для развития в этом направлении мы налаживаем взаимодействие с ведущими научными центрами. Компания «Антиплагиат» стала индустриальным партнером консорциума по большим данным на базе Центра компетенций НТИ МГУ 12 апреля 2019 года. Мы рассчитываем в сотрудничестве с Центром существенно улучшить качество наших алгоритмов обработки больших объемов текстов на естественных языках.

Илья Муха, руководитель команды разработки проекта «Предиктивная аналитика технических систем» Центра

Один из восьми проектов Центра – «Предиктивная аналитика технических систем» – на данный момент реализуется в партнерстве с такими компаниями, как ПАО «Северсталь», ГК «ЛАНИТ». Проект направлен на создание программного комплекса предиктивной аналитики, позволяющего прогнозировать состояние технических и производственно-технологических систем путем анализа накопленной базы исторических данных и данных, передающихся с датчиков в реальном времени.

Проект позволяет индустриальным партнерам решать следующие ключевые задачи. Во-первых, речь идет о структурировании и аудите собираемых данных с датчиков, установленных на производственных системах. Мы детально изучаем, какие данные собираются сейчас, необходимо ли установить новые датчики для более точного описания процессов. Во-вторых, разрабатываются модели для прогнозирования возможных отказов и непредвиденных поломок на производственном оборудовании. В-третьих, происходит оптимизация технологической цепочки путем подбора производственных параметров и симуляции работы оборудования. Мы изучаем ход работы, как меняются параметры, и предлагаем индустриальному партнеру корректировать те или иные технологические процессы для достижения максимального жизненного цикла работы оборудования.

В-четвертых, благодаря прогнозированию на основе больших данных можно повысить качество выпускаемой продукции и скорректировать технологию производства. Например, по известным параметрам процесса производства определить свойства готовой продукции (и наоборот). Мы предлагаем подобрать оптимальные параметры, чтобы выпускаемая продукция соответствовала стандартам качества. Наконец, индустриальный партнер получает инструменты для работы с производственными данными, средства визуализации и раннего оповещения, детальные отчеты и производственные метрики. Они позволяют описать, насколько стабильна работа оборудования, каковы причины отклонений, и разработать рекомендации по принятию превентивных мер.

– О том, как большие данные помогают бизнесу, сегодня говорят много, а как они помогают государствам?

Татьяна Ершова, директор, руководитель направления «Развитие партнерских отношений» Центра

Лучше уточнить вопрос: как большие данные помогают не просто государствам, а органам государственной власти и местного самоуправления, а также в социальной сфере. В системе государственного управления активно используются результаты аналитики больших данных – как описательной (дескриптивной), так и предсказательной (предиктивной) – для выявления закономерностей и прогнозирования потребностей граждан и бизнеса в государственных услугах. В неменьшей степени аналитика больших данных используется и при выполнении государственных функций – таких, например, как контрольно-надзорная деятельность.

Еще большую значимость технологии хранения и анализа больших данных имеют для социальной сферы, особенно для здравоохранения, образования и науки. Анализ больших данных, основанный на применении технологий искусственного интеллекта, помогает врачам при постановке диагнозов, преподавателям школ и вузов – при выстраивании индивидуальных образовательных траекторий в процессе адаптивного обучения, научным работникам – при выявлении новых закономерностей из накопленных массивов данных физических экспериментов, сейсмологических наблюдений, геномных исследований и многого другого.

– Как устроена образовательная деятельность Центра?

Игорь Машечкин, руководитель направления «Разработка и реализация основных образовательных программ высшего образования, программ дополнительного образования, дисциплин (модулей), направленных на формирование компетенций» Центра, заведующий кафедрой интеллектуальных информационных технологий факультета ВМК МГУ, профессор

Этот процесс основывается на разработке и применении образовательной платформы технологий хранения и анализа больших данных. Создание этой платформы состоит из трех этапов. Первый этап, который мы уже фактически реализовали, включает подбор профессорско-преподавательских кадров. В результате большой проделанной работы к образовательной деятельности были привлечены ведущие специалисты в области хранения и анализа больших данных.

Первый этап также предполагает формирование банка базовых курсов по целевой тематике – разработку новых и модификацию уже существующих дисциплин. Это ответственный и сложный процесс, потому что тематика хранения и анализа больших данных подразумевает изучение и использование достаточно сложных математических дисциплин, во многом основанных на теории вероятностей, математической статистике, а также дисциплин, связанных с информационными технологиями.

На сегодня мы разработали более 30 новых базовых курсов, распределенных по четырем группам. Первая включает курсы, связанные с аналитикой больших данных. В эту группу в основном входят дисциплины, базирующиеся на алгоритмах и методах теории вероятностей и математической статистики. Вторая группа – курсы по хранению больших данных, ориентированные на изучение как основ организации хранения big data, так и конкретных современных технологий хранения (MapReduce, Spark и прочие). Направление третьей группы курсов – программная инженерия и информационные технологии. Сюда входят дисциплины, которые связаны с инженерией разработки приложений, предполагающих обработку и анализ больших данных. Наконец, последняя группа – курсы по предметно-ориентированным знаниям, направленные на изучение анализа данных из конкретных предметных областей (медицина, информационная безопасность, государственная безопасность и прочие). Специфика рассматриваемых нами технологий заключается в том, что на применение конкретной технологии оказывает влияние то, для какой предметной области и с какими предметными данными осуществляется работа.

Сегодня разработанные курсы применяются в ряде ведущих вузов страны, которые входят в консорциум Центра. Среди них – Московский государственный университет имени М.В. Ломоносова, Белгородский государственный национальный исследовательский университет, Нижегородский государственный университет имени Н.И. Лобачевского, Санкт-Петербургский политехнический университет Петра Великого, Ульяновский государственный университет и другие. Более 800 студентов этих вузов получили специальные знания по направлению «Технологии хранения и анализа больших данных», прослушав курсы, разработанные Центром.

Мы придерживаемся классической формы образования, когда курсы читаются в аудиториях для студентов. Но эта форма не исключает современных дистанционных методов использования учебно-методических материалов. С этого года мы начинаем разработку и внедрение дистанционных модификаций курсов, созданных в Центре, что станет частью второго этапа создания образовательной платформы. Эти модификации будут служить дополнительным учебно-методическим материалом при классическом обучении студентов.

Третьим этапом разработки образовательной платформы станет выбор и осуществление инфраструктурных решений для создания системы электронного дистанционного обучения, на основе которой будут развернуты учебные курсы по технологиям хранения и анализа больших данных.

Опубликовано интервью со специалистами Центра компетенций НТИ по большим данным МГУ

Полезные ссылки