28 октября состоялась дискуссия «Большие данные» в рамках панели «Развитие сквозных технологий» II Всероссийского форума с международным участием «Цифровизация ‒ 2019» в МГУ. Модератором дискуссии выступила директор Национального центра цифровой экономики МГУ, на базе которого действует Центр компетенций (ЦК) НТИ по большим данным, Татьяна Ершова.
Со вступительным словом к участникам сессии обратился научный руководитель ЦК НТИ МГУ по большим данным академик Константин Рудаков. Спикер отметил наблюдаемую сегодня в обществе вспышку интереса к новейшим технологиям, таким как big data, искусственный интеллект, нейросети, machine learning, deep learning.
«Речь идет, на мой взгляд, о том, чтобы распространить математические методы на те области, где пока нет адекватных математических моделей», ‒ сообщил эксперт.
Он также отметил следующую тенденцию: сегодня в бытовом контексте зачастую нейронными сетями называют любой алгоритм машинного обучения, тогда как в действительности такое отождествление не вполне корректно. «Нейронные сети ‒ это очень богатое по структуре и по параметрам семейство, ‒ рассказал Константин Рудаков. ‒ Именно поэтому те, кто трудится в данной области, должны быть очень хорошо подготовлены».
Докладчик предложил свое определение big data: «Большие данные ‒ это такой объем данных, который при имеющихся у вас вычислительных мощностях допускает только субквадратичный уровень. Если мы смогли стандартным способом работать с данными, значит, данные у нас не большие».
Спикер рассказал, какие языки программирования (Oracle, Assembler, Python) подходят для решения различных задач, связанных с данными разного объема. Константин Рудаков отметил, что работа с любыми алгоритмами невозможна без отличного знания математики.
Далее с докладом выступил Михаил Мягков, руководитель Университетского консорциума исследователей больших данных, руководитель лаборатории наук о больших данных и проблемах общества Томского государственного университета, ведущий научный сотрудник факультета государственного управления МГУ, профессор Орегонского Университета (США). Эксперт представил доклад «Университетский консорциум исследователей больших данных: примеры проектов».
«Когда мы пытаемся создать какие-то модели принятия решений людьми, мы тут же сталкиваемся с ситуацией, когда очень много переменных, и, конечно, у нас не хватает данных», ‒ обозначил проблему Михаил Мягков. Он рассказал об одном из проектов Университетского консорциума исследователей больших данных, учредителем которого является Томский университет: проект подразумевает создание междисциплинарного факультета, где у ученых в области естественных наук и математики была бы возможность совместно формулировать и решать задачи. Одним из объектов исследования могли бы стать так называемые «цифровые следы», которые оставляет каждый из нас. Потенциальным эмпирическим материалом для изучения являются 90 млн валидных аккаунтов в социальных сетях с информацией о дружеских связях и подписках на тематические сообщества.
Михаил Мягков отметил открытость Университетского консорциума для сотрудничества, а также перечислил выполняемые в настоящее время проекты: «Цифровое качество жизни», «Предсказание политических предпочтений пользователей социальных сетей», «Определение образовательных интересов и признаков одаренности у школьников», «Анализ проявлений девиантного поведения среди школьников» и др. Проекты спикер разделил на коммерческие, социально значимые, а также связанные с образованием и безопасностью.
Затем слово было передано директору по аналитическим решениям компании SAS Александру Ефимову, представившему доклад под заголовком «Организация и использование больших данных в бизнесе». Спикер рассказал, что data scientist должен совмещать в себе компетенции математика, бизнес-аналитика и инженера данных. Александр Ефимов также уверен, что специалист в любой из предметных областей должен понимать бизнес-специфику этой сферы и уметь составлять простейшие алгоритмы.
Директор по развитию бизнеса компании «Такском» Артем Меликджанян и директор по аналитике АО «Гудфокаст» Даниил Каневский выступили с совместным докладом «Аналитика рынка на основе чековых данных. Решение задачи сопоставления текстовых наименований товаров». Данная задача в широком смысле понимается как формирование на основании получаемых данных единого справочника и классификатора товаров, а в узком ‒ подразумевает сопоставление наименований из чеков с заданным списком товаров.
«Возможность получить аналитику по своему сегменту розничного рынка Российской Федерации в режиме реального времени ‒ неоценимый инструмент для развития любого
бизнеса», ‒ уверены эксперты.
Антон Балагаев, директор по консалтингу ООО «Аренадата», определил big data как данные, не соответствующие обычным стандартам по скорости передачи, объему, разнообразию и пр. «Все данные должны быть в единой экосистеме, и бизнес должен уметь ими пользоваться», ‒ уверен эксперт.
Как считает Антон Балагаев, «цифровая компания ‒ это компания, в которой не требуется изменение текущих наработок для реализации новых проектов цифровизации и автоматизации».
Спикер также выявил разницу между цифровизацией и автоматизацией. Если первая подразумевает определение количественных метрик для того или иного явления или объекта, внедрение аппаратных средств измерения установленных метрик и организацию возможности сбора результатов измерений, то вторая включает в себя формализацию отдельных действий человека в рамках бизнес-процесса, внедрение аппаратных и программных средств, способных выполнять эти действия, а также разработку алгоритмов исполнения совокупности действий, соответствующих всему бизнес-процессу. Антон Балагаев уверен, что перед планированием трансформации важно как можно раньше четко определить единую цель всех проектов, формирующих организацию. Эта цель позволит не потерять стратегический фокус при решении частных бизнес-задач.
Подводя итоги дискуссии, Татьяна Ершова подчеркнула, что специалисты в области big data и другие участники рынка должны уметь разговаривать на одном языке. Именно поэтому на секцию были приглашены представители таких разных сфер, как наука, образование, бизнес и государственное управление.
Текст: Аврора Яровикова.