Главная » IT-индустрия » «Технологии управления данными 2018»: На базе данных

«Технологии управления данными 2018»: На базе данных

Организованная издательством «Открытые системы» конференция высветила основные направления в области технологий управления данными, без которых не возможна ни одна инициатива в области цифровизации экономики.

 

Стратегии, платформы, инструменты и опыт реальных проектов», организованная издательством «Открытые системы», оказалась не только насыщенной и информативной, но и на удивление эмоциональной: около 200 участников встречи с нескрываемым интересом слушали выступавших и живо включались в обсуждения. Прошедшая в Москве конференция «Технологии управления данными 2018.

В широком смысле его следует интерпретировать как корпоративное управление данными (Data Governance), рассматривающее данные как активы организации. Как отметил Валерий Артемьев, консультант управления методологического и организационного обеспечения департамента статистики и управления данными Банка России, термин «управление данными» чаще всего трактуется в узком смысле — как управление базами данных и файлами. В качестве ключевого информационного источника Артемьев рекомендовал Data Management Body of Knowledge — свод знаний, подготовленный глобальным сообществом экспертов по управлению данными DAMA International. Такой взгляд предполагает необходимость учета данных, анализа их ценности для бизнеса, а также обеспечения качества и ясного понимания того, как именно данными можно управлять.

Не все спокойно в королевстве данных

В частности, Артемьев отметил полтора десятка организационно-методических проблем и около десятка технологических. Сегодняшнее состояние дел в области управления данными, похоже, едва ли можно считать блестящим. Из технологических особо следует отметить неосведомленность специалистов о возможностях новых продуктов, нехватку знаний о технологиях, избыточное количество приобретаемых продуктов (и, как следствие, слабую востребованность, по крайней мере, части из них), большие объемы ручного труда и недостаточные компетенции работы с концептуальными моделями предметных областей. Наиболее критичные из организационно-методологических — слабо развитая культура принятия решений на основе данных, недостаточное понимание предметной области специалистами, занимающимися данными, отсутствие стратегии, архитектуры, методологии управления данных и плана реализации возможных мер в этой области, а также слабая вовлеченность бизнес-подразделений в эти процессы. Нередко случается так, что данными занимаются те, кто смутно понимает, как работает бизнес, а бизнесом — те, кто слабо представляет себе, как работать с данными.

Подспорьем для бизнес-специалистов станут инструменты так называемой дополненной аналитики со встроенными в них средствами искусственного интеллекта. Вероятнее всего, одной из ключевых тенденций станет демократизация данных и аналитики. Также интеллектуальные системы возьмут на себя большую часть рутины, предваряющей продуктивную работу с данными. В частности, они смогут распознавать и интерпретировать запросы, сформулированные на естественном языке — как текстовые, так и голосовые.

Кроме того, предприятиям следует осваивать гибридную обработку данных (Hybrid Transaction/Analytical Processing, HTAP), которая подразумевает, что оперативные и аналитические данные не разделяются по разным хранилищам. В области интеграции данных нас, по-видимому, ожидает переход от озер данных к логическим хранилищам данных: корпоративную информацию совсем не обязательно хранить в одном большом архиве, данные могут оставаться в прежних местах хранения, однако важно, чтобы их поиск и анализ можно было бы производить так, как будто они собраны в одно большое хранилище.

Основными причинами этого он считает инерцию сообщества, подверженность конъюнктуре, а также маркетинговое давление вендоров. Впрочем, как отметил Сергей Кузнецов, главный научный сотрудник ИСП РАН, профессор МГУ, МФТИ и НИУ ВШЭ, далеко не всякая здравая и полезная идея находит поддержку в ИТ-сообществе. Кузнецов убежден, что инерция мешает движению сообщества к новым технологиям, препятствуя как разработке новых систем, так и их применению. Иначе как объяснить, например, продолжающееся несколько десятилетий господство SQL и реляционных СУБД одновременно с так и не состоявшимся взлетом объектно-ориентированных и объектно-реляционных СУБД?

Не следует использовать «модные» в данный момент технологии везде, где это только возможно, применять их нужно там, где они будут уместны и полезны. Конъюнктура также сдерживает развитие, поскольку ограничивает кругозор и мешает правильному выбору технологий.

В основном эти материалы ориентированы на активную продажу технологий, и, к сожалению, в информационных источниках ИТ-компаний порой бывает очень непросто найти то, что реально интересует ИТ-специалистов. С маркетинговым давлением вендоров связан еще один некомфортный момент: их маркетинговые материалы слабо помогают заказчикам справляться со стоящими перед ними задачами.

Помочь преодолеть этот барьер и навести мосты между поставщиками и заказчиками технологий как раз и призваны конференции, подобные нынешней.

Технологии развиваются, чтобы решать задачи

Позволить эффективно работать с такими данными призваны технологии логических витрин, о которых рассказал Сергей Горшков, директор компании «ТриниДата». Проблема, которая стара, как ИТ-мир: в очень многих организациях данные хранятся разрозненно, во множестве различных хранилищ, архивов, репозиториев и папок. Как отметил Горшков, использование онтологий при построении витрин данных дает возможность строить поисковые запросы в привычных сотрудникам бизнес-терминах, получать точные результаты, как при обычном запросе к СУБД, и принимать более взвешенные решения. Идея, которую он представил, заключается в том, чтобы не просто извлекать данные из множества источников, но пытаться описывать их в терминах концептуальной модели предметной области (проще говоря, на языке бизнеса), выстраивать их категоризацию, выявлять знания и закономерности, находить структурные элементы в неструктурированных данных и таким образом выстраивать эффективный поиск и анализ имеющейся информации.

Для этих целей в компании предлагают применять семантические технологии — основываясь на них, система распознает смысл (точнее, контекст) данных, с которыми работает. Тему построения онтологий для описания концептуальных моделей предметной области продолжил Сергей Исаев, генеральный директор компании DataFabric. Так, граф знаний ФНС состоит из примерно 6 млрд триплетов, включающих в том числе исторические взаимосвязи. При этом она оперирует не только с самими данными, но и со знаниями о предметной области, описанными посредством семантических сетей, представляющих собой графы знаний, собранные из множества триплетов среды описания ресурсов (RDF), имеющих вид «субъект — предикат — объект». Также значительно упрощается интеграция данных из различных источников и для разных потребителей. Основываясь на семантических технологиях, можно производить сбор, преобразование, хранение и управление данными. Семантические технологии открывают широкие возможности для поиска скрытых, неочевидных взаимосвязей между людьми, компаниями, различными объектами и действиями: можно, например, создавать системы, анализирующие большое количество данных из разных источников с целью выявления экономического и финансового мошенничества.

Марк Ривкин, директор по технологическому консалтингу компании Oracle в странах СНГ, подробно остановился на различных направлениях автоматической адаптации работы СУБД к текущей нагрузке и ее оптимизации «на лету» с учетом имеющихся возможностей масштабирования, распараллеливания выполнения задач и управления сразу несколькими базами данных как единым целым. В Oracle пытаются облегчить жизнь заказчиков, активно развивая так называемые автономные сервисы СУБД: встроенные в них механизмы машинного обучения помогают автоматизировать многие рутинные операции по администрированию баз данных и обеспечению их информационной безопасности.

Свой взгляд на развитие автономных баз данных изложили представители компании Postgres Professional: без разговора о СУБД Postgres не обходится сегодня ни одна встреча профессионалов в области управления данными.

Василий Флока, главный инженер TmaxSoft Rus, представил основные улучшения, внесенные в СУБД Tibero «по многочисленным просьбам» российских заказчиков.

Идея этой платформы в том, что ни одна из ныне существующих СУБД не способна одинаково эффективно решать весь круг задач по работе с данными, поэтому разумно использовать пакет интегрированных между собой систем, каждая из которых хорошо справляется с определенным кругом задач. Представители компании IBS и ее проекта Arenadata рассказали о возможностях универсальной платформы хранения и обработки данных Arenadata Unified Data Platform, разработанной на основе проектов с открытым кодом. Также платформа включает продукты для потоковой обработки данных на базе Apache Kafka и Nifi, ETL-инструментарий, пользовательский интерфейс аналитика Analytic Workspace и другие компоненты. В состав платформы включены три базовых СУБД: Arenadata Grid — созданная на базе Apache Ignite база данных с обработкой данных в оперативной памяти, рассчитанная для работы в режиме реального времени; Arenadata DB — основанная на Greenplum распределенная СУБД, использующая массивно-параллельные вычисления (MPP) для работы хранилищ данных и аналитических систем; Arenadata Hadoop — дистрибутив распределенной платформы хранения на базе Apache Hadoop, адаптированный для корпоративного использования.

Она обеспечивает хранение с быстрым и удобным доступом к данным разных типов (в том числе изображениям, записям аудио и видео, а также резервным копиям данных) посредством популярных протоколов обмена: AWS S3 — как в облачных сервисах сетей предоставления контента (CDN), а также SMTP, Swift и др. Предназначенную для создания объектных хранилищ в корпоративных вычислительных средах и частных облаках платформу Cloud Object Platform представил Егор Литвинов, консультант-эксперт компании Hitachi Vantara.

В эпоху цифровых преобразований предприятия предъявляют особые требования к производительности и надежности систем хранения как фундамента для работы с данными — их характеристики и особенности не должны становиться препятствием для внедрения и использования цифровых инновационных решений. О важности платформ хранения для современного бизнеса напомнил Максим Зубарев, глава представительства компании Pure Storage в России, СНГ и станах Балтии.

Его суть в том, чтобы сконцентрироваться на измерении в отслеживаемых бизнес-процессах только самых важных показателей, от которых в конечном итоге зависит общий успех. Олег Финошин, заместитель генерального директора компании Vizex, предложил достаточно простой, относительно недорогой и весьма эффективный способ использования аналитики для анализа деятельности организаций. Контролируем время и качество», — пояснил Финошин. «Не нужно замысловатых графиков. Обеспечив таким образом непрерывный мониторинг деятельности и визуализировав картину деятельности организации, становится несложно выявлять слабые места, погружаться в их детали и анализировать причины замедлений или снижения качества на отдельных участках. Например, в отдельно взятом бизнес-процессе или цепочке операций достаточно оценивать сроки исполнения, количество ошибок, время ожидания в очереди на исполнение, время, которое требуется на коммуникацию с другими бизнес-процессами и некоторые другие показатели — их замер организовать нетрудно.

Проверка практикой

Ольга Налгранян, специалист отдела автоматизации и анализа данных компании Mars, рассказала об организации в компании системы мониторинга и анализа различных систем и связанных с ней бизнес-процессов. И все же главный критерий оценки возможностей технологий — реальный опыт. В компании «Мегафон» удалось подробно изучить процессы приема платежей, и, изменив их, улучшить доступность платежных сервисов и, как результат, повысить удовлетворенность ими абонентов. Основываясь на данных из системных журналов, специалисты компании научились не только выявлять аномалии и предотвращать инциденты, но и сократили среднее время восстановления работоспособности систем (MTTR), уменьшили общую трудоемкость мониторинга и пр.

В частности, Google оказывает помощь в реализации двух проектов — Rucio и PanDA. О поддержке проектов ученых, ведущихся в Европейском центре ядерных исследований (ЦЕРН), рассказал Владислав Патенко, инженер Google Cloud. Объемы данных при этом таковы, что на их передачу в центры обработки данных для их последующего хранения и обработки требуется около месяца. Первый из них обеспечивает управление данными, полученными в ходе экспериментов на Большом адронном коллайдере. Проблема осложняется тем, что в ближайшие годы ЦЕРН планирует заменить прежние установки для сбора данных на новые, и тогда объем получаемых данных вырастет на порядок. Кроме того, необходимо позаботиться о том, чтобы бронировать необходимый объем ресурсов.

Одна их проблем состоит в том, что эти потоки задач сильно отличаются от workflow, который встречается в бизнесе, а потому требуется специально прорабатывать и продумывать реализацию этого управления. Другой проект, которому Google оказывает не только технологическую, но и финансовую поддержку, — PanDA — нацелен на управление потоками (workflow) задач, требующими вычислительных ресурсов. К счастью, постепенно проблема преодолевается: ученые, сотрудничающие с ЦЕРНом, берут на вооружение предоставляемые Google средства автоматизации и облачные возможности. Вторая проблема связана с менталитетом ученых: европейские исследователи и университеты зачастую не хотят иметь дело с коммерческими организациями.

Оставить комментарий

Ваш email нигде не будет показан
Обязательные для заполнения поля помечены *

*

x

Ещё про высокие технологии

Михаил Мамонов назначен на пост заместителя главы Минкомсвязи

11:09 13.12.2018 |   60 прочтений До назначения в Минкомсвязь Мамонов занимал должность управляющего директора по приоритетным проектам и развитию международной торговли «Российского экспортного центра».   Министерство цифрового развития, связи и массовых коммуникаций Российской Федерации объявляет о назначении Михаила Мамонова на должность ...

Сбербанк и Google рассказали о проекте «Бизнес класс»

В ходе «Бизнес класса» начинающие предприниматели при помощи наставников ищут свою бизнес-идею, выстраивают рабочие процессы, разрабатывают бизнес-план и набирают команду Источник: Сбербанк За два года участие в совместной программе развития предпринимательских навыков приняли 400 тыс. человек по всей России.   ...