Главная » IT-индустрия » Как управлять потоками данных. Опыт Mars

Как управлять потоками данных. Опыт Mars

В российском подразделении компании создали решение на базе Splunk, позволяющее обнаруживать проблемы с инфраструктурой и приложениями до того, как они проявятся.

 

По мере расширения ее возможностей она стала использоваться и в других областях. Например — для предсказания и детектирования проблем с ИТ-инфраструктурой и приложениями. Изначально система анализа машинных данных Splunk позиционировалась как средство обеспечения ИТ-безопасности. Накануне практической конференции «Технологии управления данными 2018», проводимой издательством «Открытые системы», Ольга Налгранян, специалист отдела автоматизации и анализа данных Mars, рассказала Computerworld Россия об опыте применения системы анализа машинных данных в новых сферах и о том, что можно было бы сделать по-другому. Одним из пионеров в этом направлении стало российское подразделение компании Mars.

— Почему вы решили использовать Splunk в новой роли?

Оно позволяет анализировать любые машинные данные в их исходном виде, создавать на их основе дашборды, отслеживать и анализировать происходящее в ИТ-системе компании. Это обусловлено возможностями решения. Еще одна особенность продукта — он дает возможность анализировать данные в реальном времени. У него также гибкая система разделения прав на доступ к данным: какими-то могут оперировать все, другими — скажем, персональными данными — только уполномоченные на это люди. Кроме того, система обладает большой библиотекой средств машинного обучения, благодаря которым можно создавать новые модели и обучать средства анализа данных.

— В Mars уже был опыт работы со этим ПО?

Но мы в IT Operations, отделе управления инфраструктурой, видели ее огромные возможности и для себя, и для бизнеса. Да, облачная версия, которая используется глобальным отделом безопасности с 2014 года. И в 2016 году по согласованию с «безопасниками» подключились в Splunk и стали его использовать.

Они от этого тоже выиграли — у Splunk стало больше источников данных, а значит, появилось больше разнообразной информации для анализа.

Мы же получили возможность мониторить все происходящее в ИТ-системе на уровне инфраструктуры и приложений и выводить результаты анализа на дашборды, настраиваемые информационные панели.

— Насколько гладко происходил перенос функциональности на новые сферы?

Конечно, были проблемы, связанные и с особенностями продукта, и с особенностями нашего бизнеса.

Основная сложность заключалась в том, чтобы «научить» работать с системой анализа машинных данных приложения, которые не поддерживаются ее стандартными средствами.

Пережиток прошлого века, можно сказать. У любой большой компании с длинной историей есть свои системы сбора и анализа, какие-то самописные, какие-то просто уже не поддерживаются их разработчиками, но отказаться от них нельзя. И данные из «систем XX века» сделать полностью пригодными для «систем XXI века» оказалось нелегко. Мы в этом отношении не уникальны.

С одной стороны, Splunk дает много информации, опираясь на которую уже второй уровень поддержки способен понимать, что случилось с тем или иным элементом инфраструктуры или приложением, и решать проблемы до того, как придется задействовать экспертные центры. Также пришлось поработать над разграничением доступа к данным. Splunk позволяет настроить гибкую систему ролей, однако, для того чтобы ею воспользоваться, надо провести тщательный анализ, создать «матрицу данных», определить, какие из них можно предоставлять всем, какие — нет. С другой — к «чувствительным» данным, например к персональным, доступ надо давать не всем.

В них часто попросту нет «главного по данным», который может определить, кому что должно быть доступно. Это особенно важно компаниям, которые растут быстро и стихийно, например стартапам.

И тут необходимо решить, что важнее — мониторинг или анализ. Еще одна проблема в том, что если все начинают писать запросы к аналитической системе, то какое бы мощное облако у вас ни было, какой бы широкий канал ни соединял с ним, система начнет подтормаживать.

Мы решили, что для нас важнее мониторинг, а ресурсы для анализа предоставляются во вторую очередь.

Для решения этой проблемы в начале прошлого года мы начали процесс создания экспертного центра, подключили партнера. При этом не все пользователи достаточно хорошо знают внутренний язык системы, и поэтому их разработки могут создавать проблемы с производительностью Splunk. Таким образом, мы оставляем за бизнес-пользователями право создавать себе средства аналитики, ведь кто как не они эксперты в своей функциональной области, а технические специалисты поддерживают эффективность работы системы в целом. Его сотрудники помогают нам отслеживать плохо написанные дашборды и улучшать их.

— К каким улучшениям привел проект?

Главное то, что мы смогли сократить время реакции на инциденты до нескольких минут и снизить количество критических инцидентов, которые возникают с этими системами.

Если раньше сотрудники, отвечающие за работу инфраструктуры и приложений, замечали, что что-то случилось, то, чтобы разобраться в происходящем, им приходилось обращаться в разные экспертные центры, потому что у них не было необходимого уровня доступа к этим приложениям.

Сейчас они видят все, что происходит в приложении, и сразу понимают, в чем проблема и чем она вызвана.

Это позволяет нам реагировать проактивно, до того, как что-то действительно произошло в системе. Мы отслеживаем аномальное поведение приложений и инфраструктуры и теперь можем не просто анализировать сбои постфактум, а также использовать собранные данные для того, чтобы учить системы предугадывать сбои. При этом более эффективные средства мониторинга позволили сократить количество людей, занятых на данной операции, и использовать освободившихся сотрудников для решения других задач.

В больших распределенных корпорациях нередко несколько отделов работают одновременно над одними и теми же приложениями. Еще одно достоинство продукта — наличие средств выявления неавторизованных изменений. Splunk позволяет создать дашборды, с помощью которых можно видеть все отклонения в поведении систем. Бывает, что не все изменения своевременно отслеживаются, и порой это приводит к большим проблемам.

Но если бы я делала все сначала, я какие-то вещи сделала бы по-другому. Это, наверное, самое важное, что мы получили от внедрения.

— Например?

В первую очередь мы бы сразу обратились к партнерам и возложили на них текущую поддержку системы, а сами бы работали над стратегией и внедрением новых возможностей.

И привлекла бы специалистов по машинному обучению. Кроме того, при наличии ресурсов, я создала бы команду, которая сфокусировалась бы на изучении и внедрении лучших практик в конкретной области.

Мы же делали все сразу — и подключали новые источники данных, и новых пользователей, и создавали новые дашборды. Мы могли бы более разумно распределить нагрузку по этапам. При том, что нас было всего трое.

И, конечно, надо было сразу документировать все наши шаги. Сейчас мы все делали бы с большим пониманием того, для чего добавляются новые источники данных и новые дашборды, что мы получим от каждого такого действия.

Ведь мы были пионерами, даже в мировом масштабе, попробовали применить Splunk за пределами сферы безопасности, мы не могли опираться на чей-либо опыт, набили все возможные шишки в этом процессе. Но тогда мы были очень увлечены процессом создания.

Но, когда систему начали использовать для работы с ИТ-инфраструктурой, стало понятно, что ее недостаточно. Например, сначала мы интегрировали ITSM-решение ServiceNow с помощью стандартных возможностей Splunk. Если бы сразу пошли по этому пути, сэкономили бы время и силы. И мы создали свою собственную.

— Традиционный вопрос — о чем вы хотите рассказать на конференции?

О том, что внедрение покажет вам достоинства и недостатки ваших методов работы с данными, вашей организационной структуры, ваших подходов к бизнесу. В первую очередь о том, что какой бы у вас ни был великолепный инструмент, его возможности не раскроются, если вы не готовы в него инвестировать, причем речь не только о деньгах. И только работа над этими уроками позволит вам действительно получить выгоду от внедрения. Выбирая систему и внедряя ее, вы получите важные уроки.

— А о чем вы сами хотите услышать на ней?

Я хочу посмотреть, как другие корпорации получают выгоду от внедрения различных средств, сравнить время и силы, которые они тратят на это внедрение, с тем, какую пользу они получают на выходе. Мне интересно узнать о работе других компаний, с другими системами.

Оставить комментарий

Ваш email нигде не будет показан
Обязательные для заполнения поля помечены *

*

x

Ещё про высокие технологии

Intel обещает перейти на 10 нм в 2019 году

С переходом на более совершенные технологические процессы микросхемы становятся дешевле и лучше для всех — но в наибольшей степени от этого выигрывает сама Intel В следующем году корпорация планирует наладить выпуск процессоров с архитектурой Sunny Cove. Наряду со стандартным улучшением ...

«Ситимобил» и «Яндекс.Такси» оснастят московские такси идентификационными элементами

Источник: "Яндекс.Такси" 14:55 17.12.2018 |   145 прочтений У каждого автомобиля появятся оранжевый опознавательный фонарь на крыше, цветографическая схема с шашечками на кузове и табличка с информацией о перевозчике в салоне.   машин такси, рассказали в компаниях. Онлайн-сервисы «Ситимобил» и «Яндекс.Такси» оснастят ...