Главная » IT-индустрия » «Хьюстон, у нас проблемы!»

«Хьюстон, у нас проблемы!»

Какие сложности существуют в области аналитики данных и как они решаются на практике.

 

Основные проблемы, которые сейчас встают перед компаниями, заключаются в своевременном и качественном анализе поступающих со все большей и большей скоростью все больших и больших объемов неструктурированных данных

Например, у российских компаний, по данным исследования IDC и Hitachi Vantara, на данный момент крайне востребованы анализ транзакционных данных (61%), клиентская (52%) и потоковая (51%) аналитика. Цифровые технологии и аналитика позволяют бизнесу в разы увеличить эффективность своей работы. Попробуем разобраться, какие проблемы возникают при работе с большими данными и какие решения следует принимать для их ликвидации. При этом подавляющее большинство организаций все еще не в состоянии извлекать выгоду из растущего потока данных, а следование стратегиям конкретных успешных проектов не всегда приводит к положительным результатам.

Героиня эпизода, одна из команды исследователей, сетует, как она была наивна, полагая прежде, что дело не займет много времени: ежедневно к ним возвращаются сотни дронов с информацией, которая в лучшем случае будет обработана через несколько лет. В фантастическом романе Кристофера Приста «Островитяне» описаны попытки жителей планеты с бесчисленным множеством островов, очертания которых невозможно увидеть с большой высоты, создать карту архипелагов с помощью информации, поступающей от дронов.

Условно их можно свести к «трем V»: слишком большой объем (volume), возникающий со слишком большой скоростью (velocity), очень разнородный по структуре (variety). Этот эпизод служит наглядной иллюстрацией к целому ряду проблем, связанных с появлением в нашем мире больших данных. Основные проблемы, которые сейчас встают перед компаниями, заключаются в своевременном и качественном анализе поступающих со все большей и большей скоростью все больших и больших объемов неструктурированных данных.

Однако в век информационных технологий рост объема обретает поистине колоссальный размах: практически все, что происходит в мире, снимается на камеры, фиксируется разнообразнейшими датчиками — и превращается в петабайты информации. Впрочем, о «появлении» больших данных говорить не совсем корректно: данные появлялись всегда, и каждой эпохе рано или поздно приходилось что-то придумывать, чтобы переварить объем информации. Эти петабайты и были названы большими данными.

Проблемное поле

Например, рост объема данных отмечают 78% респондентов (в ходе исследования были опрошены крупнейшие организации, штатная численность сотрудников в которых составляет 500 и более человек). Данные совместного исследования IDC и Hitachi Vantara показывают, что курс на аналитику данных есть не только у зарубежных, но и у российских компаний. п. При этом основными «поставщиками» данных считаются не внешние источники, как было принято думать раньше, а внутренние: рабочие переписки, различные бизнес-приложения, сервисы и т.

Обнаружить значимую информацию в огромном массиве данных стало одной из проблем больших данных, а получение новых знаний теперь зависит от правильного анализа. Анализ данных таких объемов требует высокопроизводительных вычислений, а значит, привлечения новых технологий и средств для их реализации. Что, учитывая запросы потребителей, рано или поздно приведет к уходу с рынка. Компания, которая неправильно анализирует данные, может получить негативный опыт и решить, что ей это не нужно.

Хороший пример приводит экономист, биржевой трейдер Нассим Талеб: «Если взять набор из случайно выбранных 200 переменных, которые никак не связаны между собой, и присвоить им 1000 информационных параметров, то будет практически невозможно не найти при дальнейшем анализе какое-то количество статистически обоснованных корреляций. Анализ больших данных связан еще с одной проблемой: чем больше данных, тем выше вероятность найти между ними ошибочные статистические связи, между тем как на самом деле эти совпадения случайны. Но на самом деле эти корреляции будут ложными, поскольку никакой связи между переменными никогда не было».

Предприниматель может собрать целую команду экспертов, чтобы те находили верные связи и производили точный анализ, и они займутся этим с рвением профессионалов. Есть и еще один вариант развития событий. В статье Леандро Далле и Томаса Дэвенпорта «Какова ваша стратегия данных» утверждается, что организации активно используют при принятии решений менее 50% структурированных данных и менее 1% неструктурированных данных анализируется или используется в целом. Однако сплошной анализ всех поступающих данных не приведет ни к чему, если его не направлять, соотнося с целями бизнеса, а это уже задача руководителя.

Рост объема данных отмечают 78% опрошенных представителей крупнейшх российских организаций

Обработка таких наборов данных происходит обычно в режиме поэтапного аналитического конвейера, включающего стадии преобразования и интеграции данных. На практике данные поступают в разных форматах и зачастую распределены между несколькими источниками хранения информации. Неструктурированные данные растут гораздо быстрее структурированных, а актуальность их обработки признают 85% российских компаний. Разнообразие форматов данных само по себе создает проблемы даже при не очень большом объеме, что способствует разработке соответствующих архитектур. На этой технологии, например, основан программно-аппаратный комплекс SAP HANA, позволяющий функционировать на данной платформе любым классам приложений. Обрабатывать их лучше всего с применением технологии in-memory.

Нежелание руководителей внедрять новые модели обработки информации приводит к торможению инфраструктуры и обессмысливанию нововведений. Еще одной распространенной ошибкой предприятий, решившихся окунуться в большие данные, стали попытки работы с ними на устаревших платформах. Однако такая точка зрения экономически невыгодна, и руководителям следует быть более гибкими в отношении поддерживаемых технологий, тем более, что создаваемые платформы специально разрабатываются для успешного развития бизнеса. Понять такое нежелание нетрудно: стоит сменить наработанную технологию, как «придумают что-нибудь еще». Многие современные технологии позволяют организовать сбор больших массивов данных в режиме реального времени, сохраняя при этом возможность работы с ними «на лету» и снижая вероятность их потерь.

Дело в том, что со временем аналитика данных становится все более востребованной не только у отдельного подразделения, которое занимается, к примеру, разработкой стратегии предприятия, но и у всех сотрудников в целом. Как отмечено в исследовании IDC и Hitachi Vantara, сейчас компании испытывают потребность в удобных и простых решениях. Ожидается, что в дальнейшем эта тенденция сохранится. В связи с этим решения, позволяющие анализировать данные, должны быть доступны специалистам, у которых нет навыков работы в ИТ.

Есть ли решение?

— Проблему объема решает хранилище объектов, не связанное с каталогами и потому безграничное. «Современные технологии уже справились с проблемами всех "трех V", — уверен Алексей Никифоров, руководитель подразделения технологических решений Hitachi Vantara. Вместе с Hitachi Content Intelligence она обеспечивает интеллектуальное генерирование и сохранение метаданных». Так, например, Hitachi HCP (Hitachi Content Platform) может масштабировать объем данных во внутренних и внешних системах хранения, позволяет хранить множество неструктурированных данных, обеспечивает полностью интегрированный поиск метаданных по всем ресурсам данных с функцией классификации, обогащения и анализа всех имеющихся данных.

В сравнении с ним HCP имеет более гибкие варианты хранения и обеспечивает более низкие затраты, а скорость обработки достигается с помощью виртуализации: благодаря сотрудничеству с Alluxio, HCP использует свою виртуальную распределенную файловую систему для доставки сертифицированного решения, упрощающего задачи подключения больших приложений данных, подобных Hadoop. Поскольку интернет-протокол, используемый в системах хранения, не может обрабатывать данные так же быстро, как напрямую вложенные файловые или блок-системы, крупные аналитические системы, такие как Hadoop или ETL, передавали данные на обработку в файловую систему, и Hadoop стал популярен среди крупных предприятий, несмотря на высокую стоимость хранения данных и исходящую из избыточности данных отказоустойчивость. Такая система значительно снижает затраты на хранение и предоставляет более быстрый доступ к данным.

Уже сейчас становится очевидным, что бизнес стремится создать глобальную структуру данных, которая смогла бы обеспечить полный доступ к данным из разных источников и многопользовательских систем. Понятно, что при работе с устаревшей инфраструктурой ни на какую слаженность и быстроту операций с большими данными рассчитывать не приходится. Поэтому для руководителей предприятий крайне важно уже сейчас внедрять новейшую инфраструктуру и учиться разбираться в этих сложных и важных для цифровых компаний процессах. Многие эксперты в ближайшее время ожидают семикратного роста сегмента аналитики данных сравнительно со сферой ИТ в целом.





Оставить комментарий

Ваш email нигде не будет показанОбязательные для заполнения поля помечены *

*

x

Это интересно

В Минкомсвязи призвали к демонополизации мирового рынка ПО

Источник: minsvyaz.ru 13:29 14.06.2019 |   195 прочтений Встреча министров по цифровым технологиям G20 прошла в преддверии саммита лидеров G20, который состоится 28-29 июня 2019 года в Осаке.   Он призвал развивать конкуренцию на мировом рынке программного обеспечения и предложил использовать телекоммуникационную ...

Минкомсвязь изучит безопасность Интернета вещей

6-8 июня в России состоялся Петербургский международный экономический форум Источник: Минкомсвязь 13:50 14.06.2019 |   157 прочтений Интернет вещей позволит собирать, анализировать данные и принимать решения на их основе практически в режиме реального времени.   Исследование проведут в рамках национальной программы «Цифровая ...