Главная » IT-индустрия » Summit: как рождается новый лидер рейтинга суперкомпьютеров

Summit: как рождается новый лидер рейтинга суперкомпьютеров

Создатели самой быстрой на планете вычислительной системы правильно предсказали рост потребности в вычислениях, ориентированных на обработку данных, но не учли погодные факторы, из-за которых возникли проблемы с доставкой ключевых компонентов суперкомпьютера.

 

Но при этом не смогла спрогнозировать сбои, возникшие при доставке ключевых компонентов из-за неблагоприятных погодных условий. Команда, разработавшая новый суперкомпьютер Summit для Национальной лаборатории министерства энергетики США в Окридже, правильно предсказала рост потребности в вычислительных мощностях, ориентированных на обработку данных.

Причем его создателям пока удается укладываться в отведенные сроки. Тем не менее, спустя почти четыре года после того, как корпорация IBM выиграла контракт на строительство суперкомпьютера рекордной вычислительной мощности, он практически готов. Научный директор Oak Ridge Leadership Computing Facility Джек Уэллс ожидает, что полноценная эксплуатация машины с производительностью в 200 PFLOPS начнется в первые недели следующего года.

«Это самый большой и мощный на сегодняшний день в мире суперкомпьютер для научных исследований», – указал он.

Обычно в этой сфере все начинается с моделирования и определения набора начальных условий, а на пути к решению генерируются огромные объемы данных. Summit разрабатывался для решения сложных задач, в том числе сейсмологических, климатических и задач ядерной физики.

Одним из примеров здесь являются исследования в области генома, другим – проблемы машинного обучения. Впрочем, создатели Summit предусмотрели и решение ряда других вычислительных задач с выжимкой полезной информации из уже собранных данных.

Summit

Каждый из 4600 узлов Summit укомплектован двумя процессорами IBM Power9 и шестью графическими процессорами Nvidia Tesla V100
Источник: Oak Ridge National Laboratory

– В настоящее время заявки на использование Summit поступили от участников сразу десяти проектов глубинного обучения, тогда как еще несколько лет назад у нас не было ни одного проекта подобного рода». «Вероятность роста востребованности приложений с интенсивной обработкой данных мы спрогнозировали заранее… и в итоге это действительно произошло, – добавил Уэллс.

(Суперкомпьютер работает под управлением ОС Red Hat Linux.) Особенности архитектуры Summit – распределение памяти между процессорами и возможность выполнения больших объемов вычислений с пониженной точностью – как нельзя лучше подходит для решения таких задач.

Созданная система необычна и в других отношениях.

Если показатели быстродействия будут соответствовать прогнозам, Summit возглавит мировой рейтинг суперкомпьютеров Top500 с пиковой производительностью в 200 PFLOPS или 200 миллионов миллиардов операций с плавающей точкой в секунду.

Вместо 64-разрядной арифметики двойной точности с плавающей точкой, применяемой сегодня, как правило, при научном моделировании, расчеты будут выполняться с использованием 16-разрядной арифметики с плавающей точкой половинной точности. По другим оценкам, производительность Summit может превышать 1,88 эксафлопс или 1,88 миллиардов миллиардов операций с плавающей точкой в секунду. Этого вполне достаточно для большинства вычислений, применяемых при глубинном обучении и исследовании генома.

Но если каждый из 18 688 узлов Titan был оснащен только одним центральным процессором AMD Opteron и одним графическим процессором Nvidia Kepler, то 4600 узлов Summit оборудованы двумя процессорами IBM Power9 и шестью графическими процессорами Nvidia Tesla V100. Число вычислительных узлов у Summit значительно меньше, чем у машины Titan (получившей звание самого быстрого в мире суперкомпьютера в ноябре 2012 года), на смену которой должен прийти новый суперкомпьютер. Эти чипы позволяют эффективно управлять вычислениями с различными уровнями точности.

С точки зрения программиста, эта память делится между центральными и графическими процессорами и может быть использована в качестве единого блока, что способствует повышению скорости выполнения операций. Каждый из узлов имеет свою оперативную память: 512 Гбайт DDR4 RAM для Power9, 96 Гбайт HBM2 (High Bandwidth Memory) для V100 и 1,6 Тбайт в качестве буфера.

Однако все узлы физически идентичны, поэтому необходимости в перекрестной компиляции заданий для разных целей нет. Все узлы подразделяются на три категории: узлы входа для компиляции кода и отправки заданий, узлы запуска для выполнения пакетов и вычислительные узлы, на которых производятся сложные вычислительные операции.

Коммутаторы имеют трехуровневую неблокирующую топологию толстого дерева. Связь между узлами поддерживается с помощью сети EDR InfiniBand с двухсторонней пропускной способностью в 23 Гбайт/с для каждого узла. Это означает, что любые два узла обмениваются данными с максимальной скоростью независимо от того, что в это время делают другие узлы.

Примерно в те же сроки, когда IBM получила от минэнерго США заказ на развертывание Summit в Окридже, ей было поручено построить еще один суперкомпьютер, Sierra, для Национальной лаборатории Лоуренса в Ливерморе.

Особенности развертывания двух этих суперкомпьютеров имеют одно важное отличие: если в Ливерморе используется традиционная конструкция поднятого фальш-пола, то в Окридже электроэнергия и вода для охлаждения подаются сверху.

«Нам пришлось переориентировать систему и шкафы, с тем чтобы приспособиться к особенностям лаборатории в Окридже», – сообщил вице-президент IBM Systems по разработкам и проектированию Уэйн Хауэлл.

Это означало, что всю инфраструктуру – стойки, средства охлаждения, сеть – необходимо было смонтировать еще до доставки первого узла.

«Если бы мы попытались выстраивать инфраструктуру одновременно с подключением вычислительных мощностей, все закончилось бы полным хаосом», – подчеркнул Хауэлл.

При этом важную роль приобретал быстрый монтаж узлов за относительно короткий период времени.

«Одна из сложностей заключалась в том, что при доставке и монтаже оборудования нам нужно было исключить простои», – пояснил Хауэлл.

(Узлы планировалось устанавливать, когда в Северной Америке зима – с четвертого квартала 2017 года по первый квартал 2018-го.) На ход выполнения работ могли повлиять, например, поломки трейлеров или плохие погодные условия.

В результате задержка на маршруте протяженностью в тысячи километров составила всего несколько часов. Когда транспортная авария привела к тому, что часть серверов застряла где-то между производственными подразделениями IBM в Калифорнии и лабораторией в штате Теннесси, было принято решение отправить другой трейлер на выручку сломавшемуся, с тем чтобы не ждать следующей поставки.

А когда движению грузовиков помешали морозы и снежные бури, IBM арендовала чартерные авиарейсы.

– Но некоторые из компонентов по своим размерам оказались весьма велики, и нам пришлось арендовать авиатранспорт большой вместимости. «При доставке по территории США мы старались осуществлять перелеты, а не переезды, с тем чтобы наверстать упущенное время, – сообщил Хауэлл. Представьте себе все эти тюки и прочую упаковку. С поставкой серверов была связана и другая проблема. И мы были вынуждены отправлять упаковку обратно на одном из грузовиков, перевозившем серверы. В Окридже просто не нашлось достаточного количества ресурсов для ее утилизации. Сейчас мы продолжаем развертывать системное программное обеспечение. Последнюю порцию оборудования доставили в марте. А полноценная эксплуатация должна начаться в январе 2019 года». Приемочные испытания планируется завершить летом.





Оставить комментарий

Ваш email нигде не будет показанОбязательные для заполнения поля помечены *

*

x

Это интересно

RPA 2022: Найти место для робота

На конференции по роботизации процессов, ставшей центральным событием года, обсудили допустимые места применения технологии RPA и поделились лучшими практиками ее использования. Конференция «Роботизация бизнес-процессов — 2022», организованная издательством «Открытые системы», уже в четвертый раз собрала на одной площадке экспертов-практиков, пользователей ...

Как подобрать коммутатор?

Одной из инновационных разработок, что в настоящее время не только упрощает, но и снижает затраты, является poe коммутатор, где передача данных и питания, осуществляется при помощи всего одного кабеля Ethernet. По сравнению с другими аналогичными устройствами, данные конструкции имеют ряд ...