Главная » IT-индустрия » Графические процессоры Nvidia добавят ЦОДам интеллекта

Графические процессоры Nvidia добавят ЦОДам интеллекта

Процессоры Tesla T4 появятся в продуктах Google и получат поддержку со стороны Cisco, Dell EMC, Fujitsu, HPE, IBM, Oracle и SuperMicro.

 

Процессор T4 был создан на основе архитектуры Turing и, наряду с новым программным обеспечением, предназначен для значительного ускорения обработки изображений и речи, перевода на другие языки и выдачи рекомендаций. Компания Nvidia активизирует свои усилия рынке оборудования для ЦОДов, повышая эффективность решения различных задач искусственного интеллекта с помощью графического процессора Tesla T4.

T4 является важным компонентом новой платформы Nvidia TensorRT Hyperscale Inference Platform – платы ускорителя, которая, как ожидается, начнет поставляться крупным производителям серверов для ЦОДов в четвертом квартале.

Ядра Turing Tensor Cores T4 поддерживают вычисления с различными уровнями точности в приложениях искусственного интеллекта, а также в крупных программных платформах (включая TensorFlow, PyTorch, MXNet, Chainer и Caffe2) для так называемого глубинного обучения – машинного обучения в многоуровневых, или глубоких, нейронных сетях.

– Tensor Core – это результат полного переосмысления нами концепции графических процессоров. «Графический процессор Tesla T4 построен на основе архитектуры Turing, которая совершит революцию в области искусственного интеллекта в ЦОД, – указал генеральный директор Nvidia Дженсен Хуанг, представляя новый графический процессор и платформу на конференции GTC в Токио. Фактически мы изобрели графический процессор заново».

Параллельные вычисления в сочетании с высокой вычислительной мощностью графических процессоров Nvidia способствуют тому, что эта технология уже много лет применяется при решении задач искусственного интеллекта, особенно при обработке данных в процессе машинного обучения. Благодаря своей массово-параллельной архитектуре графические процессоры хорошо подходят для решения задач искусственного интеллекта. По сути, именно она способствовала созданию моделей нейронных сетей глубинного обучения.

Обработка с различными уровнями точности

Способность процессоров T4 обеспечивать обработку с различными уровнями точности выгодно отличает их от графических процессоров Nvidia P4 на базе архитектуры Pascal.

И если для обучения нужны интенсивные вычисления, то для логического вывода в реальных приложениях от процессора требуется максимальная гибкость. После обучения на больших наборах данных нейронные сетевые модели помещаются в приложения, которые выполняют классификацию данных и выдачу результата на основе правил логического вывода.

Это позволяет увеличить производительность и сократить энергопотребление. В идеале обработка на каждом уровне нейронной сети должна выполняться с минимально подходящей для него точностью.

– T4 работает по меньшей мере в восемь раз быстрее, чем P4, а в некоторых ситуациях он оказывается быстрее уже в 40 раз». «Создавая архитектуру, обеспечивающую различную точность вычислений, мы добиваемся максимизации соответствия решаемой задаче и пропускной способности, затрачивая на все это 75 ватт мощности, – пояснил Хуан.

По оценкам Nvidia, рынок отрасли искусственного интеллекта и логического вывода в ближайшие пять лет достигнет 20 млрд долл. Потребность в логическом выводе быстро растет, поскольку современные ЦОДы имеют дело с широким спектром приложений, обрабатывающих миллиарды голосовых запросов, переводов фраз, изображений и видеороликов, рекомендаций и операций взаимодействия в социальных сетях. При этом разным приложениям в нейронной сети требуются разные уровни обработки.

– С новой платформой логического вывода Nvidia высоко подняла планку технологий искусственного интеллекта для ЦОДов». «Никто не хочет выполнять 32-разрядные вычисления с плавающей точкой там, где приложению достаточно 16-разрядных вычислений, – пояснил основатель аналитической компании Moor Insights & Strategy Патрик Мурхед.

Что представляет собой TensorRT Hyperscale Inference Platform?

В состав платформы TensorRT Hyperscale Inference Platform, реализованной в виде небольшой платы PCIe, которая потребляет 75 ватт, входят:

  • Графический процессор Nvidia Tesla T4, имеющий 320 ядер Turing Tensor и 2560 ядер CUDA (Compute Unitfied Device Architecture). CUDA – это язык программирования Nvidia, ориентированный на параллельную обработку. T4 поддерживает 16-ти и 32-разрядные операции с плавающей точкой (FP16 и FP32), а также 8-ти и 16-разрядные операции целочисленной арифметики (INT8 и INT16). Пиковая производительность T4 при выполнении операций FP16 составляет 65 TFLOPS, при выполнении операций INT8 – 130 TFLOPS и при выполнении INT4 – 260 TFLOPS.
  • TensorRT 5 – оптимизатор логического вывода и исполняемая среда для глубинного обучения, которые обеспечивают высокопроизводительный логический вывод с низкими задержками, быструю оптимизацию, проверку и развертывание обученных нейронных сетей в ЦОД гипермасштаба для встроенных или автономных платформ графических процессоров. Уже реализована поддержка TensorFlow, MXNet, Caffe2 и Matlab, а также других платформ через ONNX (Open Neural Network Exchange).
  • TensorRT Inference Server – сервер логического вывода для ЦОДов, доступный из Nvidia GPU Cloud. Он предназначен для обучения с вертикальным масштабированием, развертывания систем логического вывода в многооблачных кластерах графических процессоров и интеграции с Kubernetes и Docker, позволяя разработчикам автоматизировать развертывание, планирование и выполнение операций множества контейнеров приложений GPU в кластерной среде.

Ключевая задача – поддержка ПО

– Запустив свои уже готовые нейронные сети, клиент может взять обучающие модели и развернуть их в тот же день». «Мы продолжаем инвестировать в оптимизацию всего нашего программного стека с самого низа, используя доступные платформы, – отметил вице-президент подразделения Nvidia Accelerated Computing Иан Бак.

Программируемые FPGA позволяют разработчикам осуществлять тонкую настройку точности вычислений для различных уровней глубинных нейронных сетей. В области логического вывода компания Nvidia конкурирует с другими производителями микросхем FPGA (field programmable gate array), в частности, с Xilinx. На протяжении многих лет настройка FPGA выполняется с помощью языков Hardware Description Languages (HDL), а не языков высокого уровня, которые применяются для других чипов. Но микросхемы FPGA требуют от программистов дополнительной подготовки.

FPGA готовы конкурировать с GPU

Поставки первой версии ACAP, разрабатывавшейся под кодовым наименованием Everest, должны начаться в следующем году. В марте компания Xilinx представила новую категорию продуктов – Adaptive Compute Acceleration Platform (ACAP), – которая поддерживает более широкий спектр программного обеспечения по сравнению с традиционными FPGA. д. В Xilinx заявляют, что разработчики программного обеспечения смогут обращаться к Everest с использованием различных инструментов: Си/C++, OpenCL, Python и т. Everest поддерживает программирование и на аппаратном уровне регистровых передач (register-transfer level, RTL) с использованием таких инструментов HDL, как Verilog и VHDL.

Поддержка программного обеспечения, предлагаемая графическими процессорами T4 в сочетании с возможностью организации вычислений различной точности, должна укрепить позиции Nvidia как в обучении, так и в логическом выводе для приложений искусственного интеллекта.

– Замеры проводятся на реальных производственных нагрузках под наблюдением наших клиентов. «Мы убеждены в том, что в нашем распоряжении имеется самая эффективная на сегодняшний день платформа логического вывода, – заявил Бак. Фактически все производители серверов, использующие сегодня графические процессоры P4, к концу года перейдут на T4». Мы взаимодействуем с ними на всем пространстве нашего стека сверху донизу, чтобы предлагать не только лучшие средства обучения, но и лучшую платформу логического вывода.

На конференции в Токио о своих намерениях поддерживать T4 заявил целый ряд производителей систем для ЦОДов, в том числе Cisco, Dell EMC, Fujitsu, HPE, IBM, Oracle и SuperMicro.

О планах использования T4 сообщили и в Google.





Оставить комментарий

Ваш email нигде не будет показанОбязательные для заполнения поля помечены *

*

x

Это интересно

IDC: К 2025 году совокупные «облачные» расходы достигнут 1,3 триллиона долларов

В мире, основанном на цифровых технологиях, результаты бизнеса все больше зависят от способности как можно быстрее создавать и использовать инновации в любом удобном месте За последнее десятилетие облачные вычисления стали основой для предоставления мобильных сервисов и контента, а также альтернативой ...

Apple закончила очередной квартал с очередным рекордом

В то же время компания не оправдала ожиданий по квартальной выручке впервые с 2018 года, заработала меньше из-за дефицита чипов и перебоев в производстве. Apple представила результаты за четвертый финансовый квартал 2021 года (у компании он завершился 25 сентября). За ...