Интеграция FPGA в облачные сервисы и сетевую инфраструктуру

Интеграция FPGA в облачные сервисы и сетевую инфраструктуру

№ 7’2020
PDF версия
Прошло немало времени с того момента, как простые FPGA, также известные как вентильные матрицы, были доступны в «сыром» виде. На протяжении многих лет Xilinx, Altera и другие производители FPGA добавляли в них аппаратные I P-ядра для определенного функционала, которые в противном случае могли быть синтезированы из логических вентилей. На данный момент FPGA представляют собой полноценную систему на кристалле, содержащую все типы вычислительных ресурсов, память, а также ресурсы межсоединений, обеспеченные транзисторами этих устройств.

Компании занимаются разработкой этих гибридных вычислительных устройств не потому, что им нравится решать сложные задачи, а скорее потому, что клиенты желают использовать наиболее производительные устройства с гибкими вычислительными возможностями, которые присущи FPGA (ПЛИС — программируемые логические интегральные схемы) и совмещают простоту программирования с высокой скоростью блоков, как у ASIC. Непросто обеспечить этот баланс в рамках одного устройства, а тем более линейки устройств, предназначенных для различных сфер ИT. По этим причинам последние устройства Xilinx («проект Everest», серийные микросхемы получили название Versal), чей выпуск начался в октябре 2018 года, называют адаптивными платформами ускорения вычислений, или ACAP. Мы сомневаемся, что новое наименование будет признано клиентами и что они не будут по-прежнему называть устройства схемами FPGA. Самое главное здесь то, что Xilinx удалось выпустить более производительные FPGA Versal в дополнение к основанным на «стандартных» FPGA устройствам из линейки Alveo.

Дорожная карта Xilinx

Рис. 1. Дорожная карта Xilinx

Устройства Versal AI Core и Versal Prime стали первыми в линейке появившимися в продаже в середине прошлого года, а новый продукт Versal Premium, усовершенствованная версия Versal Prime, способен справляться с более высокими нагрузками дата-центров. Он является наследником FPGA Zynq UltraScale+, созданной Xilinx несколько лет назад. Устройства Versal Premium предназначены для увеличения производительности общедоступных и закрытых облачных сервисов, способны справляться с широким спектром рабочих нагрузок в составе различных вычислительных, накопительных или сетевых узлов, обладают большей вычислительной мощностью, чем Versal Prime или Virtex UltraScale+. Микросхемы Versal Premium предназначены для использования в составе базовых и региональных сетей, а также в приложениях доступа, метро, сетях телекоммуникаций и в сфере поставщиков услуг. Однако мощные устройства Versal (табл. 1) по-прежнему не поддерживают память HBM. Согласно дорожной карте Xilinx (рис. 1), запуск Versal HBM запланирован на 2021 год или немного более позднее время.

Таблица 1. Характеристики семейств линейки Versal

Семейство Versal

Основной рынок

Ключевая особенность

Versal AI Core

Дата-центры, системы беспроводной связи

Высокопроизводительный вычислительный модуль с блоками искусственного интеллекта

Versal AI Edge

Автомобильные, беспроводные, широковещательные системы, аэрокосмическая и военная промышленность

Модуль с блоками искусственного интеллекта для встроенных устройств с малым энергопотреблением для работы в жестких тепловых условиях (до 5 Вт)

Versal AI RF

Беспроводные и проводные системы, аэрокосмическая и военная промышленность

Встроенный радиочастотный тракт и ядра помехозащищенного кодирования

Versal Prime

Дата-центры, проводные системы

Базовая платформа со встроенной оболочкой

Versal Premium

Проводные системы, средства измерений и испытаний

Платформа премиум-класса с максимально адаптируемыми модулями, 112G SerDes и 600G Integrated IP

Versal HBM

Дата-центры, проводные системы, средства измерений и испытаний

Платформа премиум-класса с HBM

По словам Майка Томпсона, старшего менеджера по линейке высокопроизводительных FPGA и ACAP в Xilinx, базовая коммуникационная сеть станет крупнейшим потребителем устройств Versal Premium. Согласно данным из отчета Global Interconnection Index 2019, представленного оператором центра обработки данных Equinix, в период с 2018 по 2022 год требования к полосе пропускания в базовой сети ежегодно будут увеличиваться на 51% (с учетом совокупного годового темпа роста) и достигнут 13 300 Тбит/с во всем мире. Большую часть базовой сети (свыше 50%) станут использовать предприятия, остальная будет распределена между поставщиками услуг (рис. 2).

 Рост полосы пропускания по миру и по регионам

Рис. 2. Рост полосы пропускания: а) по миру; б) по регионам

«В настоящее время наблюдается взрыв данных по всем типам рабочих нагрузок, в связи с чем нагрузка на базовую сеть резко возросла. Теперь она включает дата-центры, базовые сети и общегородские сети, — сказал Томпсон представителям The Next Platform. — Возросшие требования к полосе пропускания обусловлены увеличением объемов передаваемых данных за счет потокового видео и корпоративных приложений, которые все в большей степени ориентированы на сверхкрупные дата-центры, интеллектуальные устройства с широкополосным подключением, а также IoT. Я работал в этой отрасли довольно долго и знаю, насколько сложно удовлетворить эти постоянно возрастающие потребности в пропускной способности. С появлением 5G эти требования возрастут в 100 раз на уровне доступа к сети, поскольку ожидается прирост количества устройств в сети и их пропускной способности соответственно. Это скорее даже весьма скромная оценка, и, возможно, реальные требования к пропускной способности могут увеличиться даже в 1000 раз».

По словам Томпсона, эта возрастающая потребность в обработке увеличивающихся объемов данных внутри сети и на уровне доступа и служит одной из основных движущих сил для развития отдела коммуникаций компании Xilinx.

Прежде чем мы углубимся в технические характеристики устройств линейки Versal Premium, которые будут доступны в первой половине 2021 года и предназначены для категории клиентов, нуждающихся в длительном времени для освоения новых технологий, рассмотрим общую архитектуру Versal (рис. 3). Далее обсудим различия между устройствами Premium и уже доступными на сегодня Prime и AI Core.

 Архитектура Versal

Рис. 3. Архитектура Versal

Микросхемы Versal характеризуются универсальностью применения: они поддерживают вычислительные элементы, память и сети различных типов в рамках одного устройства (рис. 4). Часть, отвечающая за выполнение операций по вычислению, содержит четыре ядра. Для скалярных вычислений используется два двухъядерных чипа: ARM Cortex-A72 и Cortex-A5F для тяжелых и более легких рабочих нагрузок соответственно. Так называемые интеллектуальные ядра — это аппаратные IP-ядра, например блоки DSP или Xilinx AI Engine, представляющие собой матричные блоки, используемые для вычисления нейронных сетей (логический вывод преимущественно на уменьшенной для повышения производительности разрядности). Основу функциональных возможностей FPGA составляют адаптивные ядра, включающие таблицы поиска (LUT), которые реализуют заданные разработчиком логические функции и могут быть сконфигурированы в качестве оперативной памяти LUT, встроенной в логику. Эту весьма полезную особенность LUT FPGA часто называют распределенной оперативной памятью. В составе адаптируемой логики содержится встроенная блочная оперативная память, а также более крупные блоки UltraRAM, инсталлируемые с 2016 года в устройства UltraScale+. Емкость блочной ОЗУ и UltraRAM устройства Versal Premium в совокупности обеспечивает пропускную способность в 123 Гбит/с внутри FPGA-матрицы. Для сравнения, внутренняя кэш-память графического ускорителя Nvidia Tesla V100 имеет суммарную пропускную способность 14 Тбит/с, а кэш-память ускорителя Tesla T4 — всего 5 Тбит/с. Речь идет не об общей пропускной способности кристаллов. По этому параметру победу, скорее всего, одержит Tesla V100, по крайней мере до момента выпуска Xilinx Versal с HBM-памятью.

Структура устройств Versal

Рис. 4. Структура устройств Versal

Теперь рабочие нагрузки, потребляющие до нескольких сотен мегабит памяти в FPGA-матрице, применяют аппаратные IP-ядра контроллеров памяти DDR4 в архитектуре Versal. Это в некоторой степени отличается от реализованных в программируемой логике контроллеров DDR, использованных в устройствах Xilinx предыдущих поколений, что приводит к нерациональному расходу LUT. Например, в Virtex UltraScale+ VU9P около трети ядер памяти LUT (примерно 200 000) предназначались для формирования четырех контроллеров DDR-памяти, а также контроллера PCI-Express plus DMA. В устройствах Versal Premium указанные контроллеры реализованы аппаратно и больше не используют LUT. В конечном итоге устройства Xilinx перейдут на использование памяти HBM.

Контроллер PCI-Express 5.0 обеспечивает поддержку DMA, а также протокола когерентности памяти ускорителя CCIX, который Xilinx продвигает на протяжении четырех лет и уже используемый командой ARM в качестве NUMA-соединения между процессорами, работающими на шине PCI-Express. Контроллеры PCI-Express 5.0 также будут использовать протокол Intel CXL для последовательного подключения ускорителей.

Устройства Versal также оснащены высоко-скоростными трансиверами (SerDes), поддерживающими передачу сигналов PAM4 на скорости 112 Гбит/с, которые могут применяться для поддержки протоколов Ethernet и Interlaken (оптимизированное межплатформное соединение на основе пакетов в коммуникационном оборудовании Cisco Systems и Cortina Systems, представленное еще в 2006 году). Как устройства Xilinx, так и продукты Intel/Altera поддерживают высоко-скоростные порты Interlaken в своих соответствующих FPGA, что позволяет им соединяться между собой способом, аналогичным (но с некоторыми отличиями) межсоединению NUMA в ЦП. Устройства Versal Premium содержат порты Ethernet и Interlaken на основе 112 Гбит/с SerDes, обеспечивающие пропускную способность до 600 Гбит/с. Микросхемы также поддерживают SerDes с пропускной способностью 32 Гбит/с передачей сигналов методом NRZ и SerDes с пропускной способностью 58 Гбит/с и передачей PAM4 сигналов на скорости до 58 Гбит/с. Порты 32 Гбит/с используются для портов Ethernet со скоростью 10–100 Гбит/с, а порты 58 Гбит/с — для реализации портов, работающих на скорости до 400 Гбит/с. Порты 112 Гбит/с предназначены для будущей 800-Гбит/с Ethernet-сети, а также для каналов Interlaken.

Поскольку устройства Versal Premium не предназначены для требующих высоких нагрузок задач машинного обучения (для этого Xilinx запустила линейку устройств Versal AI), они не содержат аппаратных IP-ядер искусственного интеллекта, но имеют аппаратные DSP-ядра. Также устройства Premium содержат криптографические ядра, обеспечивающие возможность шифрации/дешифрации данных со скоростью до 400 Гбит/с.

Предварительно настроенное подключение для быстрого выхода на рынок, соотношение мощность/характеристики класса ASIC

Рис. 5. Предварительно настроенное подключение для быстрого выхода на рынок, соотношение мощность/характеристики класса ASIC

Устройства Versal Premium предназначены для решения задач телекоммуникационной и коммуникационной сфер. Основная идея состоит в интеграции FPGA в сетевые решения от оконечного оборудования до оборудования базовых сетей с теми же базовыми аппаратными возможностями (безопасная скорость линии, возможности FPGA для машинного обучения, функционал обнаружения аномалий) и использовании среды проектирования FPGA Vitis на всех уровнях сети (рис. 5):

  • Ethernet 5 Тбит/с с масштабируемой пропускной способностью:
    • для инфраструктуры базовых сетей нового поколения 400G и 800G;
    • многоскоростные сети: 400/200/100/50/40/25/10G с упреждающей коррекцией ошибок;
    • мультипротокольные устройства: FlexE, Flex-O, eCPRI, FCoE, OTN.
  • Стандартное подключение Interlaken 1,8 Тбит/с:
    • масштабируемое соединение от чипа к чипу 10–600 Гбит/с;
    • интегрированный RS-FEC для усиленной коррекции ошибок.
  • Пропускная способность зашифрованной линии 1,6 Тбит/с:
    • единственное в мире криптографическое ядро с усиленной безопасностью 400G Crypto Engine;
    • AES-GCM-256/128, MACsec, IPsec.

Провайдеры связи и поставщики услуг испытывают давление с различных сторон. Внедрение 5G создаст нагрузку на базовую сеть, при этом площадь покрытия в точках подключения увеличена не будет. Таким образом, плотности полосы пропускания сети и количество вычислительных ресурсов возрастут, как и электрическая и тепловая эффективность. Пример использования сетевой линейной карты для FPGA Versal Premium показан на рис. 6.

Предварительно настроенное подключение для быстрого выхода на рынок, соотношение мощность/характеристики класса ASIC

Рис. 5. Предварительно настроенное подключение для быстрого выхода на рынок, соотношение мощность/характеристики класса ASIC

Теперь понятно, насколько хорошо себя проявили все компоненты устройства Versal Premium. На рис. 7 красная линия (путь А) показывает, как программируемая логика используется для реализации задач логического вывода в сетях искусственного интеллекта для определенных сетевых рабочих нагрузок:

  • Для дифференциации и проверки будущего:
    • платформа 7 нм с самой высокой в мире логической плотностью;
    • дифференцируемая, например внутриполосная сетевая телеметрия, vRAN;
    • адаптируется к развивающимся и устаревшим протоколам.
  • ИИ для обнаружения сетевых аномалий:
    • обнаружение вторжений и вредоносных программ;
    • адаптируемые алгоритмы ИИ для новых угроз;
    • теперь доступно IP-ядро Xilinx, реализующее алгоритм Random Forest.
  • Использование искусственного интеллекта для настройки подключений и контроля качества работы сети:
    • самоадминистрирование для максимизации времени непрерывной работы (MLP);
    • автоматическое обнаружение и исправление узких мест производительности системы.
Пример использования сетевой линейной карты для FPGA Versal Premium

Рис. 6. Пример использования сетевой линейной карты для FPGA Versal Premium

Поскольку сеть содержит огромное количество изменяемых шаблонов, для обеспечения ее беспрерывной работы и управления ее параметрами в режиме реального времени машинное обучение должно быть неотъемлемой частью почти всех сетевых устройств. В составе нейронной сети ResNet, выполняющей задачи по классификации изображений, устройство Versal Premium VP1802 обеспечивает на 60 и 130% более высокую производительность, чем при подключении Nvidia Tesla V100 и Nvidia Tesla T4 соответственно. Аналогично при использовании устройства Versal Premium в нейронной Yolov2-сети для обнаружения объектов прирост производительности составит 4,6 и 7,7 раза соответственно. Отсюда следует, что распознавание изображений целесообразно выполнять на сетевых ресурсах. Но действительно колоссальный прирост производительности обеспечивается при работе с алгоритмами по обнаружению аномалий методом случайного леса (Random Forest): Versal Premium VP1802 работает в 280 раз быстрее, чем 16-ядерный процессор Xeon E5-2687W с тактовой частотой 3,4 ГГц. Если сравнивать с самыми мощными процессорами Intel, Versal Premium VP1802 справляется с указанной выше задачей в 310 раз быстрее, чем актуальный сегодня 8-ядерный Cascade Lake-R Xeon SP-6259 Gold стоимостью $3400. Даже в случае распределения задач между более дешевыми процессорами FPGA демонстрирует прирост скорости примерно в 200 раз. Но, как в случае с процессорами Intel, так и ЦП других компаний, за тактовую частоту приходится платить.

Линейка FPGA от Versal Premium (в широком смысле) включает семь различных вариантов (табл. 2).

Таблица 2. Линейка ACAP Versal Premium

 

VP1102

VP1202

VP1402

VP1502

VP1552

VP1702

VP1802

Модуль

Ячейки системной логики, Мбайт

1,6

2

2,2

3,8

3,8

5,6

7,4

Адаптивная логика (LUT), Мбайт

720 кбайт

900 кбайт

1

1,7

1,8

2,5

3,4

Интеллектуальное ядро (DSP Slices), кбайт

1,9

4

2,7

7,4

7,4

11

14

Скалярные вычисления

Блок обработки Dual-Core Arm Cotrex-A72/Блок обработки в реальном времени Dual-Core Arm Cotrex-R5F

IP-ядро

PCle Gen5×8 с DMA и CCIX

2

2

2

2

2

PCle Gen5×4

2

2

2

2

8

2

2

100G Многоскоростной Ethernet MAC

6

2

8

4

4

6

8

600G Ethernet MAC

4

1

6

3

1

5

7

600G Interlaken

2

0

3

1

0

2

3

400G Высокоскоростное криптографическое ядро

3

1

4

2

2

3

4

Как видно из таблицы 2, по мнению Xilinx, середина линейки продуктов компании подходит для удовлетворения потребностей облачных сервисов. На данный момент Amazon Web Services версии F1 использует микросхему Virtex UltraScale+. Вполне вероятно, что этот сервис перейдет на устройства Versal Premium, когда они станут доступны. Упрощенные версии устройств Versal Premium (в левой части таблицы) предназначены для сетей доступа и общегородских сетей, а остальные (справа в таблице) — для региональных и базовых сетей. Клиенты, желающие интегрировать Versal Premium в свои системы, могут получить пробные версии менее функциональных устройств Versal Prime, а затем перейти на использование Versal Premium, когда они появятся в продаже. Инструменты для работы с устройствами нового поколения будут доступны осенью 2020 года, а поставки первых партий микросхем ожидаются в июне 2021 года.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *