2 заметки с тегом

NVMeF

NetApp AFF A320

Мне нравится подход, который NetApp стал использовать при выпуске новых моделей СХД. Нет помпезного обновления всей линейки оборудования раз в несколько лет. Зато есть постоянное поступательное движение вперед. Обновились начальные системы FAS и AFF (год назад), в то же время выпустили полностью новую систему с поддержкой end-to-end NVMe — A800. А сейчас выходит новая система AFF уровня midrange. В какой-то момент систему хотели назвать A400, но вышла она под названием A320. Я понимаю сомнения по поводу названия, с одной стороны это end-to-end NVMe массив, но с другой стороны отличий от А300 не так много. Обо всём по порядку…
Итак, новая midrange система — AFF A320. Как лёгко догадаться по названию модели, массив находится в иерархии AFF-систем между A300 и A700.

Пара контроллеров A320 расположена в одном шасси и занимает 2U. Дисков внутри нет, они находятся в новой полке NS224, которая поддерживает только NVMe SSD и для подключения к контроллерам использует протокол NVMe over RoCEv2 поверх 100GbE.

Контроллеры

Внутри HA-пары:

  • Два 20-ядерных процессора Intel Skylake
  • 512 GB DDR4-2666 RAM
  • 32 GB NVDIMM
  • 12 x 100GbE RoCE QSFP28 портов для подключения полок и хостов
  • 4 x 100GbE iWARP QSFP28 порта для кластерного- и HA-интерконекта
  • 4 x PCIe-слота расширения

Будут доступны следующие карты расширения:

  • 4-port 32Gb FC SFP+ optical
  • 2-port 100GbE RoCEv2 QSFP28 optical
  • 2-port 25GbE RoCEv2 SPF28 optical
  • 4-port 10GbE SFP+ Cu and optical

Все 100GbE-порты поддерживают работу на скорости 40GbE. Но RoCE пока поддерживается только для подключения полок, поддержка для хостов появится позже.

Что ещё не поддерживается:

  • Нет поддержки SAS-полок и не будет,
  • Нет поддержки UTA2 портов, FCoE и не будет,
  • MCC IP, но поддержка появится позже.

Само собой, A320 можно использовать в одном кластере с ранее вышедшими контроллерами. И раз мы заговорили про интерконект, то давайте обратим внимание на один нюанс. HA-интерконект и кластер-интреконект теперь работают через одни и те же порты. Напомню, что HA-интерконект используется между двумя контроллерами в HA-паре для репликации логов в NVRAM (NVDIMM в случае с A320), то есть репликации кэша. А кластерный интерконект используется для объединения двух и более контроллеров в единый кластер, по нему происходит репликация конфигурации кластера, передаются данные при переносе томов (vol move) с одного контроллера на другой, передается клиентский трафик (если обращение с хоста пришло на порт ноды, которая не владеет томом с данными). И теперь получается, что в случае switched-кластера, HA-интерконект будет осуществляться через коммутаторы.

А теперь немного пофантазируем — из чего состоит HA-пара? Это два контроллера и дисковые полки, подключенные к каждому из этих контроллеров. Если же появляются коммутаторы для HA и через эти же коммутаторы у нас могут подключаться полки (RoCE), то получается, что пропадает жёсткая привязка контроллеров друг к другу и к дисковым полкам. HA-пары можно формировать между любыми контроллерами в кластере, каждый контроллер может получить доступ к любой полке и диску в кластере. Но это лишь фантазии, никаких официальных подтверждений нет :)

Дисковая полка NS224

NS224 занимает высоту 2U и содержит 24 шт. NVMe SSD. Два модуля NSM — это то, что в SAS полках называется IOM. По два 100GbE-порта находятся в каждом модуле NSM. Полка может выдать 400Gb/sec пропускной способности. Для сравнения, полка DS224C с 8 портами SAS-3 теоретически может выдать 384Gb/sec.
Поддерживаются диски емкостью 1,9, 3,8 и 7,6TB, а чуть позже будут доступны диски емкостью 15TB. Диски в A800 и NS224 отличаются и на момент анонса полка NS224 не поддерживает подключение к A800. К A320 можно подключить две полки, а в дальнейшем, вероятно, максимальное количество полок может увеличится за счёт использования коммутаторов, но это неточно.

Полки можно будет заказать с 12, 18 и 24 дисками.

Вот так выглядит подключение двух полок к A320:

Производительность

Пока нет официальной информации по производительности в IOPS и GB/sec.

Но в погоне за IOPS часто стали забывать про задержки. С широким распространением систем all-flash задержки меньше 1 мс стали неким стандартом. Довольно долго многих не интересовало, насколько меньшее время, чем 1 мс может выдать СХД. Ведь 1 мс — это уже в 10-20 раз лучше, чем мы получали на СХД с использованием HDD. Сейчас же начинается новый этап, задержки начали мерить сотнями микросекунд, а в некоторых случаях и десятками микросекунд.

Известно что задержки будут в районе 100 мкс, что ниже в 5-10 раз, чем у A300! Задержки заметно снижаются даже без использования NVMe over FC.

Новый кластерный коммутатор BES-53248

На замену коммутатору CN1610 пришёл BES-53248, и его также выпускает Broadcom.

В коммутаторе есть следующие порты:

  • 48 x SFP28 ports (10/25GbE)
  • 8 x QSFP28 ports (10/40 or 25/50/100GbE)

Поддерживается использование этого коммутатора и для MCC IP. Конфигурация скоростей портов будет отличаться в зависимости от того применяется он в MCC IP или в обычном switched-кластере.

Порты доступные в базовой поставке:

  • 16 x 10GbE SFP+ ports
  • 2 x 40GbE QSFP ports
  • 2 x 100GbE QSFP28 ports for ISL

Остальные конфигурации требуют покупки лицензий.
Блоки питания дублированные.

На этом с железом всё. А так как прошло полгода с выхода ONTAP 9.5, значит настало время ONTAP 9.6.

2019   AFA   AFF   AFF A320   NVMeF

AFF A800 — первый end-to-end NVMe all flash массив на рынке

Небольшая вводная часть, в которой даже присутствует подобие аналитики рынка

8 мая NetApp выпустил очередную версию ONTAP и представил несколько новых систем хранения, в том числе первую доступную на рынке end-to-end NVMe-oF all-flash СХД AFF A800.
Я решил разделить информацию об ONTAP и новым железе на два поста. Сейчас поговорим про новое железо. И тут у нас не только A800. Про ONTAP 9.4 в этом посте.

NetApp AFF A800 — первый доступный на рынке enterprise end-to-end NVMe all flash массив. Сильное заявление, проверять я его конечно не буду.

Да, я знаю про Dell EMC PowerMax, который был анонсирован буквально неделю назад. Но вот какая незадача — NVMe на фронтенде, то есть NVMe-oF, в нём еще нет. А появится поддержка NVMe-oF в PowerMax только в начале 2019 года.

Давайте сразу поговорим про других производителей enterprise СХД на рынке. Тут не будет речи о стартапах, потому что у них довольно серьезное отставание по функциональности в сравнении с устоявшимися на рынке игроками.

IBM. Добавили поддержку NVMeF over InfiniBand для FlashSystem 900. Внутри flash-модули, если я не ошибаюсь, подключаются по PCIe. Но мы помним, что NVMe — это не только PCIe, но и новый протокол, который полностью заменяет SCSI.
Анонсировали поддержку NVMe-oF для IBM FlashSystem 900/A9000/A9000R, IBM FlashSystem V9000, IBM Storwize V7000, IBM SAN Volume Controller (SVC). End-to-end NVMe массива доступного на рынке нет.

Pure Storage имеют //X70 c NVMe модулями. У них были показательные тесты NVMe-oF с Cisco, использовали RoCEv2 40GbE. Когда будет доступно простым смертным неизвестно. End-to-end NVMe массива доступного на рынке нет.

У Huawei уже давно доступна на рынке система OceanStor Dorado5000 V3, но пока никаких вестей про NVMe-oF. End-to-end NVMe массива доступного на рынке нет.

HPE буквально вчера анонсировали обновление для линейки Nimble. Говорят, что они готовы к NVMe и SCM (Storage Class Memory), но всё будет происходить в три этапа.

  • NVMe и SCM как кэш на чтение
  • NVMe SSD
  • NVMe-oF

В каком порядке неизвестно, а в новых системах пока стоят SATA SSD. End-to-end NVMe массива доступного на рынке нет.

Если я где-то ошибся и о чём-то не упомянул, то буду рад любым комментарием.

А что же NetApp? А NetApp за прошедшие месяцы успел отгрузить более 20ПБ NVMe SSD. Как так? В каждой системе FAS последнего поколения есть Flash Cache на базе NVMe. Кроме того уже более 8 месяцев доступна система EF570 с поддержкой NVMe-oF по InfiniBand.

8 месяцев назад NetApp уже рассказывал про планы на NVMe и SCM. Была демонстрация работы NVMe-oF на A300 и AFF 8020. А SCM в первую очередь планируется использовать как кэш на чтение в all-flash массивах. Кроме этого есть планы по использованию server-side Software-Defined Memory решения компании Plexistor, которую NetApp не так давно приобрёл, совместно с СХД. То есть мы видим последовательную и планомерную работу по внедрению новых технологий хранения с сохранением совместимости с существующими решениями.

А после небольшого вступления мы опять возвращаемся к NetApp AFF A800 — первому доступному на рынке enterprise end-to-end NVMe all flash массиву.

AFF A800

  • HA-пара выдаёт 1.3 млн IOPS случайного чтения c задержкой 500µs
  • Минимальная задержка в 200µs
  • 34ГБ/сек чтения на пару контроллеров с NVMe-oF
  • 25ГБ/сек чтения на пару контроллеров по NFS
  • 11.4 млн IOPS случайного чтения в 24-узловом кластере при использовании NAS
  • Более 300ГБ/сек чтения в 24-узловом кластере при использовании NAS

И если вы побежали сравнивать заявленную маркетинговую производительность с Dell EMC PowerMax, то подождите. В ближайшее время обещают опубликовать результат тестирования A800 в SPC-1. Я думаю такой радости от Dell EMC мы не дождёмся. И имейте в виду, что заявленные Dell EMC 10 млн IOPS для PowerMax указаны для профиля 8K RRH, что означает random read hit 8K блоком — случайное чтение со 100% попаданием в кэш.

Ну а теперь подробнее. A800 работает на ONTAP 9.4. Значит доступна вся богатая функциональность ONTAP, а также работа в кластере с существующими системами.
Так A800 выглядит спереди без крышки. NVMe SSD синенькие.

А так сзади:

Тут без сюрпризов в дизайне корпуса контроллеров. Видно, что за основу взяли конструкцию контроллеров A700s. Но теперь в корпусе 4U имеем 48 дисков. На старте продаж доступны диски ёмкостью 1.9, 3.8 и 7.6ТБ. Позже будут и 15.3ТБ SSD, что даёт более 2.5ПБ+ эффективной ёмкости всего в 4U.

Сетевые интерфейсы

Из ethernet-интерфейсов доступны 100GbE, 25GbE и 10GbE. Это будут отдельные сетевые карты. Сетевая карта на 100GbE поддерживает и 40GbE. Пока эти интерфейсы только для файловых протоколов и iSCSI. FCoE и NVMe-oF на них не поддерживается.

NVMe-oF работает по Fibre Channel. Для NVMe-oF поддерживаются скорости 32/16Gb, для обычного FC — 32/16/8Gb.

Кластерный и HA-интерконнект по отдельным 100GbE портам. Для кластерного интерконнекта можно использовать и 40GbE. А в случае апгрейдов текущих кластеров можно использовать и 10GbE. И да, повторюсь, А800 можно использовать в существующих кластерах с уже существующими не NVMe системами.

Для 100GbE кластерных сетей доступен новый для NetApp коммутатор Cisco Nexus 3232C.

Надеюсь, что в будущем появится поддержка NVMe-oF по RoCE. 100GbE и 25GbE порты есть, осталось реализовать это в ПО.

Storage

48 внутренних NVMe SSD. Они теперь голубенькие, чтобы не перепутать с обычными SSD. Вставить их в SAS полки не получится. Новые системы продаются на выбор с 24, 36 или 48 дисками. Внешних NVMe полок нет. Думаю, что это временно. Если купить систему с неполным набором дисков, то новые диски можно докупать паками по 6 штук. Кстати, хорошая аналогия с пивом, которое тоже часто продаётся six-pack’ами. А NetApp любит пиво.

Но к A800 можно подключать SAS полки. В первую очередь это сделано для апгрейдов старых AFF систем. Поддерживаются DS224C и DS2246 с IOM12. Можно подключить до 8 полок.

Для подключения внутренних дисков используется 4 PCIe Gen3 коммутатора, от каждого идёт по 24 полосы к 12 NVMe SSD. Поэтому изменился принцип заполнения шасси дисками. Шасси разделено на 4 квадранта. Вот как будет выглядеть шасси с 24 дисками, в которое добавили еще 6 дисков.

Прочие приятные мелочи

A800 поддерживает ADP. И поддерживает MetroCluster IP. А MetroCluster IP теперь работает с ADP. Правда это только для AFF систем. (Исправлено. До этого было написано, что для всех систем с поддержкой MCC IP).

Для high-end систем требуется иметь достаточно объёмные root агрегаты. Они должны быть не меньше объема оперативной памяти контроллеров, так как в случае паники контроллера в root агрегат сохраняется core dump, который техподдержка используется для выяснения причин паники. Объем оперативной памяти A800 — 1280ГБ. Но минимальный размер root агрегата всего 187ГБ. Core dump теперь сохраняется на флешке, с которой грузится контроллер.

Для NVlog’а теперь используются NVDIMM, а не NVRAM. Это позволяет еще больше сократить задержки на запись, так как шина памяти “отзывчивее”, чем PCIe.

С выходом ONTAP 9.4 NVMe-oF доступен A700/A700s/A300. На 60% выше производительность и на 50% ниже задержки.

Новые модели начального уровня

На смену FAS2600/A200 приходят FAS2700/A220.
То же самое шасси, но более мощный процессор, в два раз больше ядер. Прирост производительности на 20-30%.

В FAS2700 чуть больше изменений. Теперь там NVMe Flash Cache на джва ТБ. Есть два набора портов — 8xUTA2 или 8x10GbE BASE-T. UTA2 порты теперь поддерживают iSCSI Data Center Bridging (DCB). BASE-T порты не поддерживают FCoE. Только iSCSI, NFS, SMB.

На этом всё про A800. Готов ответить на вопросы в комментариях или в нашем уютном телеграм-чате — https://t.me/storagediscussions
А для получения оперативных новостей про NetApp и просто интересные ссылки подписывайтесь на канал https://t.me/storagetalks

2018   AFF   AFF A220   AFF A800   NVMe   NVMeF