SlideShare a Scribd company logo
High Performance Computing
Принципы проектирования сети
Дмитрий Смирнов, Системный инженер
                         © 2012 Extreme Networks, Inc. All rights reserved.
Вертикали ЦОД
High Performance Computing         Точки обмена трафика                                   Хостинг, Облако


               BDX-8
                                   ISP          BDX-8           BDX-8             ISP

                                                                                                       CUSTOMER B
                                                                                        CUSTOMER A                     CUSTOMER C
                                         10Gb
        10Gb                       ISP                                            ISP
                                                                                                                     BDX-8

                                         40Gb LAG       DWDM

                                   ISP                                            ISP



                       40Gb

                                                                                                                    40Gb
                              i    ISP                                            ISP           X670
                              S
                              C
                              S                                                                              CUSTOMER B
                              I
                                                                                                       CUSTOMER C

                                                                                                CUSTOMER A




2                                 © 2012 Extreme Networks, Inc. All rights reserved.
High Performance Computing (HPC)

    High Performance Computing кластер состоит из набора соединѐнных
    между собой компьютерных систем, которые работают сообща, таким
              образов можно считать, что это единая система.


                                            BDX-8



         Физические           10Gb
                                                                                                  Нефть и газ
         симуляции



    Прогноз                                                                                               Молекулярное
                Квантовая                                                                Климатические
                                                                                                          моделировани
                                                                                         исследования
    погоды       физика                                                                                        е

                                                              40Gb




                                                                                 iSCSI




3                           © 2012 Extreme Networks, Inc. All rights reserved.
Требования к HPC


      Задержка                           Емкость                                    Надежность

• Системная задержка     • Общая                                               • Отказоустойчивость
                           производительность                                    системы для
                           системы для                                           максимизации время
                           обработки трафика                                     работы
                           сейчас и в будущем

• Примеры:               • Примеры:                                            • Примеры:
 o End-to-end задержка    o Емкость                                            o Избыточные модули
   10 GbE 2.3               коммутационной                                       для
                            фабрики(в Tbps) для                                  управления, коммутаци
   микросекунд
                                                                                 и и питания
 o Порты10/40/100 GbE       обработки трафика
                                                                               o Компоненты с горячей
   без переподписки       o Большая пропускная                                   заменой
                            способность на слот                                o Бесшовная
                            для будущего роста                                   отказоустойчивость и
                                                                                 обновления ПО

4                         © 2012 Extreme Networks, Inc. All rights reserved.
Вызов №1. Что такое задержка?
• Задержка = P + N + S + I + AP
 – P = Время передачи – отправка битов по проводу
 – N = Обработка пакета сетевым железом – коммутация, маршрутизация
 – S = время сериализации – отправка битов “в провод”
 – I = время обработки прерывания – прием пакета на сервере
 – AP = время обработки сообщения приложением


• Обмен данными между двумя система:
 – ЗАДЕРЖКА = AP1+I1+S1+N1+P+N2+S2+I2+AP2


• Категоризация задержки:
 – Расстояние: P
 – Инфраструктура: I, N, S
 – Приложение: AP

 5                           © 2012 Extreme Networks, Inc. All rights reserved.
Вызов №1. Как победить задержку? Анализ.
               Сервер #1                                                                         Сервер #2
          User space
                                                UDP пакеты
           Программа       Программа            отбрасываются                               Программа   Программа
                                                здесь, когда память
    AP1                                         ограничена                                                          AP2
          Kernel
          Context switch
          Socket buffers
          TCP/IP stack

           NIC buffers
     I1                                                                                                             I2




                                  Обмен данными между двумя системами:
                               ЗАДЕРЖКА = AP1 + I1 + S1 + N1 + P + N2 + S2 + I2 + AP2
     S1                                                                                                             S2




                 N1                                                                                     N2
                                                                   P
6                                      © 2012 Extreme Networks, Inc. All rights reserved.
Вызов №1. Как победить задержку? Классификация
               Сервер #1                                                                         Сервер #2
          User space

           Программа       Программа                                                        Программа   Программа

    AP1                                                                                                             AP2
          Kernel
          Context switch
          Socket buffers
          TCP/IP stack

           NIC buffers
     I1                                                                                                             I2




     S1                                РАССТОЯНИЕ                                                                   S2




                 N1                                                                                     N2
                                                                   P
7                                      © 2012 Extreme Networks, Inc. All rights reserved.
Вызов №1. Как победить задержку? Методы
• 1000 байт на скорости 1Гб/с
  – 1000км = 10.1мс
  – 100км = 1.2мс
  – 10км = 303µс
  – 1км= 213µс
  – 0км = 203µс
• Задержка при отправке 500 байтового пакета. Добавляется каждым
  коммутатором.
  – 10Мб/с = 566µс
  – 100Мб/с = 56µс
  – 1Гб/с = 5.7µс
  – 10Гб/с=0.57µс
• Общая лучшая практика
  – Правильный выбор провайдера оптической связи
  – Выбор более скоростного интерфейса для быстрой сериализации
  – Сократить кол-во уровней в сети для быстрой передачи (Растягивать L2, Уменьшать L3)
  – Оптимальный выбор сетевого оборудования (cut-through коммутаторы)
  – Создать план для обработки microbursts
  – Управлять DROP и DISCARD, чтобы уменьшить JITTER
  8                                  © 2012 Extreme Networks, Inc. All rights reserved.
Вызов №1. Как победить задержку? Выбор пути.

                                                                • Значительные различия в
                                                                  задержках у различных
                                                                  операторов
                                                                     – Зависит от маршрута
                                                                     – Кол-во сетевых HOP
                                                                     – Наличие необходимой пропускной
                                                                       способности


                                                                • Технология, используемая
                                                                  операторами связи сильно
                                                                  отличается по показателям
                                                                  задержки, особенно во время
                                                                  пика трафика
                                                                     – DWDM предпочтительнее MPLS
       Путь     Расстояние          Задержка
                                                                     – Рассмотреть использование
    Москва-Киев 850км            4,25мс                                высокоскоростной WAN
                                                                       технологии, например растянутые
    Москва-Киев 999км            4,99мс                                VLAN
9                            © 2012 Extreme Networks, Inc. All rights reserved.
Вызов №1. Как победить задержку. Топология

                                                                                    ЦОД #3
• Топологические нюансы
 – Растянутый VLAN = WAN
   коммутация на уровне 2
 – Создает единую подсеть
 – Может использоваться для
   геокластеризации и удобства
   получения multicast трафика.
 – Одни коммутаторы лучше
   других. Все зависит от качества
   исполнения Spanning Tree.
 – Использовать traffic shaping на
   управления microbursts.
                                                           ЦОД #1
 – Использовать одни и те же
   физические каналы для                                                              ЦОД #2
   маршрутизируемых VLAN.

 10                            © 2012 Extreme Networks, Inc. All rights reserved.
Вызов №1. Как победить задержку? Железо.

                          Узел 2




                           40G                          40G

       Шасси коммутатора



                     Чип #1                         Чип #2




             10G   10G           10G              10G            10G          10G



          Узел 1            Узел 4                            Узел 3
                                                                                    Store & forward
                                                                                    Cut-through

11                       © 2012 Extreme Networks, Inc. All rights reserved.
Вызов №1. Как победить задержку. Железо.




                                         CPU



                                                      ASIC




12               © 2012 Extreme Networks, Inc. All rights reserved.
Вызов №1. Как победить задержку. Железо.

• Общая практика
 – Не использовать гипервизор. Никогда.
 – Использовать ОС с лучшим TCP стеком – Linux/Solaris/Windows
 – Использовать самые быстрые процессоры
 – ОС заточены по умолчанию на пропускную. Перенастроить для минимизации задержки.
 – Перенастроить TCP/IP стек или обходить его – TCP offload / bypass
 – Никогда не запускать X сервер
 – Выключить iptables, ip6tables, yum-updates, sendmail, bluetooth, cups, irda, atd, autofs, hidd,
      kudzu, smmbfs
• Диск I/O
 – Тонировать файловую систему. XFS для больших файлов. EXT3 среднее арифметическое.=
 – Можно посмотреть в сторону OCFS32, HSF2, BTRFS
• LINUX runlevel
 – По умолчанию установить RUN LEVEL 3
• Тонировать QoS / Scheduling
• Тонировать сетевой стек
• Тонировать уровень приложений
 13                                   © 2012 Extreme Networks, Inc. All rights reserved.
Вызов №1. Как победить задержку? NIC.


       Kernel TCP/IP                        User space TCP/IP                           Bypass TCP/IP




     1G Linux 48µS RTT                 OpenOnLoad                                      OFED
     10G Linux 16µS RTT                10µS RTT                                        2µS RTT




     • Общая правила для тонировки NIC.
       – Будьте избирательны в выборе NIC. Есть большая разница в
         характеристиках задержки и DROP, которые зависят от железа и драйвера.
       – Проанализируйте сетевой стек
       – Тонировать NIC драйвер
       – Тонировать TCP/IP стек
       – Обмен – уменьшая latency, Вы грузите CPU



14                                © 2012 Extreme Networks, Inc. All rights reserved.
Требования к HPC


      Задержка                           Емкость                                    Надежность

• Системная задержка     • Общая                                               • Отказоустойчивость
                           производительность                                    системы для
                           системы для                                           максимизации время
                           обработки трафика                                     работы
                           сейчас и в будущем

• Примеры:               • Примеры:                                            • Примеры:
 o End-to-end задержка    o Емкость                                            o Избыточные модули
   10 GbE 2.3               коммутационной                                       для управления,
                            фабрики(в Tbps) для                                  коммутации и питания
   микросекунд
                                                                               o Компоненты с горячей
 o Порты10/40/100 GbE       обработки трафика
                                                                                 заменой
   без переподписки       o Большая пропускная                                 o Бесшовная
                            способность на слот                                  отказоустойчивость и
                            для будущего роста                                   обновления ПО


15                        © 2012 Extreme Networks, Inc. All rights reserved.
Вызов №2. Емкость. Устарелая архитектура
                                                                      Архитектура
                                                                           • Соединяет все компоненты в
                                                                             шасси с одной стороны.
                Общая плата (Back-Plane)                                   • Медные провода соединяют все
                                                                             модули вместе
                                                                           • Архитектура основана на шинеBus
                                                                             based architecture with parallel
                                                                             connectors
Интерфейсные                                 Медные
                                             провода                       • Различные пути для контрольной
      модули                                                                 сигнализации, передачи данных и
                                                                             питания
     Модули                                                                • Active or Passive types
  управления
                                                                      Ограничения
       Фабрик                                                              • Ограниченная пропускная
       модули                                                                способность
                                                                           • Ограничение на подачу питания
                                                                           • Ассиметричное расположение
                                                                             модулей
                                                                           • Проблемы с общей платой
                                                                           • Front-to-back поток воздуха требует
                                                                             большого шасси


  16                                © 2012 Extreme Networks, Inc. All rights reserved.
Вызов #2 – Емкость. Современная архитектура


                        Фабрик модуль
     I/O модули




                                                                     Подключается нарямую
                               Фабрик модуль




                  I/O модуль




                               © 2012 Extreme Networks, Inc. All rights reserved.
17
Требования к HPC


      Задержка                           Емкость                                     Надежность

• Системная задержка     • Total system capacity                               • System fault tolerance
                           to handle existing and                                to maximize up time
                           future traffic growth


• Примеры:               • Примеры:                                            • Примеры:
 o End-to-end задержка    o Емкость                                             o Избыточные модули
   10 GbE 2.3               коммутационной                                        для
   микросекунд              фабрики(в Tbps) для                                   управления, коммут
 o Порты10/40/100 GbE       обработки трафика                                     ации и питания
   без переподписки       o Большая пропускная                                  o Компоненты с
                            способность на слот                                   горячей заменой
                            для будущего роста                                  o Бесшовная
                                                                                  отказоустойчивость
                                                                                  и обновления ПО

18                        © 2012 Extreme Networks, Inc. All rights reserved.
Вызов №3. Надежность. Аппаратная надежность.

     Возможность горячей замены любого из
     компонентов


     Питание
      – Отказоустойчивость по схеме N+1 или N+N
     Охлаждение
      – Отказоустойчивость по схеме N+1 или N+N
     Коммутация
      – Отказоустойчивость фабрик модулей по схеме N+1
     Управление
      – Отказоустойчивость управляющих модулей по схеме N+1


                                                                                 * Future availability.

19                          © 2012 Extreme Networks, Inc. All rights reserved.
Вызов №3. Надежность. Топология
                                              ЦОД №2




  EAPS
 G.8032

      MLAG                       SW #1                                 SW #2


              50% TCP

                        MLAG
  MLAG
 STACK         SW “A”   SW “B”                                                           SW “C”   SW “D”


                             50% TCP
Dual-homing




 20                                 © 2012 Extreme Networks, Inc. All rights reserved.
Вызов №3. Надежность. Операционная система
                         Инновации Extreme Networks®

• Модульность = Надежность
                                                                                     Configuration Management
• Без модульности….                                                                   (CLI/SNMP/XML/Scripts)

       – Process failed = перезапуск ОС                                       ExtremeXOS Application Modules
       – Установка модуля = перезапуск ОС                                        sFlow      SSH2     OSPF     VRRP
                                                                                          STP       EAPS     ESRP
• С модульностью         ExtremeXOS®               ….                        802.1x


       – Автоматический перезапуск процесса
                                                                              ExtremeXOS Kernel-Loadable Modules
       – Динамическая установка модулей
                                                                                         ExtremeXOS Kernel
• Унифицированная ОС для всего
                                                                                      Hardware Abstraction Layer
оборудования
                                                                                                Hardware
       – От 10/100M до 100G решений
                                                                                           ExtremeXOS
• ExtremeXOS                                                                         Modular Operating System
       – Поставляется с 2003
Page
                                © 2012 Extreme Networks, Inc. All rights reserved.
21
Принципы на практике. Что есть на рынке
                                                                                     24x40G Modules




                            4x40G Uplink
                            48 x 10G Access




                            Summit® X670                                       BlackDiamond X8
                            Top-of-Rack                                       End-of-Row/Aggregation
                            1G/10G Access                                     10G Access/Aggregation
                            10G/40G Uplinks                                   40G Aggregation


     Data Center Bridging      M-LAG              Direct Attach™ / VEPA                     XNV™               OpenFlow

                                                ExtremeXOS®
22                                     © 2012 Extreme Networks, Inc. All rights reserved.             * Future availability.
Коммутатор X670

Summit® X670V-48x
– 48-портовый 1 /10 GbE коммутатор
– Разъем для расширения VIM4-40G-4X
  предоставляет:
     • 4-порта 40 GbE
     • 16-портов 10 GbE со сплиттером
     • 64-порта 10 GbE максимум
     • SummitStack™-V320 два 40 GbE порта
                                                                             Двунаправленные блоки вентиляторов
 – SummitStack-V через два 10 GbE порта                                      Блоки питания AC/DC с горячей заменой


Summit X670-48x
– 48-портовый 1 /10 GbE коммутатор
– SummitStack-V через два 10 GbE порта



                                                                                                       * Future availability.

23                                 © 2012 Extreme Networks, Inc. All rights reserved.
X670 – Высокоскоростное стекирование – 320Гб/c


     Summit® X670V

     Summit X670V

     Summit X670V

     Summit X670V

     Summit X670V


     Summit X670V

     Summit X670V

     Summit X460/480

     Summit X460/480

     Summit X460/480




24                     © 2012 Extreme Networks, Inc. All rights reserved.
BlackDiamond X8. Вид спереди
                Модули управления
Блоки                                                                       Форм-фактор
питания                                                                          • 19’’стойка
              A 1   2   3   4                                                    • 14.5RU высота, 30” глубина
              B   5   6   7   8
                                                                            Передняя конфигурация
          A                                        B                             • 8 слотов для питания
          1                                                                      • 2 слотов для управления
                                                                                 • 8 слотов для I/O
          2




                                                         14.5 RU
                                                                            Варианты для управления
          3
                                                                                 • 1+1 управление
          4
                                                                            Варианты I/O карт
          5
                                                                                 • 48 x 10GbE SFP+
          6                                                                      • 12 x 40GbE QSFP+
          7                                                                      • 24 x 40GbE QSFP+
          8                                                                 Варианты питания
                                                                                 • 2500W AC источники
Интерфейсные                                                                     • N+1 с 5 источниками
модули                                                                           • N+N с 8 источниками

                            © 2012 Extreme Networks, Inc. All rights reserved.
BlackDiamond X8. Вид спереди


                                                                      Управляющий модуль




                                                                      48-портовый 10GbE модуль




                                                                      12-портовый 40GbE модуль




                                                                      24-портовый 40GbE модуль




                 © 2012 Extreme Networks, Inc. All rights reserved.
BlackDiamond X8. Ввид сзади
                                      Питание
             A       B
                                                                      Конфигурация сзади
           1 2 3 4 5 6 7 8                                                 • 4 фабрик слота
                                                                           • 5 вентиляторных блоков
                                                                           • 8 блоков питания

                                                                      Фабрик модули
                                                                           • Ортогональное соединение с
                                                                             фабрикой
                                                                           • 3+1 фабрик модулей
                                                                           • 20.48Тб/c коммутационной
                                                                             мощности
                                                                           • 2.56Тб/с пропускной
                                                                             способности на слот

                                                                      Охлаждение
                                                                           • Поток спереди назад
                                                                           • Отсутствие midplane
                                                                           • 5 вентиляторных блоков
                                                                           • 5+1 вентиляторов на блок, 30
                                                                             всего
       1     2   3    4                                                    • Динамическая скорость
                            Фабрик модули
                                                                             вращения
       1     2   3    4        5
                                                Вентиляторы
                      © 2012 Extreme Networks, Inc. All rights reserved.
BlackDiamond X8. Производительность.

                              320G на слот x 8 = 2.56T

                                                         320G на слот x 8 = 2.56T

                                                                                    320G на слот x 8 = 2.56T
   320G на слот x 8 = 2.56T



                                                                                                                                                                    1.28 Тб/c
                                                                                                                                                                    1.28 Тб/c
                                                                                                                            10.24 б/c                               1.28 Тб/c
                                                                                                                             В одну                                 1.28 Тб/c
                                                                                                                            сторону
                                                                                                                                                                    1.28 Тб/c
                                                                                                                                                                    1.28 Тб/c
                                                                                                                                                                    1.28 Тб/c
                                                                                                                                                                    1.28 Тб/c




                                                                                                               © 2012 Extreme Networks, Inc. All rights reserved.
BlackDiamond X8. Поддержка оптики




     QSFP+
                                                                             40GBASE-SR4
     сплиттер
                                                                             QSFP+ оптика




                10GBASE-SR
                LC коннектор                                                MTP



                                                                    40GBASE-SR4       40GbE
                                                                       QSFP+           порт

                 До 100 метров



29
                       © 2012 Extreme Networks, Inc. All rights reserved.
Пример – HPC для нефтяной компании

• HPC cluster is based on three main components:
 – Cluster servers with 10G NICs. Vendors – HP, IBM & DELL
 – High performance storage with 10G & 40G. Vendors DDN & Panasas
 – Networks switches with 10G & 40G. Vendors – Extreme Networks
• Requirements for platforms
 – Storage must support both Infiniband for legacy connectivity and Ethernet
 – Server platform Intel/Linux & 7200TB storage
 – 10G/40G Ethernet
• Purpose of HPC
 – Must support a connectivity of large storage subsystems
 – To be used for seismic data processing



30                          © 2012 Extreme Networks, Inc. All rights reserved.
Пример – Топология
                                                EXTREME NETWORKS
                                                                                                       DDN Storage Servers
     HP Cluster Servers                          BLACK DIAMOND X8




                            10G                                                              40G
                          228 ports                                                        128 ports




                                                                    10G
                                                                 16 ports




                                                          LAN


                                           3rd party network vendor



31                                    © 2012 Extreme Networks, Inc. All rights reserved.
Пример – HPC для нефтяной компании

• Почему Ethernet
Компания запросили решение на Ethernet потому, что:
  – a.   Ethernet может передавать 40G, но IB может 40G и 56G
  – b.   Ethernet дешевле и проще найти экспертов. Низкий CAPEX
  – c.   Ethernet дешевле в поддержке. Низкий OPEX
  – d.   У Ethernet будет вскоре 100G
  – E.   За Ethernet стоят тяжеловесные производители сетевого оборудования




 32                           © 2012 Extreme Networks, Inc. All rights reserved.
Спасибо за внимание

33                © 2012 Extreme Networks, Inc. All rights reserved.

More Related Content

PDF
Принципы построения катастрофоустойчивых ЦОД.
PDF
Новое поколение 100G DWDM-систем
PDF
Cisco ONS 15454 MSTP. Обзор нового функционала.
PDF
Принципы построения катастрофоустойчивых ЦОД
PDF
Виртуализация центров обработки вызовов UCCE на платформе Cisco UCS Разработк...
PDF
Технологии Intel для построения эффективной инфраструктуры
PDF
Анализ форматов модуляции для DWDM систем связи со скоростью 40Гбит/с
PDF
Новейшие разработки в области технологий L2VPN.
Принципы построения катастрофоустойчивых ЦОД.
Новое поколение 100G DWDM-систем
Cisco ONS 15454 MSTP. Обзор нового функционала.
Принципы построения катастрофоустойчивых ЦОД
Виртуализация центров обработки вызовов UCCE на платформе Cisco UCS Разработк...
Технологии Intel для построения эффективной инфраструктуры
Анализ форматов модуляции для DWDM систем связи со скоростью 40Гбит/с
Новейшие разработки в области технологий L2VPN.

What's hot (20)

PDF
Обеспечение отказоустойчивости в сетях Carrier Ethernet.
PDF
Преимущества интеграции IP + Optical. Демонстрация решения.
PDF
Гибкие перестраиваемые узлы ввода- вывода нового поколения – Cisco nLight ROADM
PDF
DWDM инфраструктура для сети следующего поколения.
PDF
Построение катастрофоустойчивых и распределённых ЦОД (часть 2). Объединение с...
PPTX
High performance computing принципы проектирования сети
PDF
Построение катастрофоустойчивых и распределённых ЦОД
PDF
Обзор и новые возможности архитектуры CisconLight. Платформа NCS 2000
PDF
Построение территориально распределенных ЦОД
PDF
Связь распределённых ЦОД с использованием OTV и LISP.
PDF
Решения Dell для обеспечения непрерывности бизнеса
PDF
Задачи создания и варианты связи распределённых ЦОД.
PDF
Современный ЦОД с точки зрения ИТ-архитектора.
PDF
Обзор решений резервного копированя и восстановления от EМС
 
PDF
Построение катастрофоустойчивых и распределённых ЦОД (часть 3). Оптимизация п...
PDF
Решения Cisco для оптического транспорта
PDF
Подробный технический обзор коммутаторов Cisco ME3800X/3600X
PDF
EMC DATA DOMAIN. Выгоды для заказчика. Сравнение с традиционной системой резе...
PPT
Андрей Чередарчук "HP-UX - платформа для сервера баз данных"
PDF
Универсальный Сisco IP NGN транспорт в сетях операторов мобильной и фиксирова...
Обеспечение отказоустойчивости в сетях Carrier Ethernet.
Преимущества интеграции IP + Optical. Демонстрация решения.
Гибкие перестраиваемые узлы ввода- вывода нового поколения – Cisco nLight ROADM
DWDM инфраструктура для сети следующего поколения.
Построение катастрофоустойчивых и распределённых ЦОД (часть 2). Объединение с...
High performance computing принципы проектирования сети
Построение катастрофоустойчивых и распределённых ЦОД
Обзор и новые возможности архитектуры CisconLight. Платформа NCS 2000
Построение территориально распределенных ЦОД
Связь распределённых ЦОД с использованием OTV и LISP.
Решения Dell для обеспечения непрерывности бизнеса
Задачи создания и варианты связи распределённых ЦОД.
Современный ЦОД с точки зрения ИТ-архитектора.
Обзор решений резервного копированя и восстановления от EМС
 
Построение катастрофоустойчивых и распределённых ЦОД (часть 3). Оптимизация п...
Решения Cisco для оптического транспорта
Подробный технический обзор коммутаторов Cisco ME3800X/3600X
EMC DATA DOMAIN. Выгоды для заказчика. Сравнение с традиционной системой резе...
Андрей Чередарчук "HP-UX - платформа для сервера баз данных"
Универсальный Сisco IP NGN транспорт в сетях операторов мобильной и фиксирова...
Ad

Similar to Extreme networks - network design principles for hpc @ hpcday 2012 kiev (20)

PDF
Направления развития унифицированного доступа
PDF
Архитектура маршрутизатора ASR1k и его применение в сетях операторов связи.
PDF
Эволюция технологии DPI в решениях Cisco Systems.
PDF
Универсальная платформа для инфраструктуры ЦОД - Nexus 7000.
PDF
Конвергентный проводной и беспроводной доступ
PDF
Архитектура SP WiFi для построения беспроводных сетей доступа в Интернет опер...
PDF
Использование нового агентского места Cisco Finess. Интегрированная система ...
PDF
Обзор и архитектура коммутаторов уровня доступа Catalyst 3750-X, 3560-X и 296...
PDF
Новое оборудование для построения Метро сетей (3600-24CX,ASR901/903/9001)
PDF
Решения Cisco SB для корпоративной телефонии.
PDF
Решения Cisco в области ИБ для центров обработки данных
PDF
CELC - Компактные коммутаторы Cisco Catalyst 2960C и 3560С
PDF
Обзор технологий и средств контроля производительности приложений в корпорати...
PDF
Коммутаторы для построения уровня доступа Cisco Catalyst 4500, 3750-X, 3560-...
PDF
Новое поколение сервисных модулей для ЦОД. Модуль анализа сетевого трафика дл...
PDF
Juniper QFabric
PPTX
Apc hpc day 2011 kiev
PDF
Развитие семейства коммутаторов Nexus Часть 1: Nexus 7000
PDF
Построение сетей ЦОД: решения Cisco
Направления развития унифицированного доступа
Архитектура маршрутизатора ASR1k и его применение в сетях операторов связи.
Эволюция технологии DPI в решениях Cisco Systems.
Универсальная платформа для инфраструктуры ЦОД - Nexus 7000.
Конвергентный проводной и беспроводной доступ
Архитектура SP WiFi для построения беспроводных сетей доступа в Интернет опер...
Использование нового агентского места Cisco Finess. Интегрированная система ...
Обзор и архитектура коммутаторов уровня доступа Catalyst 3750-X, 3560-X и 296...
Новое оборудование для построения Метро сетей (3600-24CX,ASR901/903/9001)
Решения Cisco SB для корпоративной телефонии.
Решения Cisco в области ИБ для центров обработки данных
CELC - Компактные коммутаторы Cisco Catalyst 2960C и 3560С
Обзор технологий и средств контроля производительности приложений в корпорати...
Коммутаторы для построения уровня доступа Cisco Catalyst 4500, 3750-X, 3560-...
Новое поколение сервисных модулей для ЦОД. Модуль анализа сетевого трафика дл...
Juniper QFabric
Apc hpc day 2011 kiev
Развитие семейства коммутаторов Nexus Часть 1: Nexus 7000
Построение сетей ЦОД: решения Cisco
Ad

More from Volodymyr Saviak (15)

PPTX
Fujifilm - where zettabytes lives @ hpc day 2012 kiev
PDF
Technical supercomputers laboratory. & insitute of cybernetics of ukraine @ h...
PDF
Altair - compute manager your gateway to hpc cloud computing with pbs profess...
PDF
Hp cmu – easy to use cluster management utility @ hpcday 2012 kiev
PDF
Nvidia kepler architecture performance efficiency availability @ hpcday 2012 ...
PDF
Mellanox hpc update @ hpcday 2012 kiev
PDF
Hp kiev hpcday_20121012
PDF
SGI HPC DAY 2011 Kiev
PDF
Golovinskiy hpc day 2011
PPT
Alekseev hpc day 2011 Kiev
PPT
Petrenko hpc day 2011 Kiev
PPTX
Kindratenko hpc day 2011 Kiev
PDF
Mellanox hpc day 2011 kiev
PDF
Massive solutions hpc day 2011 kiev
PDF
Nvidia hpc day 2011 kiev
Fujifilm - where zettabytes lives @ hpc day 2012 kiev
Technical supercomputers laboratory. & insitute of cybernetics of ukraine @ h...
Altair - compute manager your gateway to hpc cloud computing with pbs profess...
Hp cmu – easy to use cluster management utility @ hpcday 2012 kiev
Nvidia kepler architecture performance efficiency availability @ hpcday 2012 ...
Mellanox hpc update @ hpcday 2012 kiev
Hp kiev hpcday_20121012
SGI HPC DAY 2011 Kiev
Golovinskiy hpc day 2011
Alekseev hpc day 2011 Kiev
Petrenko hpc day 2011 Kiev
Kindratenko hpc day 2011 Kiev
Mellanox hpc day 2011 kiev
Massive solutions hpc day 2011 kiev
Nvidia hpc day 2011 kiev

Extreme networks - network design principles for hpc @ hpcday 2012 kiev

  • 1. High Performance Computing Принципы проектирования сети Дмитрий Смирнов, Системный инженер © 2012 Extreme Networks, Inc. All rights reserved.
  • 2. Вертикали ЦОД High Performance Computing Точки обмена трафика Хостинг, Облако BDX-8 ISP BDX-8 BDX-8 ISP CUSTOMER B CUSTOMER A CUSTOMER C 10Gb 10Gb ISP ISP BDX-8 40Gb LAG DWDM ISP ISP 40Gb 40Gb i ISP ISP X670 S C S CUSTOMER B I CUSTOMER C CUSTOMER A 2 © 2012 Extreme Networks, Inc. All rights reserved.
  • 3. High Performance Computing (HPC) High Performance Computing кластер состоит из набора соединѐнных между собой компьютерных систем, которые работают сообща, таким образов можно считать, что это единая система. BDX-8 Физические 10Gb Нефть и газ симуляции Прогноз Молекулярное Квантовая Климатические моделировани исследования погоды физика е 40Gb iSCSI 3 © 2012 Extreme Networks, Inc. All rights reserved.
  • 4. Требования к HPC Задержка Емкость Надежность • Системная задержка • Общая • Отказоустойчивость производительность системы для системы для максимизации время обработки трафика работы сейчас и в будущем • Примеры: • Примеры: • Примеры: o End-to-end задержка o Емкость o Избыточные модули 10 GbE 2.3 коммутационной для фабрики(в Tbps) для управления, коммутаци микросекунд и и питания o Порты10/40/100 GbE обработки трафика o Компоненты с горячей без переподписки o Большая пропускная заменой способность на слот o Бесшовная для будущего роста отказоустойчивость и обновления ПО 4 © 2012 Extreme Networks, Inc. All rights reserved.
  • 5. Вызов №1. Что такое задержка? • Задержка = P + N + S + I + AP – P = Время передачи – отправка битов по проводу – N = Обработка пакета сетевым железом – коммутация, маршрутизация – S = время сериализации – отправка битов “в провод” – I = время обработки прерывания – прием пакета на сервере – AP = время обработки сообщения приложением • Обмен данными между двумя система: – ЗАДЕРЖКА = AP1+I1+S1+N1+P+N2+S2+I2+AP2 • Категоризация задержки: – Расстояние: P – Инфраструктура: I, N, S – Приложение: AP 5 © 2012 Extreme Networks, Inc. All rights reserved.
  • 6. Вызов №1. Как победить задержку? Анализ. Сервер #1 Сервер #2 User space UDP пакеты Программа Программа отбрасываются Программа Программа здесь, когда память AP1 ограничена AP2 Kernel Context switch Socket buffers TCP/IP stack NIC buffers I1 I2 Обмен данными между двумя системами: ЗАДЕРЖКА = AP1 + I1 + S1 + N1 + P + N2 + S2 + I2 + AP2 S1 S2 N1 N2 P 6 © 2012 Extreme Networks, Inc. All rights reserved.
  • 7. Вызов №1. Как победить задержку? Классификация Сервер #1 Сервер #2 User space Программа Программа Программа Программа AP1 AP2 Kernel Context switch Socket buffers TCP/IP stack NIC buffers I1 I2 S1 РАССТОЯНИЕ S2 N1 N2 P 7 © 2012 Extreme Networks, Inc. All rights reserved.
  • 8. Вызов №1. Как победить задержку? Методы • 1000 байт на скорости 1Гб/с – 1000км = 10.1мс – 100км = 1.2мс – 10км = 303µс – 1км= 213µс – 0км = 203µс • Задержка при отправке 500 байтового пакета. Добавляется каждым коммутатором. – 10Мб/с = 566µс – 100Мб/с = 56µс – 1Гб/с = 5.7µс – 10Гб/с=0.57µс • Общая лучшая практика – Правильный выбор провайдера оптической связи – Выбор более скоростного интерфейса для быстрой сериализации – Сократить кол-во уровней в сети для быстрой передачи (Растягивать L2, Уменьшать L3) – Оптимальный выбор сетевого оборудования (cut-through коммутаторы) – Создать план для обработки microbursts – Управлять DROP и DISCARD, чтобы уменьшить JITTER 8 © 2012 Extreme Networks, Inc. All rights reserved.
  • 9. Вызов №1. Как победить задержку? Выбор пути. • Значительные различия в задержках у различных операторов – Зависит от маршрута – Кол-во сетевых HOP – Наличие необходимой пропускной способности • Технология, используемая операторами связи сильно отличается по показателям задержки, особенно во время пика трафика – DWDM предпочтительнее MPLS Путь Расстояние Задержка – Рассмотреть использование Москва-Киев 850км 4,25мс высокоскоростной WAN технологии, например растянутые Москва-Киев 999км 4,99мс VLAN 9 © 2012 Extreme Networks, Inc. All rights reserved.
  • 10. Вызов №1. Как победить задержку. Топология ЦОД #3 • Топологические нюансы – Растянутый VLAN = WAN коммутация на уровне 2 – Создает единую подсеть – Может использоваться для геокластеризации и удобства получения multicast трафика. – Одни коммутаторы лучше других. Все зависит от качества исполнения Spanning Tree. – Использовать traffic shaping на управления microbursts. ЦОД #1 – Использовать одни и те же физические каналы для ЦОД #2 маршрутизируемых VLAN. 10 © 2012 Extreme Networks, Inc. All rights reserved.
  • 11. Вызов №1. Как победить задержку? Железо. Узел 2 40G 40G Шасси коммутатора Чип #1 Чип #2 10G 10G 10G 10G 10G 10G Узел 1 Узел 4 Узел 3 Store & forward Cut-through 11 © 2012 Extreme Networks, Inc. All rights reserved.
  • 12. Вызов №1. Как победить задержку. Железо. CPU ASIC 12 © 2012 Extreme Networks, Inc. All rights reserved.
  • 13. Вызов №1. Как победить задержку. Железо. • Общая практика – Не использовать гипервизор. Никогда. – Использовать ОС с лучшим TCP стеком – Linux/Solaris/Windows – Использовать самые быстрые процессоры – ОС заточены по умолчанию на пропускную. Перенастроить для минимизации задержки. – Перенастроить TCP/IP стек или обходить его – TCP offload / bypass – Никогда не запускать X сервер – Выключить iptables, ip6tables, yum-updates, sendmail, bluetooth, cups, irda, atd, autofs, hidd, kudzu, smmbfs • Диск I/O – Тонировать файловую систему. XFS для больших файлов. EXT3 среднее арифметическое.= – Можно посмотреть в сторону OCFS32, HSF2, BTRFS • LINUX runlevel – По умолчанию установить RUN LEVEL 3 • Тонировать QoS / Scheduling • Тонировать сетевой стек • Тонировать уровень приложений 13 © 2012 Extreme Networks, Inc. All rights reserved.
  • 14. Вызов №1. Как победить задержку? NIC. Kernel TCP/IP User space TCP/IP Bypass TCP/IP 1G Linux 48µS RTT OpenOnLoad OFED 10G Linux 16µS RTT 10µS RTT 2µS RTT • Общая правила для тонировки NIC. – Будьте избирательны в выборе NIC. Есть большая разница в характеристиках задержки и DROP, которые зависят от железа и драйвера. – Проанализируйте сетевой стек – Тонировать NIC драйвер – Тонировать TCP/IP стек – Обмен – уменьшая latency, Вы грузите CPU 14 © 2012 Extreme Networks, Inc. All rights reserved.
  • 15. Требования к HPC Задержка Емкость Надежность • Системная задержка • Общая • Отказоустойчивость производительность системы для системы для максимизации время обработки трафика работы сейчас и в будущем • Примеры: • Примеры: • Примеры: o End-to-end задержка o Емкость o Избыточные модули 10 GbE 2.3 коммутационной для управления, фабрики(в Tbps) для коммутации и питания микросекунд o Компоненты с горячей o Порты10/40/100 GbE обработки трафика заменой без переподписки o Большая пропускная o Бесшовная способность на слот отказоустойчивость и для будущего роста обновления ПО 15 © 2012 Extreme Networks, Inc. All rights reserved.
  • 16. Вызов №2. Емкость. Устарелая архитектура Архитектура • Соединяет все компоненты в шасси с одной стороны. Общая плата (Back-Plane) • Медные провода соединяют все модули вместе • Архитектура основана на шинеBus based architecture with parallel connectors Интерфейсные Медные провода • Различные пути для контрольной модули сигнализации, передачи данных и питания Модули • Active or Passive types управления Ограничения Фабрик • Ограниченная пропускная модули способность • Ограничение на подачу питания • Ассиметричное расположение модулей • Проблемы с общей платой • Front-to-back поток воздуха требует большого шасси 16 © 2012 Extreme Networks, Inc. All rights reserved.
  • 17. Вызов #2 – Емкость. Современная архитектура Фабрик модуль I/O модули Подключается нарямую Фабрик модуль I/O модуль © 2012 Extreme Networks, Inc. All rights reserved. 17
  • 18. Требования к HPC Задержка Емкость Надежность • Системная задержка • Total system capacity • System fault tolerance to handle existing and to maximize up time future traffic growth • Примеры: • Примеры: • Примеры: o End-to-end задержка o Емкость o Избыточные модули 10 GbE 2.3 коммутационной для микросекунд фабрики(в Tbps) для управления, коммут o Порты10/40/100 GbE обработки трафика ации и питания без переподписки o Большая пропускная o Компоненты с способность на слот горячей заменой для будущего роста o Бесшовная отказоустойчивость и обновления ПО 18 © 2012 Extreme Networks, Inc. All rights reserved.
  • 19. Вызов №3. Надежность. Аппаратная надежность. Возможность горячей замены любого из компонентов Питание – Отказоустойчивость по схеме N+1 или N+N Охлаждение – Отказоустойчивость по схеме N+1 или N+N Коммутация – Отказоустойчивость фабрик модулей по схеме N+1 Управление – Отказоустойчивость управляющих модулей по схеме N+1 * Future availability. 19 © 2012 Extreme Networks, Inc. All rights reserved.
  • 20. Вызов №3. Надежность. Топология ЦОД №2 EAPS G.8032 MLAG SW #1 SW #2 50% TCP MLAG MLAG STACK SW “A” SW “B” SW “C” SW “D” 50% TCP Dual-homing 20 © 2012 Extreme Networks, Inc. All rights reserved.
  • 21. Вызов №3. Надежность. Операционная система Инновации Extreme Networks® • Модульность = Надежность Configuration Management • Без модульности…. (CLI/SNMP/XML/Scripts) – Process failed = перезапуск ОС ExtremeXOS Application Modules – Установка модуля = перезапуск ОС sFlow SSH2 OSPF VRRP STP EAPS ESRP • С модульностью ExtremeXOS® …. 802.1x – Автоматический перезапуск процесса ExtremeXOS Kernel-Loadable Modules – Динамическая установка модулей ExtremeXOS Kernel • Унифицированная ОС для всего Hardware Abstraction Layer оборудования Hardware – От 10/100M до 100G решений ExtremeXOS • ExtremeXOS Modular Operating System – Поставляется с 2003 Page © 2012 Extreme Networks, Inc. All rights reserved. 21
  • 22. Принципы на практике. Что есть на рынке 24x40G Modules 4x40G Uplink 48 x 10G Access Summit® X670 BlackDiamond X8 Top-of-Rack End-of-Row/Aggregation 1G/10G Access 10G Access/Aggregation 10G/40G Uplinks 40G Aggregation Data Center Bridging M-LAG Direct Attach™ / VEPA XNV™ OpenFlow ExtremeXOS® 22 © 2012 Extreme Networks, Inc. All rights reserved. * Future availability.
  • 23. Коммутатор X670 Summit® X670V-48x – 48-портовый 1 /10 GbE коммутатор – Разъем для расширения VIM4-40G-4X предоставляет: • 4-порта 40 GbE • 16-портов 10 GbE со сплиттером • 64-порта 10 GbE максимум • SummitStack™-V320 два 40 GbE порта Двунаправленные блоки вентиляторов – SummitStack-V через два 10 GbE порта Блоки питания AC/DC с горячей заменой Summit X670-48x – 48-портовый 1 /10 GbE коммутатор – SummitStack-V через два 10 GbE порта * Future availability. 23 © 2012 Extreme Networks, Inc. All rights reserved.
  • 24. X670 – Высокоскоростное стекирование – 320Гб/c Summit® X670V Summit X670V Summit X670V Summit X670V Summit X670V Summit X670V Summit X670V Summit X460/480 Summit X460/480 Summit X460/480 24 © 2012 Extreme Networks, Inc. All rights reserved.
  • 25. BlackDiamond X8. Вид спереди Модули управления Блоки Форм-фактор питания • 19’’стойка A 1 2 3 4 • 14.5RU высота, 30” глубина B 5 6 7 8 Передняя конфигурация A B • 8 слотов для питания 1 • 2 слотов для управления • 8 слотов для I/O 2 14.5 RU Варианты для управления 3 • 1+1 управление 4 Варианты I/O карт 5 • 48 x 10GbE SFP+ 6 • 12 x 40GbE QSFP+ 7 • 24 x 40GbE QSFP+ 8 Варианты питания • 2500W AC источники Интерфейсные • N+1 с 5 источниками модули • N+N с 8 источниками © 2012 Extreme Networks, Inc. All rights reserved.
  • 26. BlackDiamond X8. Вид спереди Управляющий модуль 48-портовый 10GbE модуль 12-портовый 40GbE модуль 24-портовый 40GbE модуль © 2012 Extreme Networks, Inc. All rights reserved.
  • 27. BlackDiamond X8. Ввид сзади Питание A B Конфигурация сзади 1 2 3 4 5 6 7 8 • 4 фабрик слота • 5 вентиляторных блоков • 8 блоков питания Фабрик модули • Ортогональное соединение с фабрикой • 3+1 фабрик модулей • 20.48Тб/c коммутационной мощности • 2.56Тб/с пропускной способности на слот Охлаждение • Поток спереди назад • Отсутствие midplane • 5 вентиляторных блоков • 5+1 вентиляторов на блок, 30 всего 1 2 3 4 • Динамическая скорость Фабрик модули вращения 1 2 3 4 5 Вентиляторы © 2012 Extreme Networks, Inc. All rights reserved.
  • 28. BlackDiamond X8. Производительность. 320G на слот x 8 = 2.56T 320G на слот x 8 = 2.56T 320G на слот x 8 = 2.56T 320G на слот x 8 = 2.56T 1.28 Тб/c 1.28 Тб/c 10.24 б/c 1.28 Тб/c В одну 1.28 Тб/c сторону 1.28 Тб/c 1.28 Тб/c 1.28 Тб/c 1.28 Тб/c © 2012 Extreme Networks, Inc. All rights reserved.
  • 29. BlackDiamond X8. Поддержка оптики QSFP+ 40GBASE-SR4 сплиттер QSFP+ оптика 10GBASE-SR LC коннектор MTP 40GBASE-SR4 40GbE QSFP+ порт До 100 метров 29 © 2012 Extreme Networks, Inc. All rights reserved.
  • 30. Пример – HPC для нефтяной компании • HPC cluster is based on three main components: – Cluster servers with 10G NICs. Vendors – HP, IBM & DELL – High performance storage with 10G & 40G. Vendors DDN & Panasas – Networks switches with 10G & 40G. Vendors – Extreme Networks • Requirements for platforms – Storage must support both Infiniband for legacy connectivity and Ethernet – Server platform Intel/Linux & 7200TB storage – 10G/40G Ethernet • Purpose of HPC – Must support a connectivity of large storage subsystems – To be used for seismic data processing 30 © 2012 Extreme Networks, Inc. All rights reserved.
  • 31. Пример – Топология EXTREME NETWORKS DDN Storage Servers HP Cluster Servers BLACK DIAMOND X8 10G 40G 228 ports 128 ports 10G 16 ports LAN 3rd party network vendor 31 © 2012 Extreme Networks, Inc. All rights reserved.
  • 32. Пример – HPC для нефтяной компании • Почему Ethernet Компания запросили решение на Ethernet потому, что: – a. Ethernet может передавать 40G, но IB может 40G и 56G – b. Ethernet дешевле и проще найти экспертов. Низкий CAPEX – c. Ethernet дешевле в поддержке. Низкий OPEX – d. У Ethernet будет вскоре 100G – E. За Ethernet стоят тяжеловесные производители сетевого оборудования 32 © 2012 Extreme Networks, Inc. All rights reserved.
  • 33. Спасибо за внимание 33 © 2012 Extreme Networks, Inc. All rights reserved.

Editor's Notes

  • #10: 5micro sec per KM..
  • #26: Front Configuration: