SlideShare a Scribd company logo
Архитектура
NVIDIA Kepler


Производительность. Эффективность. Доступность.
                                                  1
Tesla: в 2-3 раза быстрее каждые 2 года
                     16
                                                             Maxwell

                     14
DP GFLOPS per Watt




                     12

                     10

                      8

                      6                           Kepler

                      4
                                       Fermi
                      2     T10


                             2008       2010       2012        2014
                                                                       2
Kepler



         3
Kepler
САМЫЙ БЫСТРАЯ И ЭФФЕКТИВНАЯ HPC АРХИТЕКТУРА


                               SMX

                             Hyper-Q

                        Dynamic Parallelism

                                              4
Kepler: Скорость и Эффективность

     SM                               SMX
     M2090                               K20




                     3x
                                   УПРАВЛЯЮЩАЯ ЛОГИКА
УПРАВЛЯЮЩАЯ ЛОГИКА




                     Perf / Watt
    32 ядра                           192 ядра
                                                        5
1 Петфлоп
Всего в 10 стойках
     400 кВт

                     6
Hyper-Q
CPU ядра одновременно запускают задачи на Kepler
             FERMI                                KEPLER
     1 MPI задача одновременно             32 MPI задачи одновременно




                                                                        7
Hyper-Q
Максимальная утилизация GPU, сокращение времени простоя CPU

                   100                                 100




                                    Утилизация GPU %
Утилизация GPU %




                   50                                  50




                    0                                   0
                         Time                                Time   8
Dynamic Parallelism
GPU адаптируется к данным, динамически порождая новые потоки

   CPU      Fermi GPU            CPU        Kepler GPU




                                                          9
Dynamic Parallelism
Программирование на GPU проще и доступнее
 Слишком грубо   Слишком мелко   Как надо




                                            10
Tesla K10                      Tesla K20




     3x одинарная точность              3x двойная точность

1.8x пропусная способность памяти   Hyper-Q, Dynamic Parallelism

Обработка изображений, сигналов,    CFD, FEA, финансы, физика
        сейсморазведка
            Уже доступно                Доступно в Q4 2012
                                                                   11
Tesla K10
Тоже потребление, 2x производительность Fermi
  Product Name            M2090                  K10
GPU Architecture           Fermi           Kepler GK104
# of GPUs                    1                    2
                                        Board          Per GPU
Single Precision Flops     1.3 TF      4.58 TF         2.29 TF
Double Precision Flops    0.66 TF     0.190 TF         0.095 TF
# CUDA Cores                512         3072               1536
Memory size                6 GB         8 GB               4GB
Memory BW (ECC off)      177.6 GB/s   320 GB/s         160GB/s
PCI-Express                Gen 2      Gen 3 (Gen 2 compatible)
Board Power              225 watts             225 watts


                                                                  12
K10 для нефтегаза             2
                                  сейсмоанализ

                            1.5
                              1
                            0.5
                              0




   • 1.8X симуляций в день для
     более точных моделей
   • Ниже риски и выше надежность
   • 2X GPU в том же формате
                                                 13
K10 для обороны
                                       Числовая аналитика
                                2
                              1.5
                                1
                              0.5
                                0
                                    M2090         k10



• 1.9X вычислений в день для более точных моделей
• Быстрее аналитика и точнее решения
• 2X GPU в том же формате


                                                            14
K10 для биоинформатики
                          3
                        2.5
                          2
                        1.5
                          1
                        0.5
                          0




 • 2.2X симуляций для приложений МД
 • Большие эксперименты на меньших кластерах
 • 2X GPU в том же формате

                                              Gromacs 4.6 pre-beta version
                               * 2 instances of AMBER 12 (with beta patch)
                                                                    15
Tesla K10 vs M2090: 2x производительность / Ватт
   2.50




   2.00




   1.50




   1.00




   0.50




   0.00
           Seismic     LAMMPS   NAMD   AMBER*        Radio         Nbody        Defense
          Processing                              Astronomy                  (Integer Ops)
                                                Cross-Correlator

                                                             * 2 instances of AMBER running JAC   16
118 коммерческих приложений ускоряются на GPU




                  www.nvidia.com/teslaapps
                                             17
MSC Nastran цена/производительность
                 решения MSC Nastran 2012 and Model 3.4M DOF
                  NOTE: Based on

                                                                                                                                  Extra 13% cost
                                              Results from PSG cluster node (fs0), 2x Nehalem 2.27GHz,
                                         6                                                                                          yields 160%
Factors Gain Over Base License Results




                                              96GB memory, Linux/CentOS; 2x Tesla C2050, CUDA 4.0
                                                                                                                                    performance
                                                                                                                                   (over 8 cores)                   *
                                                                                                                                                    Solution Cost Basis
                                                                                                                                                    - Linear Structures Package
                                         5        CPU Speed-up                                                              5.3
                                                                                                                                                      (Base SMP license)
                                                  GPU Speed-up                                              4.6
                                         4        Solution Cost
                                                                                                                                                    - Expert Package
                                                                                                                                                    (Nonlinear)
                                         3                                             3.3                                                          - Implicit HPC Package
                                                                                                                                                      (DMP Network License)
                                         2                         2.6                                                                              - GPU License
                                                                                                                                                    - $10K for System cost
                                         1                                                   1.24                                 1.4               - $4K for 2x Tesla 20-series
                                               1.0 1.0                   1.0                                      1.13
                                                                                                                                                    Performance Basis
                                         0                                                                                                          SOL101 Model:
                                                                                                                                                    - 3.4M DOF
                                                                                                                                                    - Stress analysis
                                             Nastran SMP       Nastran SMP         Nastran DMP            Nastran SMP     Nastran DMP               - Direct sparse
                                               License           4 Cores             8 Cores             + GPU License + GPU License
                                               1 Core                                                    1 Core + 1 GPU 2 Cores + 2 GPUs            * 1 year lease for SW pricing
                                                                                                                                                                            18
Программирование GPU



                       19
20
NVIDIA cuBLAS     NVIDIA cuRAND      NVIDIA cuSPARSE        NVIDIA NPP




  Vector Signal    GPU Accelerated   Matrix Algebra on
Image Processing    Linear Algebra   GPU and Multicore      NVIDIA cuFFT




                    Sparse Linear       Building-block     C++ STL Features
  IMSL Library         Algebra       Algorithms for CUDA       for CUDA



                            Библиотеки для GPU
                            “Copy-paste” для ускорения приложений
                                                                              21
Директивы OpenACC
      CPU                        GPU



                                                          Простые указатели для
                                                              компилятора
Program myscience
   ... serial code ...
!$acc kernels                                            Компилятор параллелизует
                                                                   код
   do k = 1,n1
      do i = 1,n2
                                        OpenACC метки
         ... parallel code ...         для компилятора
      enddo

                                                         Работает на многоядерных
    enddo
!$acc end kernels
  ...
End Program myscience                                         CPU и массивно
  Исходный код                                              параллельных GPU
   на C/Fortran                                                                   22
Минимум усилий. Ощутимый результат


 Модель жизненного        Звезды и галактики             Нейросети для
цикла морской фауны       12.5 млрд лет назад        самообучаемых роботов
  Университет Мельбурна     Университет Гронингена       Университет Плимута




65x за 2 для              5.6x за 5 дней             4.7x за 4 часа
                                                                               23
Воркшоп по OpenACC
    в суперкомпьютерном центре Питсбурга


                   К концу второго дня
получено 10-кратное ускорение одного из атмосферных ядер
                              6 директив

                    Technology Director
        National Center for Atmospheric
                       Research (NCAR)


                                                      24
Поддержка языков C, C++, Fortran моделью
 параллельного программирования CUDA
                              GPU Computing Applications
                    Libraries and Middleware
  cuFFT                                      PhysX
           LAPACK     NPP       VSIPL                       iray
 cuBLAS                                       Video                      MATLAB
            CULA     cuDPP       SVM                     Rendering
 cuRAND                                     OptiX Ray                   Mathematica
           MAGMA     Thrust   OpenCurrent               RealityServer
cuSPARSE                                     tracing




                                                                     Java
                                                                    Python                     Direct
     C++                  C                 Fortran                                                                              OpenCL           tm



                                                                   Wrappers                   Compute




                              NVIDIA GPU
                              CUDA Parallel Computing Architecture
                                                                                      OpenCL is trademark of Apple Inc. used under license to the Khronos Group25
                                                                                                                                                                Inc.
C для CUDA : C + «синтаксический сахар»
    void saxpy_serial(int n, float a, float *x, float *y)
    {
        for (int i = 0; i < n; ++i)
            y[i] = a*x[i] + y[i];
    }                                           Стандартный      код C
    // Invoke serial SAXPY kernel
    saxpy_serial(n, 2.0, x, y);


    __global__ void saxpy_parallel(int n, float a, float *x, float *y)
    {
        int i = blockIdx.x*blockDim.x + threadIdx.x;
        if (i < n) y[i] = a*x[i] + y[i];
    }
                                                Параллельный код         C
    // Invoke parallel SAXPY kernel with 256 threads/block
    int nblocks = (n + 255) / 256;
    saxpy_parallel<<<nblocks, 256>>>(n, 2.0, x, y);

                                                                         26
NVIDIA делает платформу CUDA открытой благодаря LLVM

                                                      CUDA          Поддержка
 CUDA бэкенд теперь доступен для LLVM            C, C++, Fortran   новых языков
             компилятора

SDK включает документацию, примеры и
            верификатор                                  LLVM компилятор
                                                            для CUDA
     Возможность добавления
 поддержки CUDA в новые языки и
          процессоры                            NVIDIA       x86      Поддержка
                                                 GPUs       CPUs   Новых процессоров


                    Подробности
      http://developer.nvidia.com/cuda-source

                                                                                       27
Kepler: впервые полноценная поддержка GPUDirect™


 System                                                        System
 Memory      GDDR5    GDDR5               GDDR5     GDDR5      Memory
             Memory   Memory              Memory    Memory




 CPU         GPU1     GPU2                GPU2      GPU1        CPU


            PCI-e                                      PCI-e
                      Network   Network   Network
                       Card                Card



          Сервер 1                                  Сервер 2
                                                                        28
CUDA    в цифрах:
>375,000,000   CUDA GPU на рынке
  >1,000,000   скачиваний SDK
   >120,000    активных разработчиков
       >500    университетов преподают CUDA

                                              29
Что дальше?




              30
CUDA для ARM
                                                 Исследовательская платформа
            CUDA GPU         Tegra ARM CPU           4-х ядерный процессор
                                                     NVIDIA Tegra 3 на базе ARM
                                                     NVIDIA CUDA GPU
                                                     Gbit сеть

Набор для разработчиков                                   CUDA SDK

http://www.secoqseven.com/en/item/secocq7-mxm/
                                                       Доступно сейчас
                                                                            31

More Related Content

PDF
Лекция 9. Программирование GPU
PDF
Лекция 5. Основы параллельного программирования (Speedup, Amdahl's law, paral...
PDF
Лекция 11: Программирование графических процессоров на NVIDIA CUDA
PPTX
High performance computing принципы проектирования сети
PPT
Efficiency vvv
PPT
"Лавриненко Ярослав" HPC GPU CUDA
PDF
Лекция 5. Основы параллельного программирования (Speedup, Amdahl's law, Paral...
PDF
как написать масштабируемую баннерокрутилку. денис бирюков, артем гавриченков...
Лекция 9. Программирование GPU
Лекция 5. Основы параллельного программирования (Speedup, Amdahl's law, paral...
Лекция 11: Программирование графических процессоров на NVIDIA CUDA
High performance computing принципы проектирования сети
Efficiency vvv
"Лавриненко Ярослав" HPC GPU CUDA
Лекция 5. Основы параллельного программирования (Speedup, Amdahl's law, Paral...
как написать масштабируемую баннерокрутилку. денис бирюков, артем гавриченков...

What's hot (7)

PDF
11 встреча — Введение в GPGPU (А. Свириденков)
PDF
Chronicle Map
PDF
Алексей Заблоцкий - Нейросети на основе мемристоров для реализации искусствен...
PDF
Лекция 4. Векторизация кода (Code vectorization: SSE, AVX)
PPTX
Что такое Postgresql (Максим Богук)
PDF
Лекция 3: Векторизация кода (Code vectorization, SIMD, SSE, AVX)
11 встреча — Введение в GPGPU (А. Свириденков)
Chronicle Map
Алексей Заблоцкий - Нейросети на основе мемристоров для реализации искусствен...
Лекция 4. Векторизация кода (Code vectorization: SSE, AVX)
Что такое Postgresql (Максим Богук)
Лекция 3: Векторизация кода (Code vectorization, SIMD, SSE, AVX)
Ad

Similar to Nvidia kepler architecture performance efficiency availability @ hpcday 2012 kiev (20)

PDF
Nvidia hpc day 2011 kiev
PPTX
Суперкомпьютеры сегодня и завтра архитектура, проблемы, перспективы (Андрей С...
PDF
Архитектура и уникальные особенности магистральной платформы Cisco NCS 6000
PPTX
Hpc 1.24.02.2013.
PDF
Nvidia Hpc Day Kiev Rus
PPT
Presentation Amd Cpu
PDF
Реклама со скоростью света (DMP-платформа), Сергей Жемжицкий (Clever Data)
PDF
Highload на GPU, опыт Vinci / Олег Илларионов (ВКонтакте)
PDF
Программно-технические комплексы для работы с геолого-геофизическими данными
PDF
Инструментарий Nvidia для deep learning
PDF
Обработка спйсмоданных: возможности оптимизации ИТ-инфраструктуры
PDF
Нейронные сети в высокопроизводительных вычислениях
PPTX
Extreme networks - network design principles for hpc @ hpcday 2012 kiev
PPTX
High performance computing - принципы проектирования сети
 
PPTX
Aппаратное обеспечения для решения задач механики сыпучих сред
PPTX
Hpc 2.26.03.2013.
PDF
Новое поколение серверов Dell
 
PDF
NVMf: 5 млн IOPS по сети своими руками / Андрей Николаенко (IBS)
PDF
Андрей Николаенко, IBS. NVMf: 5 млн IOPS по сети своими руками
 
PDF
ETegro: решения для ЦОД
Nvidia hpc day 2011 kiev
Суперкомпьютеры сегодня и завтра архитектура, проблемы, перспективы (Андрей С...
Архитектура и уникальные особенности магистральной платформы Cisco NCS 6000
Hpc 1.24.02.2013.
Nvidia Hpc Day Kiev Rus
Presentation Amd Cpu
Реклама со скоростью света (DMP-платформа), Сергей Жемжицкий (Clever Data)
Highload на GPU, опыт Vinci / Олег Илларионов (ВКонтакте)
Программно-технические комплексы для работы с геолого-геофизическими данными
Инструментарий Nvidia для deep learning
Обработка спйсмоданных: возможности оптимизации ИТ-инфраструктуры
Нейронные сети в высокопроизводительных вычислениях
Extreme networks - network design principles for hpc @ hpcday 2012 kiev
High performance computing - принципы проектирования сети
 
Aппаратное обеспечения для решения задач механики сыпучих сред
Hpc 2.26.03.2013.
Новое поколение серверов Dell
 
NVMf: 5 млн IOPS по сети своими руками / Андрей Николаенко (IBS)
Андрей Николаенко, IBS. NVMf: 5 млн IOPS по сети своими руками
 
ETegro: решения для ЦОД
Ad

More from Volodymyr Saviak (14)

PPTX
Fujifilm - where zettabytes lives @ hpc day 2012 kiev
PDF
Technical supercomputers laboratory. & insitute of cybernetics of ukraine @ h...
PDF
Altair - compute manager your gateway to hpc cloud computing with pbs profess...
PDF
Hp cmu – easy to use cluster management utility @ hpcday 2012 kiev
PDF
Mellanox hpc update @ hpcday 2012 kiev
PDF
Hp kiev hpcday_20121012
PPTX
Apc hpc day 2011 kiev
PDF
SGI HPC DAY 2011 Kiev
PDF
Golovinskiy hpc day 2011
PPT
Alekseev hpc day 2011 Kiev
PPT
Petrenko hpc day 2011 Kiev
PPTX
Kindratenko hpc day 2011 Kiev
PDF
Mellanox hpc day 2011 kiev
PDF
Massive solutions hpc day 2011 kiev
Fujifilm - where zettabytes lives @ hpc day 2012 kiev
Technical supercomputers laboratory. & insitute of cybernetics of ukraine @ h...
Altair - compute manager your gateway to hpc cloud computing with pbs profess...
Hp cmu – easy to use cluster management utility @ hpcday 2012 kiev
Mellanox hpc update @ hpcday 2012 kiev
Hp kiev hpcday_20121012
Apc hpc day 2011 kiev
SGI HPC DAY 2011 Kiev
Golovinskiy hpc day 2011
Alekseev hpc day 2011 Kiev
Petrenko hpc day 2011 Kiev
Kindratenko hpc day 2011 Kiev
Mellanox hpc day 2011 kiev
Massive solutions hpc day 2011 kiev

Nvidia kepler architecture performance efficiency availability @ hpcday 2012 kiev

  • 2. Tesla: в 2-3 раза быстрее каждые 2 года 16 Maxwell 14 DP GFLOPS per Watt 12 10 8 6 Kepler 4 Fermi 2 T10 2008 2010 2012 2014 2
  • 3. Kepler 3
  • 4. Kepler САМЫЙ БЫСТРАЯ И ЭФФЕКТИВНАЯ HPC АРХИТЕКТУРА SMX Hyper-Q Dynamic Parallelism 4
  • 5. Kepler: Скорость и Эффективность SM SMX M2090 K20 3x УПРАВЛЯЮЩАЯ ЛОГИКА УПРАВЛЯЮЩАЯ ЛОГИКА Perf / Watt 32 ядра 192 ядра 5
  • 6. 1 Петфлоп Всего в 10 стойках 400 кВт 6
  • 7. Hyper-Q CPU ядра одновременно запускают задачи на Kepler FERMI KEPLER 1 MPI задача одновременно 32 MPI задачи одновременно 7
  • 8. Hyper-Q Максимальная утилизация GPU, сокращение времени простоя CPU 100 100 Утилизация GPU % Утилизация GPU % 50 50 0 0 Time Time 8
  • 9. Dynamic Parallelism GPU адаптируется к данным, динамически порождая новые потоки CPU Fermi GPU CPU Kepler GPU 9
  • 10. Dynamic Parallelism Программирование на GPU проще и доступнее Слишком грубо Слишком мелко Как надо 10
  • 11. Tesla K10 Tesla K20 3x одинарная точность 3x двойная точность 1.8x пропусная способность памяти Hyper-Q, Dynamic Parallelism Обработка изображений, сигналов, CFD, FEA, финансы, физика сейсморазведка Уже доступно Доступно в Q4 2012 11
  • 12. Tesla K10 Тоже потребление, 2x производительность Fermi Product Name M2090 K10 GPU Architecture Fermi Kepler GK104 # of GPUs 1 2 Board Per GPU Single Precision Flops 1.3 TF 4.58 TF 2.29 TF Double Precision Flops 0.66 TF 0.190 TF 0.095 TF # CUDA Cores 512 3072 1536 Memory size 6 GB 8 GB 4GB Memory BW (ECC off) 177.6 GB/s 320 GB/s 160GB/s PCI-Express Gen 2 Gen 3 (Gen 2 compatible) Board Power 225 watts 225 watts 12
  • 13. K10 для нефтегаза 2 сейсмоанализ 1.5 1 0.5 0 • 1.8X симуляций в день для более точных моделей • Ниже риски и выше надежность • 2X GPU в том же формате 13
  • 14. K10 для обороны Числовая аналитика 2 1.5 1 0.5 0 M2090 k10 • 1.9X вычислений в день для более точных моделей • Быстрее аналитика и точнее решения • 2X GPU в том же формате 14
  • 15. K10 для биоинформатики 3 2.5 2 1.5 1 0.5 0 • 2.2X симуляций для приложений МД • Большие эксперименты на меньших кластерах • 2X GPU в том же формате Gromacs 4.6 pre-beta version * 2 instances of AMBER 12 (with beta patch) 15
  • 16. Tesla K10 vs M2090: 2x производительность / Ватт 2.50 2.00 1.50 1.00 0.50 0.00 Seismic LAMMPS NAMD AMBER* Radio Nbody Defense Processing Astronomy (Integer Ops) Cross-Correlator * 2 instances of AMBER running JAC 16
  • 17. 118 коммерческих приложений ускоряются на GPU www.nvidia.com/teslaapps 17
  • 18. MSC Nastran цена/производительность решения MSC Nastran 2012 and Model 3.4M DOF NOTE: Based on Extra 13% cost Results from PSG cluster node (fs0), 2x Nehalem 2.27GHz, 6 yields 160% Factors Gain Over Base License Results 96GB memory, Linux/CentOS; 2x Tesla C2050, CUDA 4.0 performance (over 8 cores) * Solution Cost Basis - Linear Structures Package 5 CPU Speed-up 5.3 (Base SMP license) GPU Speed-up 4.6 4 Solution Cost - Expert Package (Nonlinear) 3 3.3 - Implicit HPC Package (DMP Network License) 2 2.6 - GPU License - $10K for System cost 1 1.24 1.4 - $4K for 2x Tesla 20-series 1.0 1.0 1.0 1.13 Performance Basis 0 SOL101 Model: - 3.4M DOF - Stress analysis Nastran SMP Nastran SMP Nastran DMP Nastran SMP Nastran DMP - Direct sparse License 4 Cores 8 Cores + GPU License + GPU License 1 Core 1 Core + 1 GPU 2 Cores + 2 GPUs * 1 year lease for SW pricing 18
  • 20. 20
  • 21. NVIDIA cuBLAS NVIDIA cuRAND NVIDIA cuSPARSE NVIDIA NPP Vector Signal GPU Accelerated Matrix Algebra on Image Processing Linear Algebra GPU and Multicore NVIDIA cuFFT Sparse Linear Building-block C++ STL Features IMSL Library Algebra Algorithms for CUDA for CUDA Библиотеки для GPU “Copy-paste” для ускорения приложений 21
  • 22. Директивы OpenACC CPU GPU Простые указатели для компилятора Program myscience ... serial code ... !$acc kernels Компилятор параллелизует код do k = 1,n1 do i = 1,n2 OpenACC метки ... parallel code ... для компилятора enddo Работает на многоядерных enddo !$acc end kernels ... End Program myscience CPU и массивно Исходный код параллельных GPU на C/Fortran 22
  • 23. Минимум усилий. Ощутимый результат Модель жизненного Звезды и галактики Нейросети для цикла морской фауны 12.5 млрд лет назад самообучаемых роботов Университет Мельбурна Университет Гронингена Университет Плимута 65x за 2 для 5.6x за 5 дней 4.7x за 4 часа 23
  • 24. Воркшоп по OpenACC в суперкомпьютерном центре Питсбурга К концу второго дня получено 10-кратное ускорение одного из атмосферных ядер 6 директив Technology Director National Center for Atmospheric Research (NCAR) 24
  • 25. Поддержка языков C, C++, Fortran моделью параллельного программирования CUDA GPU Computing Applications Libraries and Middleware cuFFT PhysX LAPACK NPP VSIPL iray cuBLAS Video MATLAB CULA cuDPP SVM Rendering cuRAND OptiX Ray Mathematica MAGMA Thrust OpenCurrent RealityServer cuSPARSE tracing Java Python Direct C++ C Fortran OpenCL tm Wrappers Compute NVIDIA GPU CUDA Parallel Computing Architecture OpenCL is trademark of Apple Inc. used under license to the Khronos Group25 Inc.
  • 26. C для CUDA : C + «синтаксический сахар» void saxpy_serial(int n, float a, float *x, float *y) { for (int i = 0; i < n; ++i) y[i] = a*x[i] + y[i]; } Стандартный код C // Invoke serial SAXPY kernel saxpy_serial(n, 2.0, x, y); __global__ void saxpy_parallel(int n, float a, float *x, float *y) { int i = blockIdx.x*blockDim.x + threadIdx.x; if (i < n) y[i] = a*x[i] + y[i]; } Параллельный код C // Invoke parallel SAXPY kernel with 256 threads/block int nblocks = (n + 255) / 256; saxpy_parallel<<<nblocks, 256>>>(n, 2.0, x, y); 26
  • 27. NVIDIA делает платформу CUDA открытой благодаря LLVM CUDA Поддержка CUDA бэкенд теперь доступен для LLVM C, C++, Fortran новых языков компилятора SDK включает документацию, примеры и верификатор LLVM компилятор для CUDA Возможность добавления поддержки CUDA в новые языки и процессоры NVIDIA x86 Поддержка GPUs CPUs Новых процессоров Подробности http://developer.nvidia.com/cuda-source 27
  • 28. Kepler: впервые полноценная поддержка GPUDirect™ System System Memory GDDR5 GDDR5 GDDR5 GDDR5 Memory Memory Memory Memory Memory CPU GPU1 GPU2 GPU2 GPU1 CPU PCI-e PCI-e Network Network Network Card Card Сервер 1 Сервер 2 28
  • 29. CUDA в цифрах: >375,000,000 CUDA GPU на рынке >1,000,000 скачиваний SDK >120,000 активных разработчиков >500 университетов преподают CUDA 29
  • 31. CUDA для ARM Исследовательская платформа CUDA GPU Tegra ARM CPU 4-х ядерный процессор NVIDIA Tegra 3 на базе ARM NVIDIA CUDA GPU Gbit сеть Набор для разработчиков CUDA SDK http://www.secoqseven.com/en/item/secocq7-mxm/ Доступно сейчас 31