"Лавриненко Ярослав" HPC GPU CUDA

ПРИМЕРЫ ИСПОЛЬЗОВАНИЯ КЛАСТЕРА НА ОСНОВЕ GPU Лавриненко Ярослав Сергеевич ученик 11-го класса Черкасский физико-математический лицей Богатырёв Александр Олегович Черкасского национального университета имени Богдана Хмельницкого Кандидат физико-математических наук Черкассы 2011

ЦЕЛЬ РАБОТЫ Рассмотреть графические ускорители и их использование для решения неграфических задач Используя комбинирование технологий MPI та OpenCL создать параллельные реализации: Дискретного косинус преобразования ( DCT – discrete cosine transformation) Метода внедренного атома ( EAM – embedded atom method) Определить ускорение получаемое при использовании графических ускорителей та их кластеров

ГРАФИЧЕСКИЙ ПРОЦЕССОР (GPU) GPU – многопроцессорная система SIMD архитектуры Архитектура nVidia Tesla 10

ТЕКСТУРНО-ПРОЦЕССОРНЫЙ КЛАСТЕР (TPC) Мультипроцессор nVidia Tesla 10

ТЕХНОЛОГИИ ПРОГРАММИРОВАНИЯ Программирование графических ускорителей требует использования специальных языков CUDA (Compute Unified Device Architecture) – система библиотек и расширений для программирования GPU , производимых nVidia начиная с GeForce 8800 . OpenCL (Open Computing Language) – фреймворк для написания компьютерных программ, связанных с параллельными вычислениями на различных графических и центральных процессорах.

ПРОГРАМНАЯ МОДЕЛЬ SIMT архитектура Исходная задача разбивается на подзадачи решаемые параллельно Каждая подзадача решается множеством нитей взаимодействующих между собой Каждый потоковый мультипроцессор выполняет большое число разных нитей Нити разбиваются на warp` ы (по 32 нити). Потоковый мультипроцессор управляет выполнением warp` ов Нити в warp` е выполняются физически параллельно Большое число warp` ов покрывает латентность

ВЫЧИСЛИТЕЛЬНЫЕ КЛАСТЕРЫ Вычислительный кластер – это MIMD-система состоящая из множества отдельных компьютеров объединенных единой коммуникационной средой. MPI ( Message Passing Interface ) – программный интерфейс позволяющий обмениваться сообщениями между процессами что выполняют одну задачу

КЛАСТЕРЫ НА БАЗЕ GPU Высокая продуктивность при малых энергетических и экономических затратах Для программирования используются связки технологий MPI + CUDA или MPI + OpenCL

ДИСКРЕТНОЕ КОСИНУС ПРЕОБРАЗОВАНИЕ ( DCT) Разбиение изображения на блоки пикселей размером n*n и расчет коэффициентов DCT для каждого блока. 2. Обратное преобразование описывает уравнение: 3. Коэффициенты задаются функцией:

ПАРАЛЛЕЛЬНАЯ РЕАЛИЗАЦИЯ для GPU: Для каждого пиксела изображения создается отдельная нить, выполняемая на графическом процессоре Нити объединяются в группы 8х8 нитей в которых, рассчитываются коэффициенты DCT Нити используют быстродействующую Shared Memory графического ускорителя для хранения фрагментов изображения для кластера: Изображение разбивается на блоки большого размера и отправлялись на узлы кластера Каждый узел выполняет преобразование для своего фрагмента изображения

Результаты Полученное укскорение GPU: nVidia GeForce GT 460, CPU: AMD Phenom II x6 10 90 T 2.8 Ггц

Результаты Полученное укскорение 4 GPU: nVidia GeForce GT 240 , 4 CPU: AMD Athlon II x2 4800+

МЕТОД ВНЕДРЕННОГО АТОМА EMBEDDED ATOM METHOD - EAM Является модификацией метода молекулярной динамики. Для расчета межатомного взаимодействия используется парный потенциал и локальная электронная плотность вокруг рассматриваемого атома В качестве парного потенциала использовался потенциал Ленарда-Джонса Для расчета положения и скорости использовался Leapfrog алгоритм

ПАРАЛЛЕЛЬНАЯ РЕАЛИЗАЦИЯ для GPU : Для каждой частицы системы создается нить, исполняемая на графическом ускорителе На графическом ускорителе происходит построение списков Верле и расчет межатомного взаимодействия для кластера: Система разбивается на блоки, которые отправлялись на узлы кластера для дальнейшей обработки Соседние узлы, в случаи необходимости после каждой итерации, обмениваются данными

Результаты (для одного ускорителя) Полученное ускорение GPU: nVidia GeForce GT 420M, CPU: Intel Core i5-460M 2.53 Ггц

ВЫВОДЫ Рассмотрено графический ускоритель как устройство с массивно-параллельной архитектурой, технологии его программирования Создано параллельную версию дискретного косинус преобразования и метода внедренного атома для кластера на базе GPU Получено ускорение в 407 раз при использовании одного графического ускорителя и в 300 раз при использовании кластера графических ускорителей Ускорение в 2,5 раза было получено при моделировании методом внедренного атома

СПИСОК ЛИТЕРАТУРЫ M. Griebel, S. Knapek, G. Zumbusch. Numerical Simulation in Molecular Dynamics. 2007. – 416, [1-10]c./[38] c. Rapaport. The Art Of Molecular Dynamics Simulation . Cambridge 2004. – 548, [1-7] c. NVIDIA CUDA Programming Guide. Ver 3.2. Червень 2010 — NVIDIA Corporation, 2010. А. В. Боресков, А. А. Харламов . Основы работы с технологией CUDA. - М .:ДМК Пресс, 2010. – 232 с. Introduction to OpenCL programming. Травень 2010 – Advanced Micro Devices Д. С эломон. Сжатие данных, изображений и звука. ЗАО «РИЦ «Техносфера», 2004 – 367 с.

"Лавриненко Ярослав" HPC GPU CUDA

More Related Content

What's hot (20)

Similar to "Лавриненко Ярослав" HPC GPU CUDA (20)

More from Oleg Nazarevych (20)

"Лавриненко Ярослав" HPC GPU CUDA