Обчислювальний кластер Київського національного університету ім. Т.Шевченка

Тести для вимiрювання швидкостi обрахунку взятi iз стандартних поставок пакетiв ATLAS, SCALAPACK, HPL

Результати тестування одного вузла за допомогою пакету ATLAS:

Тести LU факторизацiї одного вузла

M,N - розмiрнiсть матрицi;
TIME - час CPU в секундах;
MFLOP - швидкiсть обрахунку;
RESID - помилка при виконаннi факторизацiї;
lda - розмiрнiсть головної матрицi.

2xIntel Pentium III з частотою 1 ГГц

complex single precision 1 thread:

NREPS Major M N lda NPVTS TIME MFLOP RESID
===== ===== ===== ===== ===== ===== ======== ======== ========
 0 Col 100 100 100 95 0.010 265.667 9.976e-02
 0 Col 200 200 200 193 0.030 709.778 7.859e-02
 0 Col 300 300 300 293 0.100 719.100 8.082e-02
 0 Col 400 400 400 396 0.190 897.404 7.025e-02
 0 Col 500 500 500 495 0.360 925.231 7.226e-02
 0 Col 600 600 600 592 0.560 1027.929 6.524e-02
 0 Col 700 700 700 698 0.870 1050.778 6.804e-02
 0 Col 800 800 800 797 1.220 1118.601 6.324e-02
 0 Col 900 900 900 895 1.640 1184.872 5.568e-02
 0 Col 1000 1000 1000 995 2.090 1275.439 5.835e-02

real double precision 1 thread 

NREPS Major M N lda NPVTS TIME MFLOP RESID
===== ===== ===== ===== ===== ===== ======== ======== ========
 0 Col 100 100 100 95 0.000 0.000 2.033e-02
 0 Col 200 200 200 194 0.020 265.667 1.880e-02
 0 Col 300 300 300 295 0.050 359.100 1.366e-02
 0 Col 400 400 400 394 0.110 387.152 1.337e-02
 0 Col 500 500 500 490 0.200 416.042 1.226e-02
 0 Col 600 600 600 594 0.310 463.935 1.304e-02
 0 Col 700 700 700 693 0.520 439.272 1.045e-02
 0 Col 800 800 800 793 0.730 467.142 1.002e-02
 0 Col 900 900 900 893 1.040 466.918 1.117e-02
 0 Col 1000 1000 1000 995 1.410 472.459 9.980e-03

real single precision 1 thread

NREPS Major M N lda NPVTS TIME MFLOP RESID
===== ===== ===== ===== ===== ===== ======== ======== ========
 0 Col 100 100 100 95 0.000 0.000 4.906e-02
 0 Col 200 200 200 194 0.010 531.333 3.685e-02
 0 Col 300 300 300 295 0.030 598.500 3.653e-02
 0 Col 400 400 400 394 0.050 851.733 3.627e-02
 0 Col 500 500 500 490 0.100 832.083 3.831e-02
 0 Col 600 600 600 594 0.190 756.947 3.060e-02
 0 Col 700 700 700 693 0.230 993.138 3.618e-02
 0 Col 800 800 800 793 0.330 1033.374 2.909e-02
 0 Col 900 900 900 893 0.440 1103.625 3.372e-02
 0 Col 1000 1000 1000 995 0.610 1092.077 3.269e-02

complex double precision 1 thread 

NREPS Major M N lda NPVTS TIME MFLOP RESID
===== ===== ===== ===== ===== ===== ======== ======== ========
 0 Col 100 100 100 95 0.010 265.667 3.536e-02
 0 Col 200 200 200 193 0.050 425.867 2.882e-02
 0 Col 300 300 300 293 0.160 449.437 2.443e-02
 0 Col 400 400 400 396 0.340 501.490 2.266e-02
 0 Col 500 500 500 495 0.690 482.729 2.293e-02
 0 Col 600 600 600 592 1.170 492.000 2.234e-02
 0 Col 700 700 700 698 1.820 502.295 2.076e-02
 0 Col 800 800 800 797 2.580 528.951 1.922e-02
 0 Col 900 900 900 895 3.740 519.570 1.888e-02
 0 Col 1000 1000 1000 995 5.070 525.773 1.900e-02

Найкращі результати відповідають типу даних complex single precision, тому далі всі результати наводяться для цього типу даних

complex single precision 2 потоки. Залежність від розміру матриці 

NREPS Major M N lda NPVTS TIME MFLOP RESID
===== ===== ===== ===== ===== ===== ======== ======== ========
 0 Col 1000 1000 1000 992 1.221 2182.407 5.087e-02
 0 Col 2000 2000 2000 1993 8.387 2543.290 5.216e-02
 0 Col 3000 3000 3000 2990 26.567 2709.756 5.144e-02
 0 Col 4000 4000 4000 3989 61.728 2764.574 5.079e-02
 0 Col 5000 5000 5000 4992 139.775 2384.609 4.658e-02
 0 Col 6000 6000 6000 5992 276.146 2085.724 5.329e-02
 0 Col 7000 7000 7000 6989 631.345 1448.681 4.818e-02

complex single precision 1 потік. Залежність від розміру матриці

NREPS Major M N lda NPVTS TIME MFLOP RESID
===== ===== ===== ===== ===== ===== ======== ======== ========
 0 Col 1000 1000 1000 992 1.970 1353.130 5.102e-02
 0 Col 2000 2000 2000 1993 13.790 1546.725 5.220e-02
 0 Col 3000 3000 3000 2992 45.540 1580.830 5.072e-02
 0 Col 4000 4000 4000 3995 106.120 1608.091 5.173e-02
 0 Col 5000 5000 5000 4987 207.110 1609.330 4.580e-02
 0 Col 6000 6000 6000 5992 360.540 1597.504 5.105e-02

2xIntel Xeon з частотою 2.4 ГГц


Паралельне багатопотокове виконання з використанням технології Hyper Threading (4 потоки)

NREPS Major M N lda NPVTS TIME MFLOP RESID
===== ===== ===== ===== ===== ===== ======== ======== ========
 0 Col 1000 1000 1000 992 0.527 5059.199 6.085e-02
 0 Col 2000 2000 2000 1993 2.903 7347.668 5.506e-02
 0 Col 3000 3000 3000 2993 8.280 8694.832 5.576e-02
 0 Col 4000 4000 4000 3997 18.731 9110.503 5.528e-02
 0 Col 5000 5000 5000 4990 34.865 9559.908 5.438e-02
 0 Col 6000 6000 6000 5991 57.500 10016.801 5.097e-02
 0 Col 7000 7000 7000 6993 142.319 6426.531 5.304e-02

Однопотокове виконання з використанням технології Hyper Threading

NREPS Major M N lda NPVTS TIME MFLOP RESID
===== ===== ===== ===== ===== ===== ======== ======== ========
 0 Col 1000 1000 1000 992 0.700 3808.095 6.113e-02
 0 Col 2000 2000 2000 1993 4.650 4586.953 5.608e-02
 0 Col 3000 3000 3000 2992 14.140 5091.301 5.518e-02
 0 Col 4000 4000 4000 3992 32.770 5207.527 5.560e-02
 0 Col 5000 5000 5000 4991 62.950 5294.811 5.413e-02
 0 Col 6000 6000 6000 5992 104.740 5498.988 5.114e-02
 0 Col 7000 7000 7000 6989 165.700 5519.720 5.318e-02
 0 Col 8000 8000 8000 7984 245.230 5567.301 5.098e-02
 0 Col 9000 9000 9000 8987 346.530 5609.670 4.744e-02
 0 Col 10000 10000 10000 9989 470.260 5670.409 4.985e-02

багатопотокове виконання без використання технології Hyper Threading (2 потоки)

NREPS Major M N lda NPVTS TIME MFLOP RESID
===== ===== ===== ===== ===== ===== ======== ======== ========
 0 Col 1000 1000 1000 992 0.580 4592.090 6.182e-02
 0 Col 2000 2000 2000 1993 3.029 7041.152 5.481e-02
 0 Col 3000 3000 3000 2990 8.514 8455.847 5.605e-02
 0 Col 4000 4000 4000 3997 18.997 8983.028 5.530e-02
 0 Col 5000 5000 5000 4989 36.557 9117.411 5.104e-02
 0 Col 6000 6000 6000 5986 58.011 9928.517 5.065e-02
 0 Col 7000 7000 7000 6988 187.199 4885.801 5.365e-02
 0 Col 8000 8000 8000 7992 302.810 4508.670 5.060e-02
 0 Col 9000 9000 9000 8989 397.550 4889.741 4.823e-02
 0 Col 10000 10000 10000 9991 544.258 4899.458 5.452e-02

Однопотокове виконання без використання технології Hyper Threading

NREPS Major M N lda NPVTS TIME MFLOP RESID
===== ===== ===== ===== ===== ===== ======== ======== ========
 0 Col 1000 1000 1000 992 0.730 3651.598 6.113e-02
 0 Col 2000 2000 2000 1993 4.600 4636.812 5.608e-02
 0 Col 3000 3000 3000 2992 14.180 5076.939 5.518e-02
 0 Col 4000 4000 4000 3992 32.740 5212.299 5.560e-02
 0 Col 5000 5000 5000 4991 62.530 5330.375 5.413e-02
 0 Col 6000 6000 6000 5992 104.120 5531.733 5.114e-02
 0 Col 7000 7000 7000 6989 164.820 5549.191 5.318e-02
 0 Col 8000 8000 8000 7984 243.850 5598.808 5.098e-02
 0 Col 9000 9000 9000 8987 344.530 5642.234 4.744e-02
 0 Col 10000 10000 10000 9989 466.560 5715.378 4.985e-02

Видно, що для однакових типів операцій технологія Hyper Threading майже не дає переваги в обчислювальній ефективності, проте суттєво підвищує продуктивність вводу-виводу, отже її має сенс вмикати на обчислювальному кластері.

Intel 2x(4 core Xeon EM64T) з частотою 2.6 ГГц:

Паралельне виконання 8 потоків

NREPS Major M N lda NPVTS TIME MFLOP RESID
===== ===== ===== ===== ===== ===== ======== ======== ========
 0 Col 2000 2000 2000 1994 1.698 12561.652 5.603e-02
 0 Col 4000 4000 4000 3993 8.351 20435.877 4.665e-02
 0 Col 6000 6000 6000 5991 20.241 28455.086 4.437e-02
 0 Col 8000 8000 8000 7988 53.372 25580.422 4.940e-02
 0 Col 10000 10000 10000 9984 91.722 29072.413 4.924e-02
 0 Col 12000 12000 12000 11986 144.066 31984.438 4.739e-02
 0 Col 14000 14000 14000 13988 258.585 28296.828 4.837e-02

послідовне виконання

Результати тестування кластера за HPL:

HPL (High Performance Linpack) тест, що викорситовується top500 для порівняння продуктивності найшвидших високопродуктивних систем (суперкомп'ютерів). Цей тест виконує розв'язання системи лінійних алгебраїчних рівнянь методом Гауса (LU факторизація) за допомогою різних паралельних алгоритмів. Загальна кількість операцій алгориту приблизно 2/3 n^3 + O(n^2), де n - розміність матриці. Шляхом підбору парамтерів алгоритму намагаються досягти найшвидшого виконання.

Кластер університету є гетерогенним, тому за допомогою HPL для нього важко отримати високі характеристики продуктивності. Тут наведено найкращий результат тестування для 17 вузлів, 54 процесорів (з hyperthreading): 8 - 2xPentium III 1 GHz, 7 - 4xXeon 2 GHz (HT), 2 - 4xXeon 3,2 GHz (HT). Сітка 2x27 процесорів, починаючи з найшвидших. Парамтери сітки не підбирались. Обмін повідолмленнями виконувався за допомогою LAM MPI 7.1.1 в межах вузла з використанням спільної пам'яті і спін-блокувань, а між вузлами з використанням протоколу TCP/IP.

Параметри

T/V -схема обміну
N - розмiрнiсть матрицi;
NB - розмiр блоку
PxQ - розмірність сітки процесорів;
Time - час обрахунку;
Gflops - продуктивність;

T/V N NB P Q Time Gflops 
-----------------------------------------------------------------------------
W11R2R2 22000 80 2 27 264.39 2.685e+01
----------------------------------------------------------------------------
||Ax-b||_oo / ( eps * ||A||_1 * N ) = 0.0240750 ...... PASSED
||Ax-b||_oo / ( eps * ||A||_1 * ||x||_1 ) = 0.0114412 ...... PASSED
||Ax-b||_oo / ( eps * ||A||_oo * ||x||_oo ) = 0.0022557 ...... PASSED
============================================================================

Пікова продуктивність системи, що використовувалась для тестуваня блиизько 72 Gflops.