developpement:activites:integration:par4all4wheezy

Différences

Ci-dessous, les différences entre deux révisions de la page.

--- developpement:activites:integration:par4all4wheezy [2013/09/26 21:08]
equemene [Pour utiliser P4A en mode OpenMP]
+++ developpement:activites:integration:par4all4wheezy [2013/09/26 21:40]
equemene [Pour utiliser P4A en mode Cuda]
@@ Ligne 187: / Ligne 187: @@
 p4a --openmp -vv matrix.c
 gcc -fopenmp -O3 -mtune=native -o matrix-OpenMP matrix.p4a.c
+</code>
+L'exécution précédente de matrix par la commande ''/usr/bin/time ./matrix-OpenMP'' donne alors :
+<code>
+La trace de la matrice est 18428734073246580736.00
+.20user 0.12system 0:23.39elapsed 779%CPU (0avgtext+0avgdata 99068maxresident)k
+inputs+0outputs (0major+24825minor)pagefaults 0swaps
+</code>
+Par défaut, le programme OpenMP se lance sur tous les coeurs disponibles (virtuels ou pas !). Pour limiter sur un certain nombre de coeurs ''N'', utilisons ''export OMP_NUM_THREADS=N'' :
+<code>
+N=1
+while [ $N -ge 1 ]
+do
+  echo "Lancement sur $N thread(s)"
+  export OMP_NUM_THREADS=$N
+  /usr/bin/time ./matrix-OpenMP
+  N=$(($N-1))
+  echo
+done
+</code>
+<code>
+Lancement sur 8 threads
+.95user 0.08system 0:24.13elapsed 779%CPU (0avgtext+0avgdata 99088maxresident)k
+Lancement sur 7 threads
+.10user 0.04system 0:26.00elapsed 654%CPU (0avgtext+0avgdata 99076maxresident)k
+Lancement sur 6 threads
+.38user 0.07system 0:27.95elapsed 541%CPU (0avgtext+0avgdata 99072maxresident)k
+Lancement sur 5 threads
+.15user 0.06system 0:29.87elapsed 419%CPU (0avgtext+0avgdata 99064maxresident)k
+Lancement sur 4 threads
+.46user 0.04system 0:26.33elapsed 396%CPU (0avgtext+0avgdata 99056maxresident)k
+Lancement sur 3 threads
+.95user 0.02system 0:32.17elapsed 298%CPU (0avgtext+0avgdata 99048maxresident)k
+Lancement sur 2 threads
+.65user 0.03system 0:43.94elapsed 199%CPU (0avgtext+0avgdata 99032maxresident)k
+Lancement sur 1 threads
+.47user 0.02system 1:31.65elapsed 99%CPU (0avgtext+0avgdata 99012maxresident)k
 </code>
@@ Ligne 192: / Ligne 247: @@
 ==== Pour utiliser P4A en mode Cuda ====
-Utilisation directe
+Utilisation directe avec la commande suivante ne fonctionne pas avec la version 1.4 de par4all et le paquet Debian rétroporté du SDK CUDA version 5.5.
 <code>
-export CUDA_DIR=/opt/cuda
+export CUDA_DIR=/usr/lib/nvidia-cuda-toolkit/
 p4a --cuda -vv matrix.c --fine -o matrix-cuda
 </code>
+Nous allons explorer une autre solution :
 Utilisation avec compilation séparée
 <code>
-export CUDA_DIR=/opt/cuda
 # Appel de Par4all
 p4a --fine --cuda -vv matrix.c
 # Compilation des sources CUDA avec le compilateur Nvidia
-nvcc --cuda -I$CUDA_DIR/include -DP4A_ACCEL_CUDA -I/opt/par4all-1.3/share/p4a_accel -o matrix.p4a.cpp matrix.p4a.cu
+nvcc --cuda -I/usr/include -DP4A_ACCEL_CUDA -I/opt/par4all/share/p4a_accel -o matrix.p4a.cpp matrix.p4a.cu
-nvcc --cuda -I$CUDA_DIR/include -DP4A_ACCEL_CUDA -I/opt/par4all-1.3/share/p4a_accel -o p4a_accel.cpp /opt/par4all-1.3/share/p4a_accel/p4a_accel.cu
+nvcc --cuda -I/usr/include -DP4A_ACCEL_CUDA -I/opt/par4all/share/p4a_accel -o p4a_accel.cpp /opt/par4all/share/p4a_accel/p4a_accel.cu
 # Compilation des deux sources
-g++ -c -I$CUDA_DIR/include -DP4A_ACCEL_CUDA -I/opt/par4all-1.3/share/p4a_accel -Wall -fno-strict-aliasing -fPIC -O3 -o matrix.p4a.o matrix.p4a.cpp
+g++ -c -I/usr/include -DP4A_ACCEL_CUDA -I/opt/par4all/share/p4a_accel -Wall -fno-strict-aliasing -fPIC -O3 -o matrix.p4a.o matrix.p4a.cpp
-g++ -c -I$CUDA_DIR/include -DP4A_ACCEL_CUDA -I/opt/par4all-1.3/share/p4a_accel -Wall -fno-strict-aliasing -fPIC -O3 -o p4a_accel.o p4a_accel.cpp
+g++ -c -I/usr/include -DP4A_ACCEL_CUDA -I/opt/par4all/share/p4a_accel -Wall -fno-strict-aliasing -fPIC -O3 -o p4a_accel.o p4a_accel.cpp
 # Compilation finale de l'executable
-g++ -L$CUDADIR/lib64 -L$CUDADIR/lib -Bdynamic -lcudart -o matrix-cuda matrix.p4a.o p4a_accel.o
+g++ -L/usr/lib/x86_64-linux-gnu -Bdynamic -lcudart -o matrix-CUDA matrix.p4a.o p4a_accel.o
 # Effacement des fichiers intermédiaires inutiles
 rm p4a_accel.o p4a_accel.cpp
 </code>
+En lançant la ''/usr/bin/time ./matrix-CUDA''
+<code>
+/usr/bin/time ./matrix-CUDA
+La trace de la matrice est 18428734073246580736.00
+.81user 1.01system 0:03.84elapsed 99%CPU (0avgtext+0avgdata 122360maxresident)k
+inputs+88outputs (0major+27380minor)pagefaults 0swaps
+</code>
 ==== Pour utiliser P4A en mode OpenCL ====
@@ Ligne 220: / Ligne 286: @@
 Utilisation simple passe
 <code>
-p4a --opencl -vvv matrix.c -o matrix-ocl
+p4a --opencl -vvv matrix.c -o matrix-OpenCL
 </code>
-Utilisation double passe
+Son exécution donne ''/usr/bin/time ./matrix-OpenCL''
 <code>
+La trace de la matrice est 18428734073246580736.00
+.39user 3.22system 0:06.66elapsed 99%CPU (0avgtext+0avgdata 156856maxresident)k
+inputs+112outputs (0major+38185minor)pagefaults 0swaps
 </code>
 ===== Exemple =====
  --- //[[emmanuel.quemener@ens-lyon.fr|Emmanuel Quemener]] 2011/11/06 17:38//

developpement/activites/integration/par4all4wheezy.txt · Dernière modification: 2015/01/07 10:04 (modification externe)

Rechercher

Translations

Navigation

Piste:

Boîte à outils