UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO Facultad de...

UNIVERSIDAD NACIONAL AUTÓNOMA DE

MÉXICO

Facultad de IngenieríaIntroducción a CUDA C

Laboratorio de Intel para la Academia y

Cómputo de alto desempeño

Elaboran: Ariel Ulloa TrejoFernando Pérez Franco

Revisión: Ing. Laura Sandoval Montaño

Temario

1.Antecedentes2.El GPU3.Funciones y vectores4.Manejo de matrices5.Memoria compartida

4 MatricesErrores

Vimos en las funcionespasadas que regresan un valorcudaError_t.Éste es usado para detectarerrores; si la ejecución fueexitosa, regresa uncudaSucces. En otro caso, elcódigo del error seráregresado.

Para poder leer los códigos delos errores, usamoscudaGetErrorString().cudaGetLastError() envía elúltimo error. Si hubo uno antesde éste, no es reportado.

Como los kernels sonasíncronos, es necesariobloquear la ejecución hastaque el dispositivo hayaterminado su trabajo. Paraesto utilizamos la funcióncudaDeviceSynchronice().

Errores comunes:

Utilizar variables en unsegmento de código donde noexisten.La configuración de ejecuciónes inválida.

05_errores_01.cu

Más de grids, bloques e hilos:

CUDA permite la ejecución degrids compuestos por bloqueshasta de 3 dimensiones, y a suvez, cada bloque compuestopor hilos en 3d.Para hacerlo, utilizamos dim3(para encapsular datosmultidimensionales).

Kernel<<<dim3(Ax, Ay, Az), dim3(Bx,By,Bz)>>>()

Kernel<<<dim3(10, 32), dim3(10, 10)>>>()

En caso de que una dimensión no sea especificada, es reemplazada automáticamente por 1.

Ejemplo:

Una matriz de 6x6 es mapeada en un arreglo de 36 elementos.El objetivo es dividir la matriz en 4 bloques de 3x3 y el kernelsumará a cada elemento el primero de cada bloque. Elresultado se guarda en otra matriz del mismo tamaño.

Consideremos dos datos:

BLOCK_SIZE = 3 (longitud de cadabloque)STRIDE = 6 (longitud de la matrizcompleta)

En el dispositivo, cadapequeño bloque serámapeado en un bloque dentrodel grid y para cada operación,existirá un hilo. Por lo tantoexisten tantos hilos comoelementos de la matriz.

La configuración de laejecución será, por lo tanto:

dim3 ThreadsBlocks( 3, 3 );

dim3 GridBlocks( 2 , 2);

El truco está en generar losíndices viendo a la memoriacomo un arreglo de 36 en lugarde una matriz de 6x6.

Los índices de los valores a sumar son entonces:

{0, 3, 18, 21}

Para asignar los índices de cada elemento de la matriz a los hilos:int bx = blockIdx.x;int by = blockidx.y;Int tx = threadIdx.x;Int ty = threadIdx.y;d_a[ (by * BLOCK_SIZE + ty) * STRIDE + (bx * BLOCKSIZE + tx)

];Para encontrar el elemento que se sumará a cada uno,simplemente cambiamos el índice del hilo a 0:

06_matrices_01.cu

Ejemplo: Programa que sumados matrices cuadradas.

07_matrices_02.cu 08_matrices_03.cu

Ejercicio: Hacer un programaque sume dos matricescuadradas de 250x250.

Ejemplo: Programa que hace latranspuesta de una matrizpequeña.

Ejercicio: Programa queobtiene la transpuesta de unamatriz grande.

09_matrices_04.cu 10_matrices_05.cu

UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO Facultad de...

Documents

Transcript of UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO Facultad de...

Programación Paralela en OpenMplcomp89.fi-b.unam.mx/licad/assets/ProgramacionOpenMP/Programaci... · Introducción a Open Multiprocessing (OpenMP) Proyecto PAPIME PE104911 Elba Karen

DISTRIBUCION CU ANTICA DE CLAVES: LUCES Y SOMBRAS1TFC1S5RX-D21JLB-4P1...cu antica de claves Sumario Introducci on Revoluci on Ordenadores cu anticos Criptograf a cu antica Protocolo

Patrulaterele se numeroteazä cu cifre corp 10. Paginile buletinului de vot se vor numerota începând cu prima paginöi inlerioarä terminând cu ultima paginä interioarä cu cifre

Pung Araya Cu

Catalogo Graduado CU

CU Electricas

Agua Cu Spatricio

Multiprocesamiento en Lenguaje C - Laboratorio Intel …lcomp89.fi-b.unam.mx/licad/assets/MultiprocesamientoProfesores/... · – La memoria es escalable al número de procesadores.

Introducción a Cómputo Paralelo con CUDA C/C++lcomp89.fi-b.unam.mx/licad/assets/CUDA2o/04_Manejo... · 2015-01-28 · • Dividir una matriz de 6x6 en 4 bloques y sumar a cada elemento

HGLILFDFLyQ9DUtD La Herradura Palos Colorados A.San ... 15...CU CU CU CU CU CU CU CU CU CU CU CU CU CU CU CU RESULT. C.O.S. C.U.S. F= 5m L= - P= 12m INDUSTRIA LIGERA Y DE RIESGO BAJO

Multiprocesamiento en Lenguaje C - UNAMlcomp89.fi-b.unam.mx/licad/assets/MultiprocesamientoProfesores/... · Puede ser necesario Función el programador, con Rutina Ciclo Sentencia

Analisis de Cu

Primaria Tautii Magheraus, MM de... · Cäsätorit cu copil Familii cu 1-2 copii Familii cu 3 copii Familii cu 4 copii Familii cu peste 5 copii Necäsätorit, väduv, divortat färä

Cu Agua Potable

L DESIERDE SIE R TOTO N DEDE IELOIE L O - … · H a p u b licad o m s d e cu aren ta t tu lo s, ha sido mer ecedora de impor tantes pr emios literarios, entr e ellos el Pr emio de

La importancia del cobre para el desarrollo de Chile · 2018-06-22 · El cobre tiene espacio para crecer Crecimiento consumo de cobre per cápita CHINA Cu 1976 Cu Cu Cu Cu Cu Cu

Mch-pr-15 Determinacion de Cu en Conc. Cu

Zn 2+ + Cu° No reacciona Zn° + Cu 2+ Zn 2+ + Cu°.

Presentación de PowerPoint - lcomp89.fi-b.unam.mxlcomp89.fi-b.unam.mx/licad/assets/SeminarioParalelo/C++ Concurrency... · Otra forma de usar la concurrencia es a través de hilos

Escorificacion Cu