标签:cudaFree 求和 矢量 dev int 线程 CUDA include delete
方法一:矢量每一维度的相加都开一个单独线程
#include "cuda_runtime.h"
#include "device_launch_parameters.h"
#define N 256 //矢量长度,自行修改
#define BLOCKDIM 128 //线程块内线程数,可自行修改为不超过硬件限制的数
__global__ void addKernel(int *c, const int *a, const int *b)
{
//获得向量维度
int i = blockIdx.x * blockDim.x + threadIdx.x;
//因为矢量每一维度相加是单独一个线程
//所以每个线程只执行一次,if语句即可
if (i < N) {
c[i] = a[i] + b[i];
}
}
int main()
{
int* a = new int[N];
int* b = new int[N];
int* c = new int[N];
int *dev_a = 0;
int *dev_b = 0;
int *dev_c = 0;
for (int i = 1; i <= N; ++i) {
a[i-1] = i;
b[i-1] = i & 1;
}
cudaMalloc((void**)&dev_c, N * sizeof(int));
cudaMalloc((void**)&dev_a, N * sizeof(int));
cudaMalloc((void**)&dev_b, N * sizeof(int));
cudaMemcpy(dev_a, a, N * sizeof(int), cudaMemcpyHostToDevice);
cudaMemcpy(dev_b, b, N * sizeof(int), cudaMemcpyHostToDevice);
//为矢量每一维度相加开一个线程
addKernel<<<(N+BLOCKDIM-1)/BLOCKDIM, BLOCKDIM>>>(dev_c, dev_a, dev_b);
for (int i = 0; i < N; ++i) {
printf("第%d维:%d+%d=%d\n", i+1, a[i], b[i], c[i]);
}
delete[] a;
delete[] b;
delete[] c;
cudaFree(dev_c);
cudaFree(dev_a);
cudaFree(dev_b);
return 0;
}
方法二:利用固定的线程数目,每个线程重复利用计算若干矢量维度的相加
#include "cuda_runtime.h"
#include "device_launch_parameters.h"
#include <stdio.h>
#define N 256 //向量长度,自行设置
#define BLOCK 128//线程块数目,可根据硬件限制随意设置
#define BLOCKDIM 128 //线程块内线程数目,可根据硬件限制随意设置
__global__ void addKernel(int *c, const int *a, const int *b)
{
int i = blockIdx.x * blockDim.x + threadIdx.x;
while (i<N)
{
c[i] = a[i] + b[i];
//GPU一次同时运行的线程数目,是一个grid里面横着的一排
//所以一次同时计算的矢量维度序号范围是grid里一横排包括的序号范围
//所以对于每个重复利用的线程,下次计算的维度序号和这次相差一横排的宽度
//一个grid里包含若干block
//一个block里包含若干thread
//blockDim是一个线程格在横排上的宽度,即横排上分布多少个thread
//gridDim是一个grid在横排上的宽度,即横排上分布多少个block
i += blockDim.x * gridDim.x;
}
}
int main()
{
int* a = new int[N];
int* b = new int[N];
int* c = new int[N];
int *dev_a = 0;
int *dev_b = 0;
int *dev_c = 0;
for (int i = 1; i <= N; ++i) {
a[i-1] = i;
b[i-1] = i & 1;
}
cudaMalloc((void**)&dev_c, N * sizeof(int));
cudaMalloc((void**)&dev_a, N * sizeof(int));
cudaMalloc((void**)&dev_b, N * sizeof(int));
cudaMemcpy(dev_a, a, N * sizeof(int), cudaMemcpyHostToDevice);
cudaMemcpy(dev_b, b, N * sizeof(int), cudaMemcpyHostToDevice);
//固定数目线程重复利用来计算矢量各个维度相加
addKernel<<<BLOCK, BLOCKDIM>>>(dev_c, dev_a, dev_b);
for (int i = 0; i < N; ++i) {
printf("第%d维:%d+%d=%d\n", i+1, a[i], b[i], c[i]);
}
delete[] a;
delete[] b;
delete[] c;
cudaFree(dev_c);
cudaFree(dev_a);
cudaFree(dev_b);
return 0;
}
标签:cudaFree,求和,矢量,dev,int,线程,CUDA,include,delete 来源: https://blog.csdn.net/qq_44643644/article/details/115278902
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。