Cuda Toolkit !!better!!

// Allocate host memory float* aHost = (float*)malloc(size * sizeof(float)); float* bHost = (float*)malloc(size * sizeof(float)); float* resultHost = (float*)malloc(size * sizeof(float));

// Launch kernel int blockSize = 256; int numBlocks = (size + blockSize - 1) / blockSize; addArrays<<<numBlocks, blockSize>>>(aDevice, bDevice, resultDevice, size); cuda toolkit

all: $(TARGET)