Merge pull request #1 from mkn/pr

PhilipDeegan · web-flow · commit 8747d99cdde0 · 2020-08-01T19:23:56.000+02:00
gpu func object test/example
diff --git a/inc/kul/gpu/cuda.hpp b/inc/kul/gpu/cuda.hpp
@@ -43,10 +43,6 @@ OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
 
 namespace kul::gpu {
 
-template <typename T>
-static constexpr bool is_floating_point_v =
-    std::is_floating_point_v<T> or std::is_same_v<_Float16, T>;
-
 //
 void prinfo(size_t dev = 0) {
   cudaDeviceProp devProp;
@@ -185,16 +181,16 @@ struct DeviceClass : ADeviceClass<GPU> {
 namespace {
 
 template <typename T>
-decltype(auto) get(T const& t) {
+decltype(auto) replace(T& t) {
   if constexpr (is_device_mem_v<T>)
     return t.p;
   else
     return t;
 }
 
 template <std::size_t... I, typename... Args>
-decltype(auto) devmem_replace(std::tuple<Args const&...>&& tup, std::index_sequence<I...>) {
-  return std::make_tuple(get(std::get<I>(tup))...);
+decltype(auto) devmem_replace(std::tuple<Args&...>&& tup, std::index_sequence<I...>) {
+  return std::make_tuple(replace(std::get<I>(tup))...);
 }
 
 } /* namespace */
@@ -210,11 +206,11 @@ struct Launcher {
       : Launcher{dim3(x / tpx, y / tpy, z / tpz), dim3(tpx, tpy, tpz)} {}
 
   template <typename F, typename... Args>
-  void operator()(F f, Args const&... args) {
+  void operator()(F f, Args&&... args) {
     kul::gpu::sync();
-    auto tup =
-        devmem_replace(std::forward_as_tuple(args...), std::make_index_sequence<sizeof...(Args)>());
-    std::apply([&](auto&... params) { f<<<g, b, ds, s>>>(params...); }, tup);
+    std::apply([&](auto&&... params) {
+      f<<<g, b, ds, s>>>(params...);
+    }, devmem_replace(std::forward_as_tuple(args...), std::make_index_sequence<sizeof...(Args)>()));
   }
   size_t ds = 0 /*dynamicShared*/;
   dim3 g /*gridDim*/, b /*blockDim*/;
diff --git a/inc/kul/gpu/def.hpp b/inc/kul/gpu/def.hpp
@@ -0,0 +1,34 @@
+
+
+#ifndef _KUL_GPU_DEF_HPP_
+#define _KUL_GPU_DEF_HPP_
+
+
+#if defined(KUL_GPU_ROCM)
+#include "kul/gpu/rocm.hpp"
+#elif defined(KUL_GPU_CUDA)
+#include "kul/gpu/cuda.hpp"
+#else
+#error "UNKNOWN GPU / define KUL_GPU_ROCM or KUL_GPU_CUDA"
+#endif
+
+
+namespace kul::gpu {
+
+template <typename T>
+static constexpr bool is_floating_point_v =
+    std::is_floating_point_v<T> or std::is_same_v<_Float16, T>;
+
+__device__ uint32_t idx() {
+#if defined(KUL_GPU_ROCM)
+  return kul::gpu::hip::idx();
+#elif defined(KUL_GPU_CUDA)
+  return kul::gpu::cuda::idx();
+#else
+#error "UNKNOWN GPU / define KUL_GPU_ROCM or KUL_GPU_CUDA"
+#endif
+}
+
+} /* namespace kul::gpu */
+
+#endif /*_KUL_GPU_DEF_HPP_*/
diff --git a/inc/kul/gpu/rocm.hpp b/inc/kul/gpu/rocm.hpp
@@ -43,10 +43,6 @@ OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
 
 namespace kul::gpu {
 
-template <typename T>
-static constexpr bool is_floating_point_v =
-    std::is_floating_point_v<T> or std::is_same_v<_Float16, T>;
-
 // https://rocm-developer-tools.github.io/HIP/group__Device.html
 void prinfo(size_t dev = 0) {
   hipDeviceProp_t devProp;
@@ -185,15 +181,15 @@ struct DeviceClass : ADeviceClass<GPU> {
 namespace {
 
 template <typename T>
-decltype(auto) replace(T const& t) {
+decltype(auto) replace(T& t) {
   if constexpr (is_device_mem_v<T>)
     return t.p;
   else
     return t;
 }
 
 template <std::size_t... IS, typename... Args>
-decltype(auto) devmem_replace(std::tuple<Args const&...>&& tup, std::index_sequence<IS...>) {
+decltype(auto) devmem_replace(std::tuple<Args&...>&& tup, std::index_sequence<IS...>) {
   return std::make_tuple(replace(std::get<IS>(tup))...);
 }
 
@@ -210,11 +206,11 @@ struct Launcher {
       : Launcher{dim3(x / tpx, y / tpy, z / tpz), dim3(tpx, tpy, tpz)} {}
 
   template <typename F, typename... Args>
-  void operator()(F f, Args const&... args) {
+  void operator()(F f, Args&&... args) {
     kul::gpu::sync();
-    auto tup =
-        devmem_replace(std::forward_as_tuple(args...), std::make_index_sequence<sizeof...(Args)>());
-    std::apply([&](auto&... params) { hipLaunchKernelGGL(f, g, b, ds, s, params...); }, tup);
+    std::apply([&](auto&&... params) {
+      hipLaunchKernelGGL(f, g, b, ds, s, params...);
+    }, devmem_replace(std::forward_as_tuple(args...), std::make_index_sequence<sizeof...(Args)>()));
   }
   size_t ds = 0 /*dynamicShared*/;
   dim3 g /*gridDim*/, b /*blockDim*/;
diff --git a/inc/kul/gpu/tuple.hpp b/inc/kul/gpu/tuple.hpp
@@ -97,7 +97,7 @@ struct SpanSet : ASpanSet<T, SIZE, GPU> {
   }
 
   template <bool gpu = GPU, std::enable_if_t<!gpu, bool> = 0>
-  decltype(auto) take() {
+  kul::SpanSet<T, SIZE>& take() {
     Super::base.vec = std::move(vec.take());
     return Super::base;
   }
diff --git a/mkn.yaml b/mkn.yaml
@@ -10,7 +10,7 @@ profile:
 
 - name: test
   parent: headers
-  test: test/gpu.cpp
+  test: test/(\w).cpp
 
 - name: rocm
   parent: test
diff --git a/test/add.cpp b/test/add.cpp
@@ -1,5 +1,4 @@
 
-
 #include "kul/gpu.hpp"
 
 static constexpr size_t WIDTH = 1024, HEIGHT = 1024;
@@ -12,17 +11,21 @@ __global__ void vectoradd(T* a, const T* b, const T* c) {
   a[i] = b[i] + c[i];
 }
 
-int main() {
-  kul::gpu::prinfo();
-  std::vector<float> hostB(NUM), hostC(NUM);
+template<typename Float>
+size_t test(){
+  std::vector<Float> hostB(NUM), hostC(NUM);
   for (size_t i = 0; i < NUM; i++) hostB[i] = i;
   for (size_t i = 0; i < NUM; i++) hostC[i] = i * 100.0f;
-  kul::gpu::DeviceMem<float> devA(NUM), devB(hostB), devC(hostC);
+  kul::gpu::DeviceMem<Float> devA(NUM), devB(hostB), devC(hostC);
   kul::gpu::Launcher{WIDTH, HEIGHT, THREADS_PER_BLOCK_X, THREADS_PER_BLOCK_Y}(
-      vectoradd<float>, devA, devB, devC);
+      vectoradd<Float>, devA, devB, devC);
   auto hostA = devA();
   for (size_t i = 0; i < NUM; i++)
     if (hostA[i] != (hostB[i] + hostC[i])) return 1;
-  printf("PASSED!\n");
   return 0;
 }
+
+int main() {
+  kul::gpu::prinfo();
+  return test<float>() + test<double>();
+}
diff --git a/test/class.cpp b/test/class.cpp
@@ -0,0 +1,69 @@
+
+#include "kul/gpu.hpp"
+
+static constexpr size_t WIDTH = 1024, HEIGHT = 1024;
+static constexpr size_t NUM = WIDTH * HEIGHT;
+static constexpr size_t THREADS_PER_BLOCK_X = 16, THREADS_PER_BLOCK_Y = 16;
+
+template<typename Float, bool GPU = false>
+struct DevClass : kul::gpu::DeviceClass<GPU>
+{
+  using Super = kul::gpu::DeviceClass<GPU>;
+  using gpu_t = DevClass<Float, true>;
+
+  template<typename T>
+  using container_t = typename Super::template container_t<T>;
+
+  template<bool gpu = GPU, std::enable_if_t<!gpu, bool> = 0>
+  DevClass(std::uint32_t nbr)
+      : data{nbr}
+  {
+  }
+
+  template<bool gpu = GPU, std::enable_if_t<!gpu, bool> = 0>
+  DevClass(std::vector<Float> const& in)
+      : data{in}
+  {
+  }
+
+  template<bool gpu = GPU, std::enable_if_t<!gpu, bool> = 0>
+  auto operator()()
+  {
+      return Super::template alloc<gpu_t>(data);
+  }
+
+  template<bool gpu = GPU, std::enable_if_t<gpu, bool> = 0>
+  auto& operator[](int i)  __device__  { return data[i]; }
+  template<bool gpu = GPU, std::enable_if_t<gpu, bool> = 0>
+  auto const& operator[](int i) const  __device__   { return data[i]; }
+
+  container_t<Float> data;
+};
+
+template <typename T>
+using GPUClass = typename ::DevClass<T>::gpu_t;
+
+template <typename T>
+__global__ void vectoradd(GPUClass<T>* a, GPUClass<T> const* b, GPUClass<T> const* c) {
+  int i = kul::gpu::idx();
+  (*a)[i] = (*b)[i] + (*c)[i];
+}
+
+template<typename Float>
+size_t test(){
+  std::vector<Float> hostB(NUM), hostC(NUM);
+  for (size_t i = 0; i < NUM; i++) hostB[i] = i;
+  for (size_t i = 0; i < NUM; i++) hostC[i] = i * 100.0f;
+  DevClass<Float> devA(NUM), devB(hostB), devC(hostC);
+  kul::gpu::Launcher{WIDTH, HEIGHT, THREADS_PER_BLOCK_X, THREADS_PER_BLOCK_Y}(
+      vectoradd<Float>, devA(), devB(), devC());
+  auto hostA = devA.data();
+  for (size_t i = 0; i < NUM; i++)
+    if (hostA[i] != (hostB[i] + hostC[i])) return 1;
+  return 0;
+}
+
+int main() {
+  kul::gpu::prinfo();
+  return test<float>() + test<double>();
+}

Original file line number	Diff line number	Diff line change
`@@ -97,7 +97,7 @@ struct SpanSet : ASpanSet<T, SIZE, GPU> {`
`97`	`97`	`}`
`98`	`98`
`99`	`99`	`template <bool gpu = GPU, std::enable_if_t<!gpu, bool> = 0>`
`100`		`- decltype(auto) take() {`
	`100`	`+ kul::SpanSet<T, SIZE>& take() {`
`101`	`101`	`Super::base.vec = std::move(vec.take());`
`102`	`102`	`return Super::base;`
`103`	`103`	`}`