Made copy_tensor() use cudaMemcpyAsync() rather than cudaMemcpy().

89c9267e · Davis King · aafa4116 · 89c9267e · 89c9267e
Commit 89c9267e authored Aug 14, 2017 by Davis King
Show whitespace changes
Inline Side-by-side

Showing with 2 additions and 1 deletion

cuda_dlib.cu dlib/dnn/cuda_dlib.cu +1 -1

tensor_tools.h dlib/dnn/tensor_tools.h +1 -0

No files found.
--- a/dlib/dnn/cuda_dlib.cu
+++ b/dlib/dnn/cuda_dlib.cu
@@ -1401,7 +1401,7 @@ namespace dlib
            for (long i = 0; i < src.num_samples(); ++i)
            {
-                CHECK_CUDA(cudaMemcpy(dest_p, src_p, block_size * sizeof(float), cudaMemcpyDeviceToDevice));
+                CHECK_CUDA(cudaMemcpyAsync(dest_p, src_p, block_size * sizeof(float), cudaMemcpyDeviceToDevice));
                dest_p += dest_sample_size;
                src_p  += src_sample_size;

--- a/dlib/dnn/tensor_tools.h
+++ b/dlib/dnn/tensor_tools.h
@@ -1558,6 +1558,7 @@ namespace dlib { namespace tt
            - dest.k() - dest_k_offset >= count_k
            - src.k() - src_k_offset >= count_k
            - is_same_object(dest,src) == false
+            - The memory areas of src and dest do not overlap.
        ensures
            - performs: dest[i, k + dest_k_offset, r, c] = src[i, k + src_k_offset, r, c], where k in [0..count_k]
              Copies content of each sample from src in to corresponding place of sample at dest.