使用malloc()分配的数据的CPU内存访问延迟与Tegra TK1上的cudaHostAlloc()

我正在执行一个简单的testing,它比较从malloc()分配的数据的访问延迟和从主机(cpu执行访问)的cudaHostAlloc()分配的数据。 我注意到访问使用cudaHostAlloc()分配的数据比访问Jetson Tk1上malloc()分配的数据要慢得多。

对于独立GPU而言,情况并非如此,似乎只适用于TK1。 经过一番调查,我发现用cudaHostAlloc()分配的数据是映射到进程地址空间的/ dev / nvmap区域的映射(mmap)。 对于映射在进程堆上的普通malloc'd数据,情况并非如此。 我知道这个映射可能是必要的,以允许GPU访问数据,因为cudaHostAlloc的数据必须从主机和设备都可见。

我的问题是:从主机访问cudaHostAlloc'd数据的开销从哪里来的? 数据映射到/ dev / nvmap在CPUcaching上未caching?

我相信我找到了这个行为的原因。 经过进一步调查(使用Linux跟踪事件并查看nvmap驱动程序代码 )之后,我发现开销的来源是使用NVMAP_HANDLE_UNCACHEABLE标志将使用cudaHostAlloc()分配的数据标记为“uncacheable”。 调用pgprot_noncached()是为了确保相关的PTE被标记为不可缓存的。

主机访问使用cudaMallocManaged()分配的数据的行为是不同的。 数据将被缓存(使用标志NVMAP_HANDLE_CACHEABLE )。 因此从主机访问这个数据就相当于malloc()'d数据。 同样重要的是,CUDA运行时不允许设备(GPU)与主机同时访问与cudaMallocManaged()一起分配的任何数据,并且这样的操作会生成段错误。 但是,运行时允许同时访问设备和主机上的cudaHostAlloc()'d数据,我相信这是使cudaHostAlloc()'d数据无法缓存的原因之一。