DeviceRTL/src/Reduction.cpp

67ab875fSJohannes Doerfert//===---- Reduction.cpp - OpenMP device reduction implementation - C++ -*-===//
67ab875fSJohannes Doerfert//
67ab875fSJohannes Doerfert// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
67ab875fSJohannes Doerfert// See https://llvm.org/LICENSE.txt for license information.
67ab875fSJohannes Doerfert// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
67ab875fSJohannes Doerfert//
67ab875fSJohannes Doerfert//===----------------------------------------------------------------------===//
67ab875fSJohannes Doerfert//
67ab875fSJohannes Doerfert// This file contains the implementation of reduction with KMPC interface.
67ab875fSJohannes Doerfert//
67ab875fSJohannes Doerfert//===----------------------------------------------------------------------===//
67ab875fSJohannes Doerfert
67ab875fSJohannes Doerfert#include "Debug.h"
67ab875fSJohannes Doerfert#include "Interface.h"
67ab875fSJohannes Doerfert#include "Mapping.h"
67ab875fSJohannes Doerfert#include "State.h"
67ab875fSJohannes Doerfert#include "Synchronization.h"
67ab875fSJohannes Doerfert#include "Types.h"
67ab875fSJohannes Doerfert#include "Utils.h"
67ab875fSJohannes Doerfert
67ab875fSJohannes Doerfertusing namespace _OMP;
67ab875fSJohannes Doerfert
67ab875fSJohannes Doerfertnamespace {
67ab875fSJohannes Doerfert
b4f8443dSJoseph Huber#pragma omp begin declare target device_type(nohost)
67ab875fSJohannes Doerfert
67ab875fSJohannes Doerfertvoid gpu_regular_warp_reduce(void *reduce_data, ShuffleReductFnTy shflFct) {
67ab875fSJohannes Doerfert  for (uint32_t mask = mapping::getWarpSize() / 2; mask > 0; mask /= 2) {
67ab875fSJohannes Doerfert    shflFct(reduce_data, /*LaneId - not used= */ 0,
67ab875fSJohannes Doerfert            /*Offset = */ mask, /*AlgoVersion=*/0);
67ab875fSJohannes Doerfert  }
67ab875fSJohannes Doerfert}
67ab875fSJohannes Doerfert
67ab875fSJohannes Doerfertvoid gpu_irregular_warp_reduce(void *reduce_data, ShuffleReductFnTy shflFct,
67ab875fSJohannes Doerfert                               uint32_t size, uint32_t tid) {
67ab875fSJohannes Doerfert  uint32_t curr_size;
67ab875fSJohannes Doerfert  uint32_t mask;
67ab875fSJohannes Doerfert  curr_size = size;
67ab875fSJohannes Doerfert  mask = curr_size / 2;
67ab875fSJohannes Doerfert  while (mask > 0) {
67ab875fSJohannes Doerfert    shflFct(reduce_data, /*LaneId = */ tid, /*Offset=*/mask, /*AlgoVersion=*/1);
67ab875fSJohannes Doerfert    curr_size = (curr_size + 1) / 2;
67ab875fSJohannes Doerfert    mask = curr_size / 2;
67ab875fSJohannes Doerfert  }
67ab875fSJohannes Doerfert}
67ab875fSJohannes Doerfert
67ab875fSJohannes Doerfert#if !defined(__CUDA_ARCH__) || __CUDA_ARCH__ < 700
67ab875fSJohannes Doerfertstatic uint32_t gpu_irregular_simd_reduce(void *reduce_data,
67ab875fSJohannes Doerfert                                          ShuffleReductFnTy shflFct) {
67ab875fSJohannes Doerfert  uint32_t size, remote_id, physical_lane_id;
67ab875fSJohannes Doerfert  physical_lane_id = mapping::getThreadIdInBlock() % mapping::getWarpSize();
67ab875fSJohannes Doerfert  __kmpc_impl_lanemask_t lanemask_lt = mapping::lanemaskLT();
67ab875fSJohannes Doerfert  __kmpc_impl_lanemask_t Liveness = mapping::activemask();
67ab875fSJohannes Doerfert  uint32_t logical_lane_id = utils::popc(Liveness & lanemask_lt) * 2;
67ab875fSJohannes Doerfert  __kmpc_impl_lanemask_t lanemask_gt = mapping::lanemaskGT();
67ab875fSJohannes Doerfert  do {
67ab875fSJohannes Doerfert    Liveness = mapping::activemask();
67ab875fSJohannes Doerfert    remote_id = utils::ffs(Liveness & lanemask_gt);
67ab875fSJohannes Doerfert    size = utils::popc(Liveness);
67ab875fSJohannes Doerfert    logical_lane_id /= 2;
67ab875fSJohannes Doerfert    shflFct(reduce_data, /*LaneId =*/logical_lane_id,
67ab875fSJohannes Doerfert            /*Offset=*/remote_id - 1 - physical_lane_id, /*AlgoVersion=*/2);
67ab875fSJohannes Doerfert  } while (logical_lane_id % 2 == 0 && size > 1);
67ab875fSJohannes Doerfert  return (logical_lane_id == 0);
67ab875fSJohannes Doerfert}
67ab875fSJohannes Doerfert#endif
67ab875fSJohannes Doerfert
67ab875fSJohannes Doerfertstatic int32_t nvptx_parallel_reduce_nowait(int32_t TId, int32_t num_vars,
67ab875fSJohannes Doerfert                                            uint64_t reduce_size,
67ab875fSJohannes Doerfert                                            void *reduce_data,
67ab875fSJohannes Doerfert                                            ShuffleReductFnTy shflFct,
67ab875fSJohannes Doerfert                                            InterWarpCopyFnTy cpyFct,
67ab875fSJohannes Doerfert                                            bool isSPMDExecutionMode, bool) {
67ab875fSJohannes Doerfert  uint32_t BlockThreadId = mapping::getThreadIdInBlock();
85ad5663SJoseph Huber  if (mapping::isMainThreadInGenericMode(/* IsSPMD */ false))
67ab875fSJohannes Doerfert    BlockThreadId = 0;
67ab875fSJohannes Doerfert  uint32_t NumThreads = omp_get_num_threads();
67ab875fSJohannes Doerfert  if (NumThreads == 1)
67ab875fSJohannes Doerfert    return 1;
67ab875fSJohannes Doerfert    /*
67ab875fSJohannes Doerfert     * This reduce function handles reduction within a team. It handles
67ab875fSJohannes Doerfert     * parallel regions in both L1 and L2 parallelism levels. It also
67ab875fSJohannes Doerfert     * supports Generic, SPMD, and NoOMP modes.
67ab875fSJohannes Doerfert     *
67ab875fSJohannes Doerfert     * 1. Reduce within a warp.
67ab875fSJohannes Doerfert     * 2. Warp master copies value to warp 0 via shared memory.
67ab875fSJohannes Doerfert     * 3. Warp 0 reduces to a single value.
67ab875fSJohannes Doerfert     * 4. The reduced value is available in the thread that returns 1.
67ab875fSJohannes Doerfert     */
67ab875fSJohannes Doerfert
67ab875fSJohannes Doerfert#if defined(__CUDA_ARCH__) && __CUDA_ARCH__ >= 700
67ab875fSJohannes Doerfert  uint32_t WarpsNeeded =
67ab875fSJohannes Doerfert      (NumThreads + mapping::getWarpSize() - 1) / mapping::getWarpSize();
67ab875fSJohannes Doerfert  uint32_t WarpId = mapping::getWarpId();
67ab875fSJohannes Doerfert
67ab875fSJohannes Doerfert  // Volta execution model:
67ab875fSJohannes Doerfert  // For the Generic execution mode a parallel region either has 1 thread and
67ab875fSJohannes Doerfert  // beyond that, always a multiple of 32. For the SPMD execution mode we may
67ab875fSJohannes Doerfert  // have any number of threads.
67ab875fSJohannes Doerfert  if ((NumThreads % mapping::getWarpSize() == 0) || (WarpId < WarpsNeeded - 1))
67ab875fSJohannes Doerfert    gpu_regular_warp_reduce(reduce_data, shflFct);
67ab875fSJohannes Doerfert  else if (NumThreads > 1) // Only SPMD execution mode comes thru this case.
67ab875fSJohannes Doerfert    gpu_irregular_warp_reduce(reduce_data, shflFct,
67ab875fSJohannes Doerfert                              /*LaneCount=*/NumThreads % mapping::getWarpSize(),
67ab875fSJohannes Doerfert                              /*LaneId=*/mapping::getThreadIdInBlock() %
67ab875fSJohannes Doerfert                                  mapping::getWarpSize());
67ab875fSJohannes Doerfert
67ab875fSJohannes Doerfert  // When we have more than [mapping::getWarpSize()] number of threads
67ab875fSJohannes Doerfert  // a block reduction is performed here.
67ab875fSJohannes Doerfert  //
67ab875fSJohannes Doerfert  // Only L1 parallel region can enter this if condition.
67ab875fSJohannes Doerfert  if (NumThreads > mapping::getWarpSize()) {
67ab875fSJohannes Doerfert    // Gather all the reduced values from each warp
67ab875fSJohannes Doerfert    // to the first warp.
67ab875fSJohannes Doerfert    cpyFct(reduce_data, WarpsNeeded);
67ab875fSJohannes Doerfert
67ab875fSJohannes Doerfert    if (WarpId == 0)
67ab875fSJohannes Doerfert      gpu_irregular_warp_reduce(reduce_data, shflFct, WarpsNeeded,
67ab875fSJohannes Doerfert                                BlockThreadId);
67ab875fSJohannes Doerfert  }
67ab875fSJohannes Doerfert  return BlockThreadId == 0;
67ab875fSJohannes Doerfert#else
67ab875fSJohannes Doerfert  __kmpc_impl_lanemask_t Liveness = mapping::activemask();
67ab875fSJohannes Doerfert  if (Liveness == lanes::All) // Full warp
67ab875fSJohannes Doerfert    gpu_regular_warp_reduce(reduce_data, shflFct);
67ab875fSJohannes Doerfert  else if (!(Liveness & (Liveness + 1))) // Partial warp but contiguous lanes
67ab875fSJohannes Doerfert    gpu_irregular_warp_reduce(reduce_data, shflFct,
67ab875fSJohannes Doerfert                              /*LaneCount=*/utils::popc(Liveness),
67ab875fSJohannes Doerfert                              /*LaneId=*/mapping::getThreadIdInBlock() %
67ab875fSJohannes Doerfert                                  mapping::getWarpSize());
67ab875fSJohannes Doerfert  else { // Dispersed lanes. Only threads in L2
67ab875fSJohannes Doerfert         // parallel region may enter here; return
67ab875fSJohannes Doerfert         // early.
67ab875fSJohannes Doerfert    return gpu_irregular_simd_reduce(reduce_data, shflFct);
67ab875fSJohannes Doerfert  }
67ab875fSJohannes Doerfert
67ab875fSJohannes Doerfert  // When we have more than [mapping::getWarpSize()] number of threads
67ab875fSJohannes Doerfert  // a block reduction is performed here.
67ab875fSJohannes Doerfert  //
67ab875fSJohannes Doerfert  // Only L1 parallel region can enter this if condition.
67ab875fSJohannes Doerfert  if (NumThreads > mapping::getWarpSize()) {
67ab875fSJohannes Doerfert    uint32_t WarpsNeeded =
67ab875fSJohannes Doerfert        (NumThreads + mapping::getWarpSize() - 1) / mapping::getWarpSize();
67ab875fSJohannes Doerfert    // Gather all the reduced values from each warp
67ab875fSJohannes Doerfert    // to the first warp.
67ab875fSJohannes Doerfert    cpyFct(reduce_data, WarpsNeeded);
67ab875fSJohannes Doerfert
67ab875fSJohannes Doerfert    uint32_t WarpId = BlockThreadId / mapping::getWarpSize();
67ab875fSJohannes Doerfert    if (WarpId == 0)
67ab875fSJohannes Doerfert      gpu_irregular_warp_reduce(reduce_data, shflFct, WarpsNeeded,
67ab875fSJohannes Doerfert                                BlockThreadId);
67ab875fSJohannes Doerfert
67ab875fSJohannes Doerfert    return BlockThreadId == 0;
67ab875fSJohannes Doerfert  }
67ab875fSJohannes Doerfert
67ab875fSJohannes Doerfert  // Get the OMP thread Id. This is different from BlockThreadId in the case of
67ab875fSJohannes Doerfert  // an L2 parallel region.
67ab875fSJohannes Doerfert  return TId == 0;
67ab875fSJohannes Doerfert#endif // __CUDA_ARCH__ >= 700
67ab875fSJohannes Doerfert}
67ab875fSJohannes Doerfert
67ab875fSJohannes Doerfertuint32_t roundToWarpsize(uint32_t s) {
67ab875fSJohannes Doerfert  if (s < mapping::getWarpSize())
67ab875fSJohannes Doerfert    return 1;
67ab875fSJohannes Doerfert  return (s & ~(unsigned)(mapping::getWarpSize() - 1));
67ab875fSJohannes Doerfert}
67ab875fSJohannes Doerfert
67ab875fSJohannes Doerfertuint32_t kmpcMin(uint32_t x, uint32_t y) { return x < y ? x : y; }
67ab875fSJohannes Doerfert
*ce0caf41SJoseph Huberstatic uint32_t IterCnt = 0;
*ce0caf41SJoseph Huberstatic uint32_t Cnt = 0;
67ab875fSJohannes Doerfert
67ab875fSJohannes Doerfert} // namespace
67ab875fSJohannes Doerfert
67ab875fSJohannes Doerfertextern "C" {
67ab875fSJohannes Doerfertint32_t __kmpc_nvptx_parallel_reduce_nowait_v2(
67ab875fSJohannes Doerfert    IdentTy *Loc, int32_t TId, int32_t num_vars, uint64_t reduce_size,
67ab875fSJohannes Doerfert    void *reduce_data, ShuffleReductFnTy shflFct, InterWarpCopyFnTy cpyFct) {
74f91741SJoseph Huber  FunctionTracingRAII();
67ab875fSJohannes Doerfert  return nvptx_parallel_reduce_nowait(TId, num_vars, reduce_size, reduce_data,
67ab875fSJohannes Doerfert                                      shflFct, cpyFct, mapping::isSPMDMode(),
67ab875fSJohannes Doerfert                                      false);
67ab875fSJohannes Doerfert}
67ab875fSJohannes Doerfert
67ab875fSJohannes Doerfertint32_t __kmpc_nvptx_teams_reduce_nowait_v2(
67ab875fSJohannes Doerfert    IdentTy *Loc, int32_t TId, void *GlobalBuffer, uint32_t num_of_records,
67ab875fSJohannes Doerfert    void *reduce_data, ShuffleReductFnTy shflFct, InterWarpCopyFnTy cpyFct,
67ab875fSJohannes Doerfert    ListGlobalFnTy lgcpyFct, ListGlobalFnTy lgredFct, ListGlobalFnTy glcpyFct,
67ab875fSJohannes Doerfert    ListGlobalFnTy glredFct) {
74f91741SJoseph Huber  FunctionTracingRAII();
67ab875fSJohannes Doerfert
67ab875fSJohannes Doerfert  // Terminate all threads in non-SPMD mode except for the master thread.
67ab875fSJohannes Doerfert  uint32_t ThreadId = mapping::getThreadIdInBlock();
67ab875fSJohannes Doerfert  if (mapping::isGenericMode()) {
67ab875fSJohannes Doerfert    if (!mapping::isMainThreadInGenericMode())
67ab875fSJohannes Doerfert      return 0;
67ab875fSJohannes Doerfert    ThreadId = 0;
67ab875fSJohannes Doerfert  }
67ab875fSJohannes Doerfert
67ab875fSJohannes Doerfert  // In non-generic mode all workers participate in the teams reduction.
67ab875fSJohannes Doerfert  // In generic mode only the team master participates in the teams
67ab875fSJohannes Doerfert  // reduction because the workers are waiting for parallel work.
67ab875fSJohannes Doerfert  uint32_t NumThreads = omp_get_num_threads();
67ab875fSJohannes Doerfert  uint32_t TeamId = omp_get_team_num();
67ab875fSJohannes Doerfert  uint32_t NumTeams = omp_get_num_teams();
67ab875fSJohannes Doerfert  static unsigned SHARED(Bound);
67ab875fSJohannes Doerfert  static unsigned SHARED(ChunkTeamCount);
67ab875fSJohannes Doerfert
67ab875fSJohannes Doerfert  // Block progress for teams greater than the current upper
67ab875fSJohannes Doerfert  // limit. We always only allow a number of teams less or equal
67ab875fSJohannes Doerfert  // to the number of slots in the buffer.
67ab875fSJohannes Doerfert  bool IsMaster = (ThreadId == 0);
67ab875fSJohannes Doerfert  while (IsMaster) {
*ce0caf41SJoseph Huber    Bound = atomic::load(&IterCnt, __ATOMIC_SEQ_CST);
67ab875fSJohannes Doerfert    if (TeamId < Bound + num_of_records)
67ab875fSJohannes Doerfert      break;
67ab875fSJohannes Doerfert  }
67ab875fSJohannes Doerfert
67ab875fSJohannes Doerfert  if (IsMaster) {
67ab875fSJohannes Doerfert    int ModBockId = TeamId % num_of_records;
67ab875fSJohannes Doerfert    if (TeamId < num_of_records) {
67ab875fSJohannes Doerfert      lgcpyFct(GlobalBuffer, ModBockId, reduce_data);
67ab875fSJohannes Doerfert    } else
67ab875fSJohannes Doerfert      lgredFct(GlobalBuffer, ModBockId, reduce_data);
67ab875fSJohannes Doerfert
67ab875fSJohannes Doerfert    fence::system(__ATOMIC_SEQ_CST);
67ab875fSJohannes Doerfert
67ab875fSJohannes Doerfert    // Increment team counter.
67ab875fSJohannes Doerfert    // This counter is incremented by all teams in the current
67ab875fSJohannes Doerfert    // BUFFER_SIZE chunk.
*ce0caf41SJoseph Huber    ChunkTeamCount = atomic::inc(&Cnt, num_of_records - 1u, __ATOMIC_SEQ_CST);
67ab875fSJohannes Doerfert  }
67ab875fSJohannes Doerfert  // Synchronize
67ab875fSJohannes Doerfert  if (mapping::isSPMDMode())
67ab875fSJohannes Doerfert    __kmpc_barrier(Loc, TId);
67ab875fSJohannes Doerfert
67ab875fSJohannes Doerfert  // reduce_data is global or shared so before being reduced within the
67ab875fSJohannes Doerfert  // warp we need to bring it in local memory:
67ab875fSJohannes Doerfert  // local_reduce_data = reduce_data[i]
67ab875fSJohannes Doerfert  //
67ab875fSJohannes Doerfert  // Example for 3 reduction variables a, b, c (of potentially different
67ab875fSJohannes Doerfert  // types):
67ab875fSJohannes Doerfert  //
67ab875fSJohannes Doerfert  // buffer layout (struct of arrays):
67ab875fSJohannes Doerfert  // a, a, ..., a, b, b, ... b, c, c, ... c
67ab875fSJohannes Doerfert  // |__________|
67ab875fSJohannes Doerfert  //     num_of_records
67ab875fSJohannes Doerfert  //
67ab875fSJohannes Doerfert  // local_data_reduce layout (struct):
67ab875fSJohannes Doerfert  // a, b, c
67ab875fSJohannes Doerfert  //
67ab875fSJohannes Doerfert  // Each thread will have a local struct containing the values to be
67ab875fSJohannes Doerfert  // reduced:
67ab875fSJohannes Doerfert  //      1. do reduction within each warp.
67ab875fSJohannes Doerfert  //      2. do reduction across warps.
67ab875fSJohannes Doerfert  //      3. write the final result to the main reduction variable
67ab875fSJohannes Doerfert  //         by returning 1 in the thread holding the reduction result.
67ab875fSJohannes Doerfert
67ab875fSJohannes Doerfert  // Check if this is the very last team.
67ab875fSJohannes Doerfert  unsigned NumRecs = kmpcMin(NumTeams, uint32_t(num_of_records));
67ab875fSJohannes Doerfert  if (ChunkTeamCount == NumTeams - Bound - 1) {
67ab875fSJohannes Doerfert    //
67ab875fSJohannes Doerfert    // Last team processing.
67ab875fSJohannes Doerfert    //
67ab875fSJohannes Doerfert    if (ThreadId >= NumRecs)
67ab875fSJohannes Doerfert      return 0;
67ab875fSJohannes Doerfert    NumThreads = roundToWarpsize(kmpcMin(NumThreads, NumRecs));
67ab875fSJohannes Doerfert    if (ThreadId >= NumThreads)
67ab875fSJohannes Doerfert      return 0;
67ab875fSJohannes Doerfert
67ab875fSJohannes Doerfert    // Load from buffer and reduce.
67ab875fSJohannes Doerfert    glcpyFct(GlobalBuffer, ThreadId, reduce_data);
67ab875fSJohannes Doerfert    for (uint32_t i = NumThreads + ThreadId; i < NumRecs; i += NumThreads)
67ab875fSJohannes Doerfert      glredFct(GlobalBuffer, i, reduce_data);
67ab875fSJohannes Doerfert
67ab875fSJohannes Doerfert    // Reduce across warps to the warp master.
67ab875fSJohannes Doerfert    if (NumThreads > 1) {
67ab875fSJohannes Doerfert      gpu_regular_warp_reduce(reduce_data, shflFct);
67ab875fSJohannes Doerfert
67ab875fSJohannes Doerfert      // When we have more than [mapping::getWarpSize()] number of threads
67ab875fSJohannes Doerfert      // a block reduction is performed here.
67ab875fSJohannes Doerfert      uint32_t ActiveThreads = kmpcMin(NumRecs, NumThreads);
67ab875fSJohannes Doerfert      if (ActiveThreads > mapping::getWarpSize()) {
67ab875fSJohannes Doerfert        uint32_t WarpsNeeded = (ActiveThreads + mapping::getWarpSize() - 1) /
67ab875fSJohannes Doerfert                               mapping::getWarpSize();
67ab875fSJohannes Doerfert        // Gather all the reduced values from each warp
67ab875fSJohannes Doerfert        // to the first warp.
67ab875fSJohannes Doerfert        cpyFct(reduce_data, WarpsNeeded);
67ab875fSJohannes Doerfert
67ab875fSJohannes Doerfert        uint32_t WarpId = ThreadId / mapping::getWarpSize();
67ab875fSJohannes Doerfert        if (WarpId == 0)
67ab875fSJohannes Doerfert          gpu_irregular_warp_reduce(reduce_data, shflFct, WarpsNeeded,
67ab875fSJohannes Doerfert                                    ThreadId);
67ab875fSJohannes Doerfert      }
67ab875fSJohannes Doerfert    }
67ab875fSJohannes Doerfert
67ab875fSJohannes Doerfert    if (IsMaster) {
67ab875fSJohannes Doerfert      Cnt = 0;
67ab875fSJohannes Doerfert      IterCnt = 0;
67ab875fSJohannes Doerfert      return 1;
67ab875fSJohannes Doerfert    }
67ab875fSJohannes Doerfert    return 0;
67ab875fSJohannes Doerfert  }
67ab875fSJohannes Doerfert  if (IsMaster && ChunkTeamCount == num_of_records - 1) {
67ab875fSJohannes Doerfert    // Allow SIZE number of teams to proceed writing their
67ab875fSJohannes Doerfert    // intermediate results to the global buffer.
*ce0caf41SJoseph Huber    atomic::add(&IterCnt, uint32_t(num_of_records), __ATOMIC_SEQ_CST);
67ab875fSJohannes Doerfert  }
67ab875fSJohannes Doerfert
67ab875fSJohannes Doerfert  return 0;
67ab875fSJohannes Doerfert}
67ab875fSJohannes Doerfert
74f91741SJoseph Hubervoid __kmpc_nvptx_end_reduce(int32_t TId) { FunctionTracingRAII(); }
67ab875fSJohannes Doerfert
74f91741SJoseph Hubervoid __kmpc_nvptx_end_reduce_nowait(int32_t TId) { FunctionTracingRAII(); }
67ab875fSJohannes Doerfert}
67ab875fSJohannes Doerfert
67ab875fSJohannes Doerfert#pragma omp end declare target