GPU/Transforms/ParallelLoopMapper.cpp

7a7eacc7SStephan Herhut//===- ParallelLoopMapper.cpp - Utilities for mapping parallel loops to GPU =//
7a7eacc7SStephan Herhut//
7a7eacc7SStephan Herhut// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
7a7eacc7SStephan Herhut// See https://llvm.org/LICENSE.txt for license information.
7a7eacc7SStephan Herhut// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
7a7eacc7SStephan Herhut//
7a7eacc7SStephan Herhut//===----------------------------------------------------------------------===//
7a7eacc7SStephan Herhut//
7a7eacc7SStephan Herhut// This file implements utilities to generate mappings for parallel loops to
7a7eacc7SStephan Herhut// GPU devices.
7a7eacc7SStephan Herhut//
7a7eacc7SStephan Herhut//===----------------------------------------------------------------------===//
7a7eacc7SStephan Herhut
7a7eacc7SStephan Herhut#include "mlir/Dialect/GPU/ParallelLoopMapper.h"
7a7eacc7SStephan Herhut
7a7eacc7SStephan Herhut#include "mlir/Dialect/GPU/GPUDialect.h"
7a7eacc7SStephan Herhut#include "mlir/Dialect/GPU/Passes.h"
7a7eacc7SStephan Herhut#include "mlir/Dialect/LoopOps/LoopOps.h"
7a7eacc7SStephan Herhut#include "mlir/IR/AffineMap.h"
7a7eacc7SStephan Herhut#include "mlir/Pass/Pass.h"
7a7eacc7SStephan Herhut
7a7eacc7SStephan Herhutusing namespace mlir;
7a7eacc7SStephan Herhutusing namespace mlir::gpu;
7a7eacc7SStephan Herhutusing namespace mlir::loop;
7a7eacc7SStephan Herhut
*46bb6613SMaheshRavishankar#include "mlir/Dialect/GPU/ParallelLoopMapperEnums.cpp.inc"
*46bb6613SMaheshRavishankarnamespace mlir {
*46bb6613SMaheshRavishankar
*46bb6613SMaheshRavishankar#include "mlir/Dialect/GPU/ParallelLoopMapperAttr.cpp.inc"
*46bb6613SMaheshRavishankarnamespace gpu {
*46bb6613SMaheshRavishankar
*46bb6613SMaheshRavishankarStringRef getMappingAttrName() { return "mapping"; }
*46bb6613SMaheshRavishankar
*46bb6613SMaheshRavishankarParallelLoopDimMapping getParallelLoopDimMappingAttr(Processor processor,
*46bb6613SMaheshRavishankar                                                     AffineMap map,
*46bb6613SMaheshRavishankar                                                     AffineMap bound) {
*46bb6613SMaheshRavishankar  MLIRContext *context = map.getContext();
*46bb6613SMaheshRavishankar  OpBuilder builder(context);
*46bb6613SMaheshRavishankar  return ParallelLoopDimMapping::get(
*46bb6613SMaheshRavishankar      builder.getI64IntegerAttr(static_cast<int32_t>(processor)),
*46bb6613SMaheshRavishankar      AffineMapAttr::get(map), AffineMapAttr::get(bound), context);
*46bb6613SMaheshRavishankar}
*46bb6613SMaheshRavishankar
*46bb6613SMaheshRavishankarLogicalResult setMappingAttr(loop::ParallelOp ploopOp,
*46bb6613SMaheshRavishankar                             ArrayRef<ParallelLoopDimMapping> mapping) {
*46bb6613SMaheshRavishankar  // Verify that each processor is mapped to only once.
*46bb6613SMaheshRavishankar  llvm::DenseSet<gpu::Processor> specifiedMappings;
*46bb6613SMaheshRavishankar  for (auto dimAttr : mapping) {
*46bb6613SMaheshRavishankar    gpu::Processor processor = getProcessor(dimAttr);
*46bb6613SMaheshRavishankar    if (processor != gpu::Processor::Sequential &&
*46bb6613SMaheshRavishankar        specifiedMappings.count(processor))
*46bb6613SMaheshRavishankar      return ploopOp.emitError(
*46bb6613SMaheshRavishankar          "invalid mapping multiple loops to same processor");
*46bb6613SMaheshRavishankar  }
*46bb6613SMaheshRavishankar  ArrayRef<Attribute> mappingAsAttrs(mapping.data(), mapping.size());
*46bb6613SMaheshRavishankar  ploopOp.setAttr(getMappingAttrName(),
*46bb6613SMaheshRavishankar                  ArrayAttr::get(mappingAsAttrs, ploopOp.getContext()));
*46bb6613SMaheshRavishankar  return success();
*46bb6613SMaheshRavishankar}
*46bb6613SMaheshRavishankar} // namespace gpu
*46bb6613SMaheshRavishankar} // namespace mlir
*46bb6613SMaheshRavishankar
7a7eacc7SStephan Herhutnamespace {
7a7eacc7SStephan Herhut
7a7eacc7SStephan Herhutenum MappingLevel { MapGrid = 0, MapBlock = 1, Sequential = 2 };
7a7eacc7SStephan Herhut
7a7eacc7SStephan Herhutstatic constexpr int kNumHardwareIds = 3;
7a7eacc7SStephan Herhut
7a7eacc7SStephan Herhut} // namespace
7a7eacc7SStephan Herhut
7a7eacc7SStephan Herhut/// Bounded increment on MappingLevel. Increments to the next
7a7eacc7SStephan Herhut/// level unless Sequential was already reached.
7a7eacc7SStephan HerhutMappingLevel &operator++(MappingLevel &mappingLevel) {
7a7eacc7SStephan Herhut  if (mappingLevel < Sequential) {
7a7eacc7SStephan Herhut    mappingLevel = static_cast<MappingLevel>(mappingLevel + 1);
7a7eacc7SStephan Herhut  }
7a7eacc7SStephan Herhut  return mappingLevel;
7a7eacc7SStephan Herhut}
7a7eacc7SStephan Herhut
7a7eacc7SStephan Herhut/// Computed the hardware id to use for a given mapping level. Will
7a7eacc7SStephan Herhut/// assign x,y and z hardware ids for the first 3 dimensions and use
7a7eacc7SStephan Herhut/// sequential after.
*46bb6613SMaheshRavishankar/// TODO(ravishankarm/herhut) : Make this use x for the inner-most loop that is
*46bb6613SMaheshRavishankar/// distributed to map to x, the next innermost to y and the next innermost to
*46bb6613SMaheshRavishankar/// z.
*46bb6613SMaheshRavishankarstatic gpu::Processor getHardwareIdForMapping(MappingLevel level,
*46bb6613SMaheshRavishankar                                              int dimension) {
*46bb6613SMaheshRavishankar
7a7eacc7SStephan Herhut  if (dimension >= kNumHardwareIds || level == Sequential)
*46bb6613SMaheshRavishankar    return Processor::Sequential;
*46bb6613SMaheshRavishankar  switch (level) {
*46bb6613SMaheshRavishankar  case MapGrid:
*46bb6613SMaheshRavishankar    switch (dimension) {
*46bb6613SMaheshRavishankar    case 0:
*46bb6613SMaheshRavishankar      return Processor::BlockX;
*46bb6613SMaheshRavishankar    case 1:
*46bb6613SMaheshRavishankar      return Processor::BlockY;
*46bb6613SMaheshRavishankar    case 2:
*46bb6613SMaheshRavishankar      return Processor::BlockZ;
*46bb6613SMaheshRavishankar    default:
*46bb6613SMaheshRavishankar      return Processor::Sequential;
*46bb6613SMaheshRavishankar    }
*46bb6613SMaheshRavishankar    break;
*46bb6613SMaheshRavishankar  case MapBlock:
*46bb6613SMaheshRavishankar    switch (dimension) {
*46bb6613SMaheshRavishankar    case 0:
*46bb6613SMaheshRavishankar      return Processor::ThreadX;
*46bb6613SMaheshRavishankar    case 1:
*46bb6613SMaheshRavishankar      return Processor::ThreadY;
*46bb6613SMaheshRavishankar    case 2:
*46bb6613SMaheshRavishankar      return Processor::ThreadZ;
*46bb6613SMaheshRavishankar    default:
*46bb6613SMaheshRavishankar      return Processor::Sequential;
*46bb6613SMaheshRavishankar    }
*46bb6613SMaheshRavishankar  default:;
*46bb6613SMaheshRavishankar  }
*46bb6613SMaheshRavishankar  return Processor::Sequential;
7a7eacc7SStephan Herhut}
7a7eacc7SStephan Herhut
7a7eacc7SStephan Herhut/// Add mapping information to the given parallel loop. Do not add
7a7eacc7SStephan Herhut/// mapping information if the loop already has it. Also, don't
7a7eacc7SStephan Herhut/// start a mapping at a nested loop.
7a7eacc7SStephan Herhutstatic void mapParallelOp(ParallelOp parallelOp,
7a7eacc7SStephan Herhut                          MappingLevel mappingLevel = MapGrid) {
7a7eacc7SStephan Herhut  // Do not try to add a mapping to already mapped loops or nested loops.
*46bb6613SMaheshRavishankar  if (parallelOp.getAttr(getMappingAttrName()) ||
7a7eacc7SStephan Herhut      ((mappingLevel == MapGrid) && parallelOp.getParentOfType<ParallelOp>()))
7a7eacc7SStephan Herhut    return;
7a7eacc7SStephan Herhut
7a7eacc7SStephan Herhut  MLIRContext *ctx = parallelOp.getContext();
7a7eacc7SStephan Herhut  Builder b(ctx);
*46bb6613SMaheshRavishankar  SmallVector<ParallelLoopDimMapping, 4> attrs;
7a7eacc7SStephan Herhut  attrs.reserve(parallelOp.getNumInductionVars());
7a7eacc7SStephan Herhut  for (int i = 0, e = parallelOp.getNumInductionVars(); i < e; ++i) {
*46bb6613SMaheshRavishankar    attrs.push_back(getParallelLoopDimMappingAttr(
*46bb6613SMaheshRavishankar        getHardwareIdForMapping(mappingLevel, i), b.getDimIdentityMap(),
*46bb6613SMaheshRavishankar        b.getDimIdentityMap()));
7a7eacc7SStephan Herhut  }
*46bb6613SMaheshRavishankar  setMappingAttr(parallelOp, attrs);
7a7eacc7SStephan Herhut  ++mappingLevel;
7a7eacc7SStephan Herhut  // Parallel loop operations are immediately nested, so do not use
7a7eacc7SStephan Herhut  // walk but just iterate over the operations.
7a7eacc7SStephan Herhut  for (Operation &op : *parallelOp.getBody()) {
7a7eacc7SStephan Herhut    if (ParallelOp nested = dyn_cast<ParallelOp>(op))
7a7eacc7SStephan Herhut      mapParallelOp(nested, mappingLevel);
7a7eacc7SStephan Herhut  }
7a7eacc7SStephan Herhut}
7a7eacc7SStephan Herhut
7a7eacc7SStephan Herhutvoid mlir::greedilyMapParallelLoopsToGPU(Region &region) {
7a7eacc7SStephan Herhut  region.walk([](ParallelOp parallelOp) { mapParallelOp(parallelOp); });
7a7eacc7SStephan Herhut}