Target/AMDGPU/AMDGPUTargetTransformInfo.cpp

d16eff81SEugene Zelenko//===- AMDGPUTargetTransformInfo.cpp - AMDGPU specific TTI pass -----------===//
45bb48eaSTom Stellard//
2946cd70SChandler Carruth// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
2946cd70SChandler Carruth// See https://llvm.org/LICENSE.txt for license information.
2946cd70SChandler Carruth// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
45bb48eaSTom Stellard//
45bb48eaSTom Stellard//===----------------------------------------------------------------------===//
45bb48eaSTom Stellard//
45bb48eaSTom Stellard// \file
45bb48eaSTom Stellard// This file implements a TargetTransformInfo analysis pass specific to the
45bb48eaSTom Stellard// AMDGPU target machine. It uses the target's detailed information to provide
45bb48eaSTom Stellard// more precise answers to certain TTI queries, while letting the target
45bb48eaSTom Stellard// independent and default TTI implementations handle the rest.
45bb48eaSTom Stellard//
45bb48eaSTom Stellard//===----------------------------------------------------------------------===//
45bb48eaSTom Stellard
45bb48eaSTom Stellard#include "AMDGPUTargetTransformInfo.h"
6a87e9b0Sdfukalov#include "AMDGPUTargetMachine.h"
48958d02SDaniil Fukalov#include "MCTargetDesc/AMDGPUMCTargetDesc.h"
45bb48eaSTom Stellard#include "llvm/Analysis/LoopInfo.h"
45bb48eaSTom Stellard#include "llvm/Analysis/ValueTracking.h"
99142003SNikita Popov#include "llvm/IR/IRBuilder.h"
48958d02SDaniil Fukalov#include "llvm/IR/IntrinsicsAMDGPU.h"
376f1bd7SMatt Arsenault#include "llvm/IR/PatternMatch.h"
1673a080SSimon Pilgrim#include "llvm/Support/KnownBits.h"
d16eff81SEugene Zelenko
45bb48eaSTom Stellardusing namespace llvm;
45bb48eaSTom Stellard
45bb48eaSTom Stellard#define DEBUG_TYPE "AMDGPUtti"
45bb48eaSTom Stellard
f29602dfSStanislav Mekhanoshinstatic cl::opt<unsigned> UnrollThresholdPrivate(
f29602dfSStanislav Mekhanoshin  "amdgpu-unroll-threshold-private",
f29602dfSStanislav Mekhanoshin  cl::desc("Unroll threshold for AMDGPU if private memory used in a loop"),
6fd11b14Sdfukalov  cl::init(2700), cl::Hidden);
9651813eSMatt Arsenault
baf31ac7SStanislav Mekhanoshinstatic cl::opt<unsigned> UnrollThresholdLocal(
baf31ac7SStanislav Mekhanoshin  "amdgpu-unroll-threshold-local",
baf31ac7SStanislav Mekhanoshin  cl::desc("Unroll threshold for AMDGPU if local memory used in a loop"),
baf31ac7SStanislav Mekhanoshin  cl::init(1000), cl::Hidden);
baf31ac7SStanislav Mekhanoshin
478b8198SStanislav Mekhanoshinstatic cl::opt<unsigned> UnrollThresholdIf(
478b8198SStanislav Mekhanoshin  "amdgpu-unroll-threshold-if",
478b8198SStanislav Mekhanoshin  cl::desc("Unroll threshold increment for AMDGPU for each if statement inside loop"),
8f4b7e94Sdfukalov  cl::init(200), cl::Hidden);
478b8198SStanislav Mekhanoshin
6b813f27SStanislav Mekhanoshinstatic cl::opt<bool> UnrollRuntimeLocal(
6b813f27SStanislav Mekhanoshin  "amdgpu-unroll-runtime-local",
6b813f27SStanislav Mekhanoshin  cl::desc("Allow runtime unroll for AMDGPU if local memory used in a loop"),
6b813f27SStanislav Mekhanoshin  cl::init(true), cl::Hidden);
6b813f27SStanislav Mekhanoshin
c2266463SAustin Kerbowstatic cl::opt<bool> UseLegacyDA(
c2266463SAustin Kerbow  "amdgpu-use-legacy-divergence-analysis",
c2266463SAustin Kerbow  cl::desc("Enable legacy divergence analysis for AMDGPU"),
c2266463SAustin Kerbow  cl::init(false), cl::Hidden);
c2266463SAustin Kerbow
c94d32a6Sdfukalovstatic cl::opt<unsigned> UnrollMaxBlockToAnalyze(
c94d32a6Sdfukalov    "amdgpu-unroll-max-block-to-analyze",
c94d32a6Sdfukalov    cl::desc("Inner loop block size threshold to analyze in unroll for AMDGPU"),
33e2f69aSdfukalov    cl::init(32), cl::Hidden);
c94d32a6Sdfukalov
a11bf9a7SArthur Eubanksstatic cl::opt<unsigned> ArgAllocaCost("amdgpu-inline-arg-alloca-cost",
a11bf9a7SArthur Eubanks                                       cl::Hidden, cl::init(4000),
a11bf9a7SArthur Eubanks                                       cl::desc("Cost of alloca argument"));
a11bf9a7SArthur Eubanks
a11bf9a7SArthur Eubanks// If the amount of scratch memory to eliminate exceeds our ability to allocate
a11bf9a7SArthur Eubanks// it into registers we gain nothing by aggressively inlining functions for that
a11bf9a7SArthur Eubanks// heuristic.
a11bf9a7SArthur Eubanksstatic cl::opt<unsigned>
a11bf9a7SArthur Eubanks    ArgAllocaCutoff("amdgpu-inline-arg-alloca-cutoff", cl::Hidden,
a11bf9a7SArthur Eubanks                    cl::init(256),
a11bf9a7SArthur Eubanks                    cl::desc("Maximum alloca size to use for inline cost"));
a11bf9a7SArthur Eubanks
a11bf9a7SArthur Eubanks// Inliner constraint to achieve reasonable compilation time.
a11bf9a7SArthur Eubanksstatic cl::opt<size_t> InlineMaxBB(
a11bf9a7SArthur Eubanks    "amdgpu-inline-max-bb", cl::Hidden, cl::init(1100),
a11bf9a7SArthur Eubanks    cl::desc("Maximum number of BBs allowed in a function after inlining"
a11bf9a7SArthur Eubanks             " (compile time constraint)"));
a11bf9a7SArthur Eubanks
478b8198SStanislav Mekhanoshinstatic bool dependsOnLocalPhi(const Loop *L, const Value *Cond,
478b8198SStanislav Mekhanoshin                              unsigned Depth = 0) {
478b8198SStanislav Mekhanoshin  const Instruction *I = dyn_cast<Instruction>(Cond);
478b8198SStanislav Mekhanoshin  if (!I)
478b8198SStanislav Mekhanoshin    return false;
478b8198SStanislav Mekhanoshin
478b8198SStanislav Mekhanoshin  for (const Value *V : I->operand_values()) {
478b8198SStanislav Mekhanoshin    if (!L->contains(I))
478b8198SStanislav Mekhanoshin      continue;
478b8198SStanislav Mekhanoshin    if (const PHINode *PHI = dyn_cast<PHINode>(V)) {
d16eff81SEugene Zelenko      if (llvm::none_of(L->getSubLoops(), [PHI](const Loop* SubLoop) {
478b8198SStanislav Mekhanoshin                  return SubLoop->contains(PHI); }))
478b8198SStanislav Mekhanoshin        return true;
478b8198SStanislav Mekhanoshin    } else if (Depth < 10 && dependsOnLocalPhi(L, V, Depth+1))
478b8198SStanislav Mekhanoshin      return true;
478b8198SStanislav Mekhanoshin  }
478b8198SStanislav Mekhanoshin  return false;
478b8198SStanislav Mekhanoshin}
478b8198SStanislav Mekhanoshin
6a87e9b0SdfukalovAMDGPUTTIImpl::AMDGPUTTIImpl(const AMDGPUTargetMachine *TM, const Function &F)
6a87e9b0Sdfukalov    : BaseT(TM, F.getParent()->getDataLayout()),
6a87e9b0Sdfukalov      TargetTriple(TM->getTargetTriple()),
6a87e9b0Sdfukalov      ST(static_cast<const GCNSubtarget *>(TM->getSubtargetImpl(F))),
6a87e9b0Sdfukalov      TLI(ST->getTargetLowering()) {}
6a87e9b0Sdfukalov
66d9bdbcSGeoff Berryvoid AMDGPUTTIImpl::getUnrollingPreferences(Loop *L, ScalarEvolution &SE,
6f6e9a86SRoman Lebedev                                            TTI::UnrollingPreferences &UP,
6f6e9a86SRoman Lebedev                                            OptimizationRemarkEmitter *ORE) {
6821a3ccSTim Corringham  const Function &F = *L->getHeader()->getParent();
6821a3ccSTim Corringham  UP.Threshold = AMDGPU::getIntegerAttribute(F, "amdgpu-unroll-threshold", 300);
d16eff81SEugene Zelenko  UP.MaxCount = std::numeric_limits<unsigned>::max();
45bb48eaSTom Stellard  UP.Partial = true;
45bb48eaSTom Stellard
8f4b7e94Sdfukalov  // Conditional branch in a loop back edge needs 3 additional exec
8f4b7e94Sdfukalov  // manipulations in average.
8f4b7e94Sdfukalov  UP.BEInsns += 3;
8f4b7e94Sdfukalov
45bb48eaSTom Stellard  // TODO: Do we want runtime unrolling?
45bb48eaSTom Stellard
f29602dfSStanislav Mekhanoshin  // Maximum alloca size than can fit registers. Reserve 16 registers.
f29602dfSStanislav Mekhanoshin  const unsigned MaxAlloca = (256 - 16) * 4;
baf31ac7SStanislav Mekhanoshin  unsigned ThresholdPrivate = UnrollThresholdPrivate;
baf31ac7SStanislav Mekhanoshin  unsigned ThresholdLocal = UnrollThresholdLocal;
3c1273d7STim Corringham
3c1273d7STim Corringham  // If this loop has the amdgpu.loop.unroll.threshold metadata we will use the
3c1273d7STim Corringham  // provided threshold value as the default for Threshold
3c1273d7STim Corringham  if (MDNode *LoopUnrollThreshold =
3c1273d7STim Corringham          findOptionMDForLoop(L, "amdgpu.loop.unroll.threshold")) {
3c1273d7STim Corringham    if (LoopUnrollThreshold->getNumOperands() == 2) {
3c1273d7STim Corringham      ConstantInt *MetaThresholdValue = mdconst::extract_or_null<ConstantInt>(
3c1273d7STim Corringham          LoopUnrollThreshold->getOperand(1));
3c1273d7STim Corringham      if (MetaThresholdValue) {
3c1273d7STim Corringham        // We will also use the supplied value for PartialThreshold for now.
3c1273d7STim Corringham        // We may introduce additional metadata if it becomes necessary in the
3c1273d7STim Corringham        // future.
3c1273d7STim Corringham        UP.Threshold = MetaThresholdValue->getSExtValue();
3c1273d7STim Corringham        UP.PartialThreshold = UP.Threshold;
3c1273d7STim Corringham        ThresholdPrivate = std::min(ThresholdPrivate, UP.Threshold);
3c1273d7STim Corringham        ThresholdLocal = std::min(ThresholdLocal, UP.Threshold);
3c1273d7STim Corringham      }
3c1273d7STim Corringham    }
3c1273d7STim Corringham  }
3c1273d7STim Corringham
baf31ac7SStanislav Mekhanoshin  unsigned MaxBoost = std::max(ThresholdPrivate, ThresholdLocal);
45bb48eaSTom Stellard  for (const BasicBlock *BB : L->getBlocks()) {
45bb48eaSTom Stellard    const DataLayout &DL = BB->getModule()->getDataLayout();
baf31ac7SStanislav Mekhanoshin    unsigned LocalGEPsSeen = 0;
baf31ac7SStanislav Mekhanoshin
d16eff81SEugene Zelenko    if (llvm::any_of(L->getSubLoops(), [BB](const Loop* SubLoop) {
478b8198SStanislav Mekhanoshin               return SubLoop->contains(BB); }))
478b8198SStanislav Mekhanoshin        continue; // Block belongs to an inner loop.
478b8198SStanislav Mekhanoshin
45bb48eaSTom Stellard    for (const Instruction &I : *BB) {
478b8198SStanislav Mekhanoshin      // Unroll a loop which contains an "if" statement whose condition
478b8198SStanislav Mekhanoshin      // defined by a PHI belonging to the loop. This may help to eliminate
478b8198SStanislav Mekhanoshin      // if region and potentially even PHI itself, saving on both divergence
478b8198SStanislav Mekhanoshin      // and registers used for the PHI.
478b8198SStanislav Mekhanoshin      // Add a small bonus for each of such "if" statements.
478b8198SStanislav Mekhanoshin      if (const BranchInst *Br = dyn_cast<BranchInst>(&I)) {
478b8198SStanislav Mekhanoshin        if (UP.Threshold < MaxBoost && Br->isConditional()) {
33c8c0eaSFlorian Hahn          BasicBlock *Succ0 = Br->getSuccessor(0);
33c8c0eaSFlorian Hahn          BasicBlock *Succ1 = Br->getSuccessor(1);
33c8c0eaSFlorian Hahn          if ((L->contains(Succ0) && L->isLoopExiting(Succ0)) ||
33c8c0eaSFlorian Hahn              (L->contains(Succ1) && L->isLoopExiting(Succ1)))
478b8198SStanislav Mekhanoshin            continue;
478b8198SStanislav Mekhanoshin          if (dependsOnLocalPhi(L, Br->getCondition())) {
478b8198SStanislav Mekhanoshin            UP.Threshold += UnrollThresholdIf;
d34e60caSNicola Zaghen            LLVM_DEBUG(dbgs() << "Set unroll threshold " << UP.Threshold
d34e60caSNicola Zaghen                              << " for loop:\n"
d34e60caSNicola Zaghen                              << *L << " due to " << *Br << '\n');
478b8198SStanislav Mekhanoshin            if (UP.Threshold >= MaxBoost)
478b8198SStanislav Mekhanoshin              return;
478b8198SStanislav Mekhanoshin          }
478b8198SStanislav Mekhanoshin        }
478b8198SStanislav Mekhanoshin        continue;
478b8198SStanislav Mekhanoshin      }
478b8198SStanislav Mekhanoshin
45bb48eaSTom Stellard      const GetElementPtrInst *GEP = dyn_cast<GetElementPtrInst>(&I);
baf31ac7SStanislav Mekhanoshin      if (!GEP)
45bb48eaSTom Stellard        continue;
45bb48eaSTom Stellard
baf31ac7SStanislav Mekhanoshin      unsigned AS = GEP->getAddressSpace();
baf31ac7SStanislav Mekhanoshin      unsigned Threshold = 0;
0da6350dSMatt Arsenault      if (AS == AMDGPUAS::PRIVATE_ADDRESS)
baf31ac7SStanislav Mekhanoshin        Threshold = ThresholdPrivate;
4dc3b2bfSNicolai Haehnle      else if (AS == AMDGPUAS::LOCAL_ADDRESS || AS == AMDGPUAS::REGION_ADDRESS)
baf31ac7SStanislav Mekhanoshin        Threshold = ThresholdLocal;
baf31ac7SStanislav Mekhanoshin      else
baf31ac7SStanislav Mekhanoshin        continue;
baf31ac7SStanislav Mekhanoshin
baf31ac7SStanislav Mekhanoshin      if (UP.Threshold >= Threshold)
baf31ac7SStanislav Mekhanoshin        continue;
baf31ac7SStanislav Mekhanoshin
0da6350dSMatt Arsenault      if (AS == AMDGPUAS::PRIVATE_ADDRESS) {
45bb48eaSTom Stellard        const Value *Ptr = GEP->getPointerOperand();
45bb48eaSTom Stellard        const AllocaInst *Alloca =
b0eb40caSVitaly Buka            dyn_cast<AllocaInst>(getUnderlyingObject(Ptr));
baf31ac7SStanislav Mekhanoshin        if (!Alloca || !Alloca->isStaticAlloca())
baf31ac7SStanislav Mekhanoshin          continue;
f29602dfSStanislav Mekhanoshin        Type *Ty = Alloca->getAllocatedType();
f29602dfSStanislav Mekhanoshin        unsigned AllocaSize = Ty->isSized() ? DL.getTypeAllocSize(Ty) : 0;
f29602dfSStanislav Mekhanoshin        if (AllocaSize > MaxAlloca)
f29602dfSStanislav Mekhanoshin          continue;
4dc3b2bfSNicolai Haehnle      } else if (AS == AMDGPUAS::LOCAL_ADDRESS ||
4dc3b2bfSNicolai Haehnle                 AS == AMDGPUAS::REGION_ADDRESS) {
baf31ac7SStanislav Mekhanoshin        LocalGEPsSeen++;
baf31ac7SStanislav Mekhanoshin        // Inhibit unroll for local memory if we have seen addressing not to
baf31ac7SStanislav Mekhanoshin        // a variable, most likely we will be unable to combine it.
baf31ac7SStanislav Mekhanoshin        // Do not unroll too deep inner loops for local memory to give a chance
baf31ac7SStanislav Mekhanoshin        // to unroll an outer loop for a more important reason.
baf31ac7SStanislav Mekhanoshin        if (LocalGEPsSeen > 1 || L->getLoopDepth() > 2 ||
baf31ac7SStanislav Mekhanoshin            (!isa<GlobalVariable>(GEP->getPointerOperand()) &&
baf31ac7SStanislav Mekhanoshin             !isa<Argument>(GEP->getPointerOperand())))
baf31ac7SStanislav Mekhanoshin          continue;
6b813f27SStanislav Mekhanoshin        LLVM_DEBUG(dbgs() << "Allow unroll runtime for loop:\n"
6b813f27SStanislav Mekhanoshin                          << *L << " due to LDS use.\n");
6b813f27SStanislav Mekhanoshin        UP.Runtime = UnrollRuntimeLocal;
baf31ac7SStanislav Mekhanoshin      }
f29602dfSStanislav Mekhanoshin
f29602dfSStanislav Mekhanoshin      // Check if GEP depends on a value defined by this loop itself.
f29602dfSStanislav Mekhanoshin      bool HasLoopDef = false;
f29602dfSStanislav Mekhanoshin      for (const Value *Op : GEP->operands()) {
f29602dfSStanislav Mekhanoshin        const Instruction *Inst = dyn_cast<Instruction>(Op);
f29602dfSStanislav Mekhanoshin        if (!Inst || L->isLoopInvariant(Op))
f29602dfSStanislav Mekhanoshin          continue;
baf31ac7SStanislav Mekhanoshin
d16eff81SEugene Zelenko        if (llvm::any_of(L->getSubLoops(), [Inst](const Loop* SubLoop) {
f29602dfSStanislav Mekhanoshin             return SubLoop->contains(Inst); }))
f29602dfSStanislav Mekhanoshin          continue;
f29602dfSStanislav Mekhanoshin        HasLoopDef = true;
f29602dfSStanislav Mekhanoshin        break;
f29602dfSStanislav Mekhanoshin      }
f29602dfSStanislav Mekhanoshin      if (!HasLoopDef)
f29602dfSStanislav Mekhanoshin        continue;
f29602dfSStanislav Mekhanoshin
45bb48eaSTom Stellard      // We want to do whatever we can to limit the number of alloca
45bb48eaSTom Stellard      // instructions that make it through to the code generator.  allocas
45bb48eaSTom Stellard      // require us to use indirect addressing, which is slow and prone to
45bb48eaSTom Stellard      // compiler bugs.  If this loop does an address calculation on an
45bb48eaSTom Stellard      // alloca ptr, then we want to use a higher than normal loop unroll
45bb48eaSTom Stellard      // threshold. This will give SROA a better chance to eliminate these
45bb48eaSTom Stellard      // allocas.
45bb48eaSTom Stellard      //
baf31ac7SStanislav Mekhanoshin      // We also want to have more unrolling for local memory to let ds
baf31ac7SStanislav Mekhanoshin      // instructions with different offsets combine.
baf31ac7SStanislav Mekhanoshin      //
45bb48eaSTom Stellard      // Don't use the maximum allowed value here as it will make some
45bb48eaSTom Stellard      // programs way too big.
baf31ac7SStanislav Mekhanoshin      UP.Threshold = Threshold;
d34e60caSNicola Zaghen      LLVM_DEBUG(dbgs() << "Set unroll threshold " << Threshold
d34e60caSNicola Zaghen                        << " for loop:\n"
baf31ac7SStanislav Mekhanoshin                        << *L << " due to " << *GEP << '\n');
478b8198SStanislav Mekhanoshin      if (UP.Threshold >= MaxBoost)
f29602dfSStanislav Mekhanoshin        return;
45bb48eaSTom Stellard    }
c94d32a6Sdfukalov
c94d32a6Sdfukalov    // If we got a GEP in a small BB from inner loop then increase max trip
c94d32a6Sdfukalov    // count to analyze for better estimation cost in unroll
49f27449SFangrui Song    if (L->isInnermost() && BB->size() < UnrollMaxBlockToAnalyze)
c94d32a6Sdfukalov      UP.MaxIterationsCountToAnalyze = 32;
45bb48eaSTom Stellard  }
45bb48eaSTom Stellard}
45bb48eaSTom Stellard
e541e1b7SSidharth Bavejavoid AMDGPUTTIImpl::getPeelingPreferences(Loop *L, ScalarEvolution &SE,
e541e1b7SSidharth Baveja                                          TTI::PeelingPreferences &PP) {
e541e1b7SSidharth Baveja  BaseT::getPeelingPreferences(L, SE, PP);
e541e1b7SSidharth Baveja}
6a87e9b0Sdfukalov
560d7e04Sdfukalovconst FeatureBitset GCNTTIImpl::InlineFeatureIgnoreList = {
560d7e04Sdfukalov    // Codegen control options which don't matter.
560d7e04Sdfukalov    AMDGPU::FeatureEnableLoadStoreOpt, AMDGPU::FeatureEnableSIScheduler,
560d7e04Sdfukalov    AMDGPU::FeatureEnableUnsafeDSOffsetFolding, AMDGPU::FeatureFlatForGlobal,
560d7e04Sdfukalov    AMDGPU::FeaturePromoteAlloca, AMDGPU::FeatureUnalignedScratchAccess,
560d7e04Sdfukalov    AMDGPU::FeatureUnalignedAccessMode,
560d7e04Sdfukalov
560d7e04Sdfukalov    AMDGPU::FeatureAutoWaitcntBeforeBarrier,
560d7e04Sdfukalov
560d7e04Sdfukalov    // Property of the kernel/environment which can't actually differ.
560d7e04Sdfukalov    AMDGPU::FeatureSGPRInitBug, AMDGPU::FeatureXNACK,
560d7e04Sdfukalov    AMDGPU::FeatureTrapHandler,
560d7e04Sdfukalov
560d7e04Sdfukalov    // The default assumption needs to be ecc is enabled, but no directly
560d7e04Sdfukalov    // exposed operations depend on it, so it can be safely inlined.
560d7e04Sdfukalov    AMDGPU::FeatureSRAMECC,
560d7e04Sdfukalov
560d7e04Sdfukalov    // Perf-tuning features
560d7e04Sdfukalov    AMDGPU::FeatureFastFMAF32, AMDGPU::HalfRate64Ops};
560d7e04Sdfukalov
6a87e9b0SdfukalovGCNTTIImpl::GCNTTIImpl(const AMDGPUTargetMachine *TM, const Function &F)
6a87e9b0Sdfukalov    : BaseT(TM, F.getParent()->getDataLayout()),
6a87e9b0Sdfukalov      ST(static_cast<const GCNSubtarget *>(TM->getSubtargetImpl(F))),
6a87e9b0Sdfukalov      TLI(ST->getTargetLowering()), CommonTTI(TM, F),
fced87d4SStanislav Mekhanoshin      IsGraphics(AMDGPU::isGraphics(F.getCallingConv())) {
6a87e9b0Sdfukalov  AMDGPU::SIModeRegisterDefaults Mode(F);
6a87e9b0Sdfukalov  HasFP32Denormals = Mode.allFP32Denormals();
6a87e9b0Sdfukalov  HasFP64FP16Denormals = Mode.allFP64FP16Denormals();
6a87e9b0Sdfukalov}
6a87e9b0Sdfukalov
fced87d4SStanislav Mekhanoshinunsigned GCNTTIImpl::getNumberOfRegisters(unsigned RCID) const {
fced87d4SStanislav Mekhanoshin  // NB: RCID is not an RCID. In fact it is 0 or 1 for scalar or vector
fced87d4SStanislav Mekhanoshin  // registers. See getRegisterClassForType for the implementation.
fced87d4SStanislav Mekhanoshin  // In this case vector registers are not vector in terms of
fced87d4SStanislav Mekhanoshin  // VGPRs, but those which can hold multiple values.
45bb48eaSTom Stellard
67cd347eSMatt Arsenault  // This is really the number of registers to fill when vectorizing /
67cd347eSMatt Arsenault  // interleaving loops, so we lie to avoid trying to use all registers.
fced87d4SStanislav Mekhanoshin  return 4;
77f8f813SStanislav Mekhanoshin}
77f8f813SStanislav Mekhanoshin
55d18b3cSSander de SmalenTypeSize
55d18b3cSSander de SmalenGCNTTIImpl::getRegisterBitWidth(TargetTransformInfo::RegisterKind K) const {
55d18b3cSSander de Smalen  switch (K) {
55d18b3cSSander de Smalen  case TargetTransformInfo::RGK_Scalar:
55d18b3cSSander de Smalen    return TypeSize::getFixed(32);
55d18b3cSSander de Smalen  case TargetTransformInfo::RGK_FixedWidthVector:
55d18b3cSSander de Smalen    return TypeSize::getFixed(ST->hasPackedFP32Ops() ? 64 : 32);
55d18b3cSSander de Smalen  case TargetTransformInfo::RGK_ScalableVector:
55d18b3cSSander de Smalen    return TypeSize::getScalable(0);
55d18b3cSSander de Smalen  }
55d18b3cSSander de Smalen  llvm_unreachable("Unsupported register kind");
67cd347eSMatt Arsenault}
67cd347eSMatt Arsenault
c7624317STom Stellardunsigned GCNTTIImpl::getMinVectorRegisterBitWidth() const {
67cd347eSMatt Arsenault  return 32;
4339b3ffSMatt Arsenault}
45bb48eaSTom Stellard
87d7757bSStanislav Mekhanoshinunsigned GCNTTIImpl::getMaximumVF(unsigned ElemWidth, unsigned Opcode) const {
87d7757bSStanislav Mekhanoshin  if (Opcode == Instruction::Load || Opcode == Instruction::Store)
87d7757bSStanislav Mekhanoshin    return 32 * 4 / ElemWidth;
a8d9d507SStanislav Mekhanoshin  return (ElemWidth == 16 && ST->has16BitInsts()) ? 2
a8d9d507SStanislav Mekhanoshin       : (ElemWidth == 32 && ST->hasPackedFP32Ops()) ? 2
a8d9d507SStanislav Mekhanoshin       : 1;
87d7757bSStanislav Mekhanoshin}
87d7757bSStanislav Mekhanoshin
c7624317STom Stellardunsigned GCNTTIImpl::getLoadVectorFactor(unsigned VF, unsigned LoadSize,
89196642SFarhana Aleen                                         unsigned ChainSizeInBytes,
89196642SFarhana Aleen                                         VectorType *VecTy) const {
89196642SFarhana Aleen  unsigned VecRegBitWidth = VF * LoadSize;
89196642SFarhana Aleen  if (VecRegBitWidth > 128 && VecTy->getScalarSizeInBits() < 32)
89196642SFarhana Aleen    // TODO: Support element-size less than 32bit?
89196642SFarhana Aleen    return 128 / LoadSize;
89196642SFarhana Aleen
89196642SFarhana Aleen  return VF;
89196642SFarhana Aleen}
89196642SFarhana Aleen
c7624317STom Stellardunsigned GCNTTIImpl::getStoreVectorFactor(unsigned VF, unsigned StoreSize,
89196642SFarhana Aleen                                             unsigned ChainSizeInBytes,
89196642SFarhana Aleen                                             VectorType *VecTy) const {
89196642SFarhana Aleen  unsigned VecRegBitWidth = VF * StoreSize;
89196642SFarhana Aleen  if (VecRegBitWidth > 128)
89196642SFarhana Aleen    return 128 / StoreSize;
89196642SFarhana Aleen
89196642SFarhana Aleen  return VF;
89196642SFarhana Aleen}
89196642SFarhana Aleen
c7624317STom Stellardunsigned GCNTTIImpl::getLoadStoreVecRegBitWidth(unsigned AddrSpace) const {
0da6350dSMatt Arsenault  if (AddrSpace == AMDGPUAS::GLOBAL_ADDRESS ||
0da6350dSMatt Arsenault      AddrSpace == AMDGPUAS::CONSTANT_ADDRESS ||
523dab07SNeil Henning      AddrSpace == AMDGPUAS::CONSTANT_ADDRESS_32BIT ||
523dab07SNeil Henning      AddrSpace == AMDGPUAS::BUFFER_FAT_POINTER) {
89196642SFarhana Aleen    return 512;
89196642SFarhana Aleen  }
89196642SFarhana Aleen
0da6350dSMatt Arsenault  if (AddrSpace == AMDGPUAS::PRIVATE_ADDRESS)
0994bd57SMatt Arsenault    return 8 * ST->getMaxPrivateElementSize();
1a14bfa0SYaxun Liu
78a43f10SMatt Arsenault  // Common to flat, global, local and region. Assume for unknown addrspace.
78a43f10SMatt Arsenault  return 128;
0994bd57SMatt Arsenault}
0994bd57SMatt Arsenault
c7624317STom Stellardbool GCNTTIImpl::isLegalToVectorizeMemChain(unsigned ChainSizeInBytes,
1507fc15SGuillaume Chatelet                                            Align Alignment,
f0a88dbaSMatt Arsenault                                            unsigned AddrSpace) const {
f0a88dbaSMatt Arsenault  // We allow vectorization of flat stores, even though we may need to decompose
f0a88dbaSMatt Arsenault  // them later if they may access private memory. We don't have enough context
f0a88dbaSMatt Arsenault  // here, and legalization can handle it.
0da6350dSMatt Arsenault  if (AddrSpace == AMDGPUAS::PRIVATE_ADDRESS) {
f0a88dbaSMatt Arsenault    return (Alignment >= 4 || ST->hasUnalignedScratchAccess()) &&
f0a88dbaSMatt Arsenault      ChainSizeInBytes <= ST->getMaxPrivateElementSize();
f0a88dbaSMatt Arsenault  }
f0a88dbaSMatt Arsenault  return true;
f0a88dbaSMatt Arsenault}
f0a88dbaSMatt Arsenault
c7624317STom Stellardbool GCNTTIImpl::isLegalToVectorizeLoadChain(unsigned ChainSizeInBytes,
1507fc15SGuillaume Chatelet                                             Align Alignment,
f0a88dbaSMatt Arsenault                                             unsigned AddrSpace) const {
f0a88dbaSMatt Arsenault  return isLegalToVectorizeMemChain(ChainSizeInBytes, Alignment, AddrSpace);
f0a88dbaSMatt Arsenault}
f0a88dbaSMatt Arsenault
c7624317STom Stellardbool GCNTTIImpl::isLegalToVectorizeStoreChain(unsigned ChainSizeInBytes,
1507fc15SGuillaume Chatelet                                              Align Alignment,
f0a88dbaSMatt Arsenault                                              unsigned AddrSpace) const {
f0a88dbaSMatt Arsenault  return isLegalToVectorizeMemChain(ChainSizeInBytes, Alignment, AddrSpace);
f0a88dbaSMatt Arsenault}
f0a88dbaSMatt Arsenault
cee65d51SJay Foad// FIXME: Really we would like to issue multiple 128-bit loads and stores per
cee65d51SJay Foad// iteration. Should we report a larger size and let it legalize?
cee65d51SJay Foad//
cee65d51SJay Foad// FIXME: Should we use narrower types for local/region, or account for when
cee65d51SJay Foad// unaligned access is legal?
cee65d51SJay Foad//
cee65d51SJay Foad// FIXME: This could use fine tuning and microbenchmarks.
da41214dSEvgeniy BrevnovType *GCNTTIImpl::getMemcpyLoopLoweringType(
da41214dSEvgeniy Brevnov    LLVMContext &Context, Value *Length, unsigned SrcAddrSpace,
da41214dSEvgeniy Brevnov    unsigned DestAddrSpace, unsigned SrcAlign, unsigned DestAlign,
da41214dSEvgeniy Brevnov    Optional<uint32_t> AtomicElementSize) const {
da41214dSEvgeniy Brevnov
da41214dSEvgeniy Brevnov  if (AtomicElementSize)
da41214dSEvgeniy Brevnov    return Type::getIntNTy(Context, *AtomicElementSize * 8);
da41214dSEvgeniy Brevnov
cee65d51SJay Foad  unsigned MinAlign = std::min(SrcAlign, DestAlign);
cee65d51SJay Foad
cee65d51SJay Foad  // A (multi-)dword access at an address == 2 (mod 4) will be decomposed by the
cee65d51SJay Foad  // hardware into byte accesses. If you assume all alignments are equally
cee65d51SJay Foad  // probable, it's more efficient on average to use short accesses for this
cee65d51SJay Foad  // case.
cee65d51SJay Foad  if (MinAlign == 2)
cee65d51SJay Foad    return Type::getInt16Ty(Context);
cee65d51SJay Foad
cee65d51SJay Foad  // Not all subtargets have 128-bit DS instructions, and we currently don't
cee65d51SJay Foad  // form them by default.
cee65d51SJay Foad  if (SrcAddrSpace == AMDGPUAS::LOCAL_ADDRESS ||
cee65d51SJay Foad      SrcAddrSpace == AMDGPUAS::REGION_ADDRESS ||
cee65d51SJay Foad      DestAddrSpace == AMDGPUAS::LOCAL_ADDRESS ||
cee65d51SJay Foad      DestAddrSpace == AMDGPUAS::REGION_ADDRESS) {
aad93654SChristopher Tetreault    return FixedVectorType::get(Type::getInt32Ty(Context), 2);
cee65d51SJay Foad  }
cee65d51SJay Foad
cee65d51SJay Foad  // Global memory works best with 16-byte accesses. Private memory will also
cee65d51SJay Foad  // hit this, although they'll be decomposed.
aad93654SChristopher Tetreault  return FixedVectorType::get(Type::getInt32Ty(Context), 4);
cee65d51SJay Foad}
cee65d51SJay Foad
cee65d51SJay Foadvoid GCNTTIImpl::getMemcpyLoopResidualLoweringType(
cee65d51SJay Foad    SmallVectorImpl<Type *> &OpsOut, LLVMContext &Context,
cee65d51SJay Foad    unsigned RemainingBytes, unsigned SrcAddrSpace, unsigned DestAddrSpace,
da41214dSEvgeniy Brevnov    unsigned SrcAlign, unsigned DestAlign,
da41214dSEvgeniy Brevnov    Optional<uint32_t> AtomicCpySize) const {
cee65d51SJay Foad  assert(RemainingBytes < 16);
cee65d51SJay Foad
da41214dSEvgeniy Brevnov  if (AtomicCpySize)
da41214dSEvgeniy Brevnov    BaseT::getMemcpyLoopResidualLoweringType(
da41214dSEvgeniy Brevnov        OpsOut, Context, RemainingBytes, SrcAddrSpace, DestAddrSpace, SrcAlign,
da41214dSEvgeniy Brevnov        DestAlign, AtomicCpySize);
da41214dSEvgeniy Brevnov
cee65d51SJay Foad  unsigned MinAlign = std::min(SrcAlign, DestAlign);
cee65d51SJay Foad
cee65d51SJay Foad  if (MinAlign != 2) {
cee65d51SJay Foad    Type *I64Ty = Type::getInt64Ty(Context);
cee65d51SJay Foad    while (RemainingBytes >= 8) {
cee65d51SJay Foad      OpsOut.push_back(I64Ty);
cee65d51SJay Foad      RemainingBytes -= 8;
cee65d51SJay Foad    }
cee65d51SJay Foad
cee65d51SJay Foad    Type *I32Ty = Type::getInt32Ty(Context);
cee65d51SJay Foad    while (RemainingBytes >= 4) {
cee65d51SJay Foad      OpsOut.push_back(I32Ty);
cee65d51SJay Foad      RemainingBytes -= 4;
cee65d51SJay Foad    }
cee65d51SJay Foad  }
cee65d51SJay Foad
cee65d51SJay Foad  Type *I16Ty = Type::getInt16Ty(Context);
cee65d51SJay Foad  while (RemainingBytes >= 2) {
cee65d51SJay Foad    OpsOut.push_back(I16Ty);
cee65d51SJay Foad    RemainingBytes -= 2;
cee65d51SJay Foad  }
cee65d51SJay Foad
cee65d51SJay Foad  Type *I8Ty = Type::getInt8Ty(Context);
cee65d51SJay Foad  while (RemainingBytes) {
cee65d51SJay Foad    OpsOut.push_back(I8Ty);
cee65d51SJay Foad    --RemainingBytes;
cee65d51SJay Foad  }
cee65d51SJay Foad}
cee65d51SJay Foad
c7624317STom Stellardunsigned GCNTTIImpl::getMaxInterleaveFactor(unsigned VF) {
1be9b9f8SChangpeng Fang  // Disable unrolling if the loop is not vectorized.
67cd347eSMatt Arsenault  // TODO: Enable this again.
1be9b9f8SChangpeng Fang  if (VF == 1)
1be9b9f8SChangpeng Fang    return 1;
1be9b9f8SChangpeng Fang
67cd347eSMatt Arsenault  return 8;
45bb48eaSTom Stellard}
e830f542SMatt Arsenault
c7624317STom Stellardbool GCNTTIImpl::getTgtMemIntrinsic(IntrinsicInst *Inst,
3e268cc0SMatt Arsenault                                       MemIntrinsicInfo &Info) const {
3e268cc0SMatt Arsenault  switch (Inst->getIntrinsicID()) {
3e268cc0SMatt Arsenault  case Intrinsic::amdgcn_atomic_inc:
6e1dc681SDaniil Fukalov  case Intrinsic::amdgcn_atomic_dec:
c5cec5e1SMarek Olsak  case Intrinsic::amdgcn_ds_ordered_add:
c5cec5e1SMarek Olsak  case Intrinsic::amdgcn_ds_ordered_swap:
6e1dc681SDaniil Fukalov  case Intrinsic::amdgcn_ds_fadd:
6e1dc681SDaniil Fukalov  case Intrinsic::amdgcn_ds_fmin:
6e1dc681SDaniil Fukalov  case Intrinsic::amdgcn_ds_fmax: {
3e268cc0SMatt Arsenault    auto *Ordering = dyn_cast<ConstantInt>(Inst->getArgOperand(2));
3e268cc0SMatt Arsenault    auto *Volatile = dyn_cast<ConstantInt>(Inst->getArgOperand(4));
3e268cc0SMatt Arsenault    if (!Ordering || !Volatile)
3e268cc0SMatt Arsenault      return false; // Invalid.
3e268cc0SMatt Arsenault
3e268cc0SMatt Arsenault    unsigned OrderingVal = Ordering->getZExtValue();
3e268cc0SMatt Arsenault    if (OrderingVal > static_cast<unsigned>(AtomicOrdering::SequentiallyConsistent))
3e268cc0SMatt Arsenault      return false;
3e268cc0SMatt Arsenault
3e268cc0SMatt Arsenault    Info.PtrVal = Inst->getArgOperand(0);
3e268cc0SMatt Arsenault    Info.Ordering = static_cast<AtomicOrdering>(OrderingVal);
3e268cc0SMatt Arsenault    Info.ReadMem = true;
3e268cc0SMatt Arsenault    Info.WriteMem = true;
477b9bc9SJay Foad    Info.IsVolatile = !Volatile->isZero();
3e268cc0SMatt Arsenault    return true;
3e268cc0SMatt Arsenault  }
3e268cc0SMatt Arsenault  default:
3e268cc0SMatt Arsenault    return false;
3e268cc0SMatt Arsenault  }
3e268cc0SMatt Arsenault}
3e268cc0SMatt Arsenault
4f42d873SSander de SmalenInstructionCost GCNTTIImpl::getArithmeticInstrCost(
4f42d873SSander de Smalen    unsigned Opcode, Type *Ty, TTI::TargetCostKind CostKind,
4f42d873SSander de Smalen    TTI::OperandValueKind Opd1Info, TTI::OperandValueKind Opd2Info,
be7a1070SDavid Green    TTI::OperandValueProperties Opd1PropInfo,
4f42d873SSander de Smalen    TTI::OperandValueProperties Opd2PropInfo, ArrayRef<const Value *> Args,
be7a1070SDavid Green    const Instruction *CxtI) {
9651813eSMatt Arsenault
9651813eSMatt Arsenault  // Legalize the type.
3489c2d7SDaniil Fukalov  std::pair<InstructionCost, MVT> LT = TLI->getTypeLegalizationCost(DL, Ty);
9651813eSMatt Arsenault  int ISD = TLI->InstructionOpcodeToISD(Opcode);
9651813eSMatt Arsenault
9651813eSMatt Arsenault  // Because we don't have any legal vector operations, but the legal types, we
9651813eSMatt Arsenault  // need to account for split vectors.
9651813eSMatt Arsenault  unsigned NElts = LT.second.isVector() ?
9651813eSMatt Arsenault    LT.second.getVectorNumElements() : 1;
9651813eSMatt Arsenault
9651813eSMatt Arsenault  MVT::SimpleValueType SLT = LT.second.getScalarType().SimpleTy;
9651813eSMatt Arsenault
9651813eSMatt Arsenault  switch (ISD) {
8c8fcb25SMatt Arsenault  case ISD::SHL:
8c8fcb25SMatt Arsenault  case ISD::SRL:
d16eff81SEugene Zelenko  case ISD::SRA:
8c8fcb25SMatt Arsenault    if (SLT == MVT::i64)
9068c209Sdfukalov      return get64BitInstrCost(CostKind) * LT.first * NElts;
8c8fcb25SMatt Arsenault
b8ac5894SStanislav Mekhanoshin    if (ST->has16BitInsts() && SLT == MVT::i16)
b8ac5894SStanislav Mekhanoshin      NElts = (NElts + 1) / 2;
b8ac5894SStanislav Mekhanoshin
8c8fcb25SMatt Arsenault    // i32
8c8fcb25SMatt Arsenault    return getFullRateInstrCost() * LT.first * NElts;
8c8fcb25SMatt Arsenault  case ISD::ADD:
8c8fcb25SMatt Arsenault  case ISD::SUB:
8c8fcb25SMatt Arsenault  case ISD::AND:
8c8fcb25SMatt Arsenault  case ISD::OR:
d16eff81SEugene Zelenko  case ISD::XOR:
8c8fcb25SMatt Arsenault    if (SLT == MVT::i64) {
8c8fcb25SMatt Arsenault      // and, or and xor are typically split into 2 VALU instructions.
8c8fcb25SMatt Arsenault      return 2 * getFullRateInstrCost() * LT.first * NElts;
8c8fcb25SMatt Arsenault    }
8c8fcb25SMatt Arsenault
b8ac5894SStanislav Mekhanoshin    if (ST->has16BitInsts() && SLT == MVT::i16)
b8ac5894SStanislav Mekhanoshin      NElts = (NElts + 1) / 2;
b8ac5894SStanislav Mekhanoshin
8c8fcb25SMatt Arsenault    return LT.first * NElts * getFullRateInstrCost();
8c8fcb25SMatt Arsenault  case ISD::MUL: {
9068c209Sdfukalov    const int QuarterRateCost = getQuarterRateInstrCost(CostKind);
8c8fcb25SMatt Arsenault    if (SLT == MVT::i64) {
8c8fcb25SMatt Arsenault      const int FullRateCost = getFullRateInstrCost();
8c8fcb25SMatt Arsenault      return (4 * QuarterRateCost + (2 * 2) * FullRateCost) * LT.first * NElts;
8c8fcb25SMatt Arsenault    }
8c8fcb25SMatt Arsenault
b8ac5894SStanislav Mekhanoshin    if (ST->has16BitInsts() && SLT == MVT::i16)
b8ac5894SStanislav Mekhanoshin      NElts = (NElts + 1) / 2;
b8ac5894SStanislav Mekhanoshin
8c8fcb25SMatt Arsenault    // i32
8c8fcb25SMatt Arsenault    return QuarterRateCost * NElts * LT.first;
8c8fcb25SMatt Arsenault  }
76a0c0eeSdfukalov  case ISD::FMUL:
76a0c0eeSdfukalov    // Check possible fuse {fadd|fsub}(a,fmul(b,c)) and return zero cost for
76a0c0eeSdfukalov    // fmul(b,c) supposing the fadd|fsub will get estimated cost for the whole
76a0c0eeSdfukalov    // fused operation.
4ccc3881Sdfukalov    if (CxtI && CxtI->hasOneUse())
76a0c0eeSdfukalov      if (const auto *FAdd = dyn_cast<BinaryOperator>(*CxtI->user_begin())) {
76a0c0eeSdfukalov        const int OPC = TLI->InstructionOpcodeToISD(FAdd->getOpcode());
76a0c0eeSdfukalov        if (OPC == ISD::FADD || OPC == ISD::FSUB) {
4ccc3881Sdfukalov          if (ST->hasMadMacF32Insts() && SLT == MVT::f32 && !HasFP32Denormals)
4ccc3881Sdfukalov            return TargetTransformInfo::TCC_Free;
4ccc3881Sdfukalov          if (ST->has16BitInsts() && SLT == MVT::f16 && !HasFP64FP16Denormals)
4ccc3881Sdfukalov            return TargetTransformInfo::TCC_Free;
4ccc3881Sdfukalov
4ccc3881Sdfukalov          // Estimate all types may be fused with contract/unsafe flags
4ccc3881Sdfukalov          const TargetOptions &Options = TLI->getTargetMachine().Options;
4ccc3881Sdfukalov          if (Options.AllowFPOpFusion == FPOpFusion::Fast ||
4ccc3881Sdfukalov              Options.UnsafeFPMath ||
4ccc3881Sdfukalov              (FAdd->hasAllowContract() && CxtI->hasAllowContract()))
76a0c0eeSdfukalov            return TargetTransformInfo::TCC_Free;
76a0c0eeSdfukalov        }
76a0c0eeSdfukalov      }
76a0c0eeSdfukalov    LLVM_FALLTHROUGH;
9651813eSMatt Arsenault  case ISD::FADD:
9651813eSMatt Arsenault  case ISD::FSUB:
a8d9d507SStanislav Mekhanoshin    if (ST->hasPackedFP32Ops() && SLT == MVT::f32)
a8d9d507SStanislav Mekhanoshin      NElts = (NElts + 1) / 2;
9651813eSMatt Arsenault    if (SLT == MVT::f64)
9068c209Sdfukalov      return LT.first * NElts * get64BitInstrCost(CostKind);
9651813eSMatt Arsenault
b8ac5894SStanislav Mekhanoshin    if (ST->has16BitInsts() && SLT == MVT::f16)
b8ac5894SStanislav Mekhanoshin      NElts = (NElts + 1) / 2;
b8ac5894SStanislav Mekhanoshin
9651813eSMatt Arsenault    if (SLT == MVT::f32 || SLT == MVT::f16)
9651813eSMatt Arsenault      return LT.first * NElts * getFullRateInstrCost();
9651813eSMatt Arsenault    break;
9651813eSMatt Arsenault  case ISD::FDIV:
9651813eSMatt Arsenault  case ISD::FREM:
9651813eSMatt Arsenault    // FIXME: frem should be handled separately. The fdiv in it is most of it,
9651813eSMatt Arsenault    // but the current lowering is also not entirely correct.
9651813eSMatt Arsenault    if (SLT == MVT::f64) {
9068c209Sdfukalov      int Cost = 7 * get64BitInstrCost(CostKind) +
9068c209Sdfukalov                 getQuarterRateInstrCost(CostKind) +
9068c209Sdfukalov                 3 * getHalfRateInstrCost(CostKind);
9651813eSMatt Arsenault      // Add cost of workaround.
e4c2e9b0SMatt Arsenault      if (!ST->hasUsableDivScaleConditionOutput())
9651813eSMatt Arsenault        Cost += 3 * getFullRateInstrCost();
9651813eSMatt Arsenault
9651813eSMatt Arsenault      return LT.first * Cost * NElts;
9651813eSMatt Arsenault    }
9651813eSMatt Arsenault
376f1bd7SMatt Arsenault    if (!Args.empty() && match(Args[0], PatternMatch::m_FPOne())) {
376f1bd7SMatt Arsenault      // TODO: This is more complicated, unsafe flags etc.
db0ed3e4SMatt Arsenault      if ((SLT == MVT::f32 && !HasFP32Denormals) ||
376f1bd7SMatt Arsenault          (SLT == MVT::f16 && ST->has16BitInsts())) {
9068c209Sdfukalov        return LT.first * getQuarterRateInstrCost(CostKind) * NElts;
376f1bd7SMatt Arsenault      }
376f1bd7SMatt Arsenault    }
376f1bd7SMatt Arsenault
376f1bd7SMatt Arsenault    if (SLT == MVT::f16 && ST->has16BitInsts()) {
376f1bd7SMatt Arsenault      // 2 x v_cvt_f32_f16
376f1bd7SMatt Arsenault      // f32 rcp
376f1bd7SMatt Arsenault      // f32 fmul
376f1bd7SMatt Arsenault      // v_cvt_f16_f32
376f1bd7SMatt Arsenault      // f16 div_fixup
9068c209Sdfukalov      int Cost =
9068c209Sdfukalov          4 * getFullRateInstrCost() + 2 * getQuarterRateInstrCost(CostKind);
376f1bd7SMatt Arsenault      return LT.first * Cost * NElts;
376f1bd7SMatt Arsenault    }
376f1bd7SMatt Arsenault
9651813eSMatt Arsenault    if (SLT == MVT::f32 || SLT == MVT::f16) {
9068c209Sdfukalov      // 4 more v_cvt_* insts without f16 insts support
9068c209Sdfukalov      int Cost = (SLT == MVT::f16 ? 14 : 10) * getFullRateInstrCost() +
9068c209Sdfukalov                 1 * getQuarterRateInstrCost(CostKind);
376f1bd7SMatt Arsenault
db0ed3e4SMatt Arsenault      if (!HasFP32Denormals) {
376f1bd7SMatt Arsenault        // FP mode switches.
376f1bd7SMatt Arsenault        Cost += 2 * getFullRateInstrCost();
376f1bd7SMatt Arsenault      }
376f1bd7SMatt Arsenault
9651813eSMatt Arsenault      return LT.first * NElts * Cost;
9651813eSMatt Arsenault    }
9651813eSMatt Arsenault    break;
129388ddSdfukalov  case ISD::FNEG:
129388ddSdfukalov    // Use the backend' estimation. If fneg is not free each element will cost
129388ddSdfukalov    // one additional instruction.
129388ddSdfukalov    return TLI->isFNegFree(SLT) ? 0 : NElts;
9651813eSMatt Arsenault  default:
9651813eSMatt Arsenault    break;
9651813eSMatt Arsenault  }
9651813eSMatt Arsenault
76a0c0eeSdfukalov  return BaseT::getArithmeticInstrCost(Opcode, Ty, CostKind, Opd1Info, Opd2Info,
76a0c0eeSdfukalov                                       Opd1PropInfo, Opd2PropInfo, Args, CxtI);
9651813eSMatt Arsenault}
9651813eSMatt Arsenault
c230965cSMatt Arsenault// Return true if there's a potential benefit from using v2f16/v2i16
c230965cSMatt Arsenault// instructions for an intrinsic, even if it requires nontrivial legalization.
66073953SMatt Arsenaultstatic bool intrinsicHasPackedVectorBenefit(Intrinsic::ID ID) {
66073953SMatt Arsenault  switch (ID) {
66073953SMatt Arsenault  case Intrinsic::fma: // TODO: fmuladd
66073953SMatt Arsenault  // There's a small benefit to using vector ops in the legalized code.
66073953SMatt Arsenault  case Intrinsic::round:
c230965cSMatt Arsenault  case Intrinsic::uadd_sat:
c230965cSMatt Arsenault  case Intrinsic::usub_sat:
c230965cSMatt Arsenault  case Intrinsic::sadd_sat:
c230965cSMatt Arsenault  case Intrinsic::ssub_sat:
66073953SMatt Arsenault    return true;
66073953SMatt Arsenault  default:
66073953SMatt Arsenault    return false;
66073953SMatt Arsenault  }
66073953SMatt Arsenault}
66073953SMatt Arsenault
2f6f249aSSander de SmalenInstructionCost
2f6f249aSSander de SmalenGCNTTIImpl::getIntrinsicInstrCost(const IntrinsicCostAttributes &ICA,
8cc911faSSam Parker                                  TTI::TargetCostKind CostKind) {
871556a4SSam Parker  if (ICA.getID() == Intrinsic::fabs)
871556a4SSam Parker    return 0;
871556a4SSam Parker
8cc911faSSam Parker  if (!intrinsicHasPackedVectorBenefit(ICA.getID()))
8cc911faSSam Parker    return BaseT::getIntrinsicInstrCost(ICA, CostKind);
58578f70SStanislav Mekhanoshin
8cc911faSSam Parker  Type *RetTy = ICA.getReturnType();
58578f70SStanislav Mekhanoshin
58578f70SStanislav Mekhanoshin  // Legalize the type.
3489c2d7SDaniil Fukalov  std::pair<InstructionCost, MVT> LT = TLI->getTypeLegalizationCost(DL, RetTy);
58578f70SStanislav Mekhanoshin
58578f70SStanislav Mekhanoshin  unsigned NElts = LT.second.isVector() ?
58578f70SStanislav Mekhanoshin    LT.second.getVectorNumElements() : 1;
58578f70SStanislav Mekhanoshin
58578f70SStanislav Mekhanoshin  MVT::SimpleValueType SLT = LT.second.getScalarType().SimpleTy;
58578f70SStanislav Mekhanoshin
58578f70SStanislav Mekhanoshin  if (SLT == MVT::f64)
9068c209Sdfukalov    return LT.first * NElts * get64BitInstrCost(CostKind);
58578f70SStanislav Mekhanoshin
a8d9d507SStanislav Mekhanoshin  if ((ST->has16BitInsts() && SLT == MVT::f16) ||
a8d9d507SStanislav Mekhanoshin      (ST->hasPackedFP32Ops() && SLT == MVT::f32))
58578f70SStanislav Mekhanoshin    NElts = (NElts + 1) / 2;
58578f70SStanislav Mekhanoshin
66073953SMatt Arsenault  // TODO: Get more refined intrinsic costs?
9068c209Sdfukalov  unsigned InstRate = getQuarterRateInstrCost(CostKind);
bd4b61efSDavid Green
bd4b61efSDavid Green  switch (ICA.getID()) {
bd4b61efSDavid Green  case Intrinsic::fma:
9068c209Sdfukalov    InstRate = ST->hasFastFMAF32() ? getHalfRateInstrCost(CostKind)
9068c209Sdfukalov                                   : getQuarterRateInstrCost(CostKind);
bd4b61efSDavid Green    break;
bd4b61efSDavid Green  case Intrinsic::uadd_sat:
bd4b61efSDavid Green  case Intrinsic::usub_sat:
bd4b61efSDavid Green  case Intrinsic::sadd_sat:
bd4b61efSDavid Green  case Intrinsic::ssub_sat:
bd4b61efSDavid Green    static const auto ValidSatTys = {MVT::v2i16, MVT::v4i16};
bd4b61efSDavid Green    if (any_of(ValidSatTys, [&LT](MVT M) { return M == LT.second; }))
bd4b61efSDavid Green      NElts = 1;
bd4b61efSDavid Green    break;
66073953SMatt Arsenault  }
66073953SMatt Arsenault
66073953SMatt Arsenault  return LT.first * NElts * InstRate;
58578f70SStanislav Mekhanoshin}
58578f70SStanislav Mekhanoshin
14b934f8SSander de SmalenInstructionCost GCNTTIImpl::getCFInstrCost(unsigned Opcode,
8f4b7e94Sdfukalov                                           TTI::TargetCostKind CostKind,
8f4b7e94Sdfukalov                                           const Instruction *I) {
8f4b7e94Sdfukalov  assert((I == nullptr || I->getOpcode() == Opcode) &&
8f4b7e94Sdfukalov         "Opcode should reflect passed instruction.");
8f4b7e94Sdfukalov  const bool SCost =
8f4b7e94Sdfukalov      (CostKind == TTI::TCK_CodeSize || CostKind == TTI::TCK_SizeAndLatency);
8f4b7e94Sdfukalov  const int CBrCost = SCost ? 5 : 7;
e05ff151SMatt Arsenault  switch (Opcode) {
8f4b7e94Sdfukalov  case Instruction::Br: {
8f4b7e94Sdfukalov    // Branch instruction takes about 4 slots on gfx900.
8f4b7e94Sdfukalov    auto BI = dyn_cast_or_null<BranchInst>(I);
8f4b7e94Sdfukalov    if (BI && BI->isUnconditional())
8f4b7e94Sdfukalov      return SCost ? 1 : 4;
8f4b7e94Sdfukalov    // Suppose conditional branch takes additional 3 exec manipulations
8f4b7e94Sdfukalov    // instructions in average.
8f4b7e94Sdfukalov    return CBrCost;
e05ff151SMatt Arsenault  }
8f4b7e94Sdfukalov  case Instruction::Switch: {
8f4b7e94Sdfukalov    auto SI = dyn_cast_or_null<SwitchInst>(I);
8f4b7e94Sdfukalov    // Each case (including default) takes 1 cmp + 1 cbr instructions in
8f4b7e94Sdfukalov    // average.
8f4b7e94Sdfukalov    return (SI ? (SI->getNumCases() + 1) : 4) * (CBrCost + 1);
8f4b7e94Sdfukalov  }
8f4b7e94Sdfukalov  case Instruction::Ret:
8f4b7e94Sdfukalov    return SCost ? 1 : 10;
8f4b7e94Sdfukalov  }
8f4b7e94Sdfukalov  return BaseT::getCFInstrCost(Opcode, CostKind, I);
e05ff151SMatt Arsenault}
e05ff151SMatt Arsenault
bd86824dSSander de SmalenInstructionCost
bd86824dSSander de SmalenGCNTTIImpl::getArithmeticReductionCost(unsigned Opcode, VectorType *Ty,
0aff1798SDavid Sherwood                                       Optional<FastMathFlags> FMF,
40574fefSSam Parker                                       TTI::TargetCostKind CostKind) {
0aff1798SDavid Sherwood  if (TTI::requiresOrderedReduction(FMF))
0aff1798SDavid Sherwood    return BaseT::getArithmeticReductionCost(Opcode, Ty, FMF, CostKind);
0aff1798SDavid Sherwood
e2dfe8a8SFarhana Aleen  EVT OrigTy = TLI->getValueType(DL, Ty);
e2dfe8a8SFarhana Aleen
e2dfe8a8SFarhana Aleen  // Computes cost on targets that have packed math instructions(which support
e2dfe8a8SFarhana Aleen  // 16-bit types only).
38c9a406SDavid Green  if (!ST->hasVOP3PInsts() || OrigTy.getScalarSizeInBits() != 16)
0aff1798SDavid Sherwood    return BaseT::getArithmeticReductionCost(Opcode, Ty, FMF, CostKind);
e2dfe8a8SFarhana Aleen
3489c2d7SDaniil Fukalov  std::pair<InstructionCost, MVT> LT = TLI->getTypeLegalizationCost(DL, Ty);
e2dfe8a8SFarhana Aleen  return LT.first * getFullRateInstrCost();
e2dfe8a8SFarhana Aleen}
e2dfe8a8SFarhana Aleen
2285dfb7SSander de SmalenInstructionCost
2285dfb7SSander de SmalenGCNTTIImpl::getMinMaxReductionCost(VectorType *Ty, VectorType *CondTy,
38c9a406SDavid Green                                   bool IsUnsigned,
40574fefSSam Parker                                   TTI::TargetCostKind CostKind) {
e24f3ff8SFarhana Aleen  EVT OrigTy = TLI->getValueType(DL, Ty);
e24f3ff8SFarhana Aleen
e24f3ff8SFarhana Aleen  // Computes cost on targets that have packed math instructions(which support
e24f3ff8SFarhana Aleen  // 16-bit types only).
38c9a406SDavid Green  if (!ST->hasVOP3PInsts() || OrigTy.getScalarSizeInBits() != 16)
38c9a406SDavid Green    return BaseT::getMinMaxReductionCost(Ty, CondTy, IsUnsigned, CostKind);
e24f3ff8SFarhana Aleen
3489c2d7SDaniil Fukalov  std::pair<InstructionCost, MVT> LT = TLI->getTypeLegalizationCost(DL, Ty);
9068c209Sdfukalov  return LT.first * getHalfRateInstrCost(CostKind);
e24f3ff8SFarhana Aleen}
e24f3ff8SFarhana Aleen
1af35e77SSander de SmalenInstructionCost GCNTTIImpl::getVectorInstrCost(unsigned Opcode, Type *ValTy,
e830f542SMatt Arsenault                                               unsigned Index) {
e830f542SMatt Arsenault  switch (Opcode) {
e830f542SMatt Arsenault  case Instruction::ExtractElement:
3c5e4237SMatt Arsenault  case Instruction::InsertElement: {
3c5e4237SMatt Arsenault    unsigned EltSize
3c5e4237SMatt Arsenault      = DL.getTypeSizeInBits(cast<VectorType>(ValTy)->getElementType());
3c5e4237SMatt Arsenault    if (EltSize < 32) {
3c5e4237SMatt Arsenault      if (EltSize == 16 && Index == 0 && ST->has16BitInsts())
3c5e4237SMatt Arsenault        return 0;
3c5e4237SMatt Arsenault      return BaseT::getVectorInstrCost(Opcode, ValTy, Index);
3c5e4237SMatt Arsenault    }
3c5e4237SMatt Arsenault
59767ceaSMatt Arsenault    // Extracts are just reads of a subregister, so are free. Inserts are
59767ceaSMatt Arsenault    // considered free because we don't want to have any cost for scalarizing
59767ceaSMatt Arsenault    // operations, and we don't have to copy into a different register class.
59767ceaSMatt Arsenault
e830f542SMatt Arsenault    // Dynamic indexing isn't free and is best avoided.
e830f542SMatt Arsenault    return Index == ~0u ? 2 : 0;
3c5e4237SMatt Arsenault  }
e830f542SMatt Arsenault  default:
e830f542SMatt Arsenault    return BaseT::getVectorInstrCost(Opcode, ValTy, Index);
e830f542SMatt Arsenault  }
e830f542SMatt Arsenault}
dbe374b2STom Stellard
cb7b661dSMatt Arsenault/// Analyze if the results of inline asm are divergent. If \p Indices is empty,
cb7b661dSMatt Arsenault/// this is analyzing the collective result of all output registers. Otherwise,
cb7b661dSMatt Arsenault/// this is only querying a specific result index if this returns multiple
cb7b661dSMatt Arsenault/// registers in a struct.
cb7b661dSMatt Arsenaultbool GCNTTIImpl::isInlineAsmSourceOfDivergence(
cb7b661dSMatt Arsenault  const CallInst *CI, ArrayRef<unsigned> Indices) const {
cb7b661dSMatt Arsenault  // TODO: Handle complex extract indices
cb7b661dSMatt Arsenault  if (Indices.size() > 1)
cb7b661dSMatt Arsenault    return true;
cb7b661dSMatt Arsenault
cb7b661dSMatt Arsenault  const DataLayout &DL = CI->getModule()->getDataLayout();
cb7b661dSMatt Arsenault  const SIRegisterInfo *TRI = ST->getRegisterInfo();
95192f54SCraig Topper  TargetLowering::AsmOperandInfoVector TargetConstraints =
95192f54SCraig Topper      TLI->ParseConstraints(DL, ST->getRegisterInfo(), *CI);
cb7b661dSMatt Arsenault
cb7b661dSMatt Arsenault  const int TargetOutputIdx = Indices.empty() ? -1 : Indices[0];
cb7b661dSMatt Arsenault
cb7b661dSMatt Arsenault  int OutputIdx = 0;
cb7b661dSMatt Arsenault  for (auto &TC : TargetConstraints) {
cb7b661dSMatt Arsenault    if (TC.Type != InlineAsm::isOutput)
cb7b661dSMatt Arsenault      continue;
cb7b661dSMatt Arsenault
cb7b661dSMatt Arsenault    // Skip outputs we don't care about.
cb7b661dSMatt Arsenault    if (TargetOutputIdx != -1 && TargetOutputIdx != OutputIdx++)
cb7b661dSMatt Arsenault      continue;
cb7b661dSMatt Arsenault
cb7b661dSMatt Arsenault    TLI->ComputeConstraintToUse(TC, SDValue());
cb7b661dSMatt Arsenault
d043822dSStanislav Mekhanoshin    const TargetRegisterClass *RC = TLI->getRegForInlineAsmConstraint(
d043822dSStanislav Mekhanoshin        TRI, TC.ConstraintCode, TC.ConstraintVT).second;
cb7b661dSMatt Arsenault
cb7b661dSMatt Arsenault    // For AGPR constraints null is returned on subtargets without AGPRs, so
cb7b661dSMatt Arsenault    // assume divergent for null.
cb7b661dSMatt Arsenault    if (!RC || !TRI->isSGPRClass(RC))
cb7b661dSMatt Arsenault      return true;
cb7b661dSMatt Arsenault  }
cb7b661dSMatt Arsenault
cb7b661dSMatt Arsenault  return false;
cb7b661dSMatt Arsenault}
cb7b661dSMatt Arsenault
c2266463SAustin Kerbow/// \returns true if the new GPU divergence analysis is enabled.
c2266463SAustin Kerbowbool GCNTTIImpl::useGPUDivergenceAnalysis() const {
c2266463SAustin Kerbow  return !UseLegacyDA;
c2266463SAustin Kerbow}
c2266463SAustin Kerbow
dbe374b2STom Stellard/// \returns true if the result of the value could potentially be
dbe374b2STom Stellard/// different across workitems in a wavefront.
c7624317STom Stellardbool GCNTTIImpl::isSourceOfDivergence(const Value *V) const {
dbe374b2STom Stellard  if (const Argument *A = dyn_cast<Argument>(V))
a022b1ccSSebastian Neubauer    return !AMDGPU::isArgPassedInSGPR(A);
dbe374b2STom Stellard
72855e36SScott Linder  // Loads from the private and flat address spaces are divergent, because
72855e36SScott Linder  // threads can execute the load instruction with the same inputs and get
72855e36SScott Linder  // different results.
dbe374b2STom Stellard  //
dbe374b2STom Stellard  // All other loads are not divergent, because if threads issue loads with the
dbe374b2STom Stellard  // same arguments, they will always get the same result.
dbe374b2STom Stellard  if (const LoadInst *Load = dyn_cast<LoadInst>(V))
0da6350dSMatt Arsenault    return Load->getPointerAddressSpace() == AMDGPUAS::PRIVATE_ADDRESS ||
0da6350dSMatt Arsenault           Load->getPointerAddressSpace() == AMDGPUAS::FLAT_ADDRESS;
dbe374b2STom Stellard
79cad857SNicolai Haehnle  // Atomics are divergent because they are executed sequentially: when an
79cad857SNicolai Haehnle  // atomic operation refers to the same address in each thread, then each
79cad857SNicolai Haehnle  // thread after the first sees the value written by the previous thread as
79cad857SNicolai Haehnle  // original value.
79cad857SNicolai Haehnle  if (isa<AtomicRMWInst>(V) || isa<AtomicCmpXchgInst>(V))
79cad857SNicolai Haehnle    return true;
79cad857SNicolai Haehnle
d2c8a337SMatt Arsenault  if (const IntrinsicInst *Intrinsic = dyn_cast<IntrinsicInst>(V))
2e5eeceeSAlexander Timofeev    return AMDGPU::isIntrinsicSourceOfDivergence(Intrinsic->getIntrinsicID());
dbe374b2STom Stellard
dbe374b2STom Stellard  // Assume all function calls are a source of divergence.
cb7b661dSMatt Arsenault  if (const CallInst *CI = dyn_cast<CallInst>(V)) {
a58b62b4SCraig Topper    if (CI->isInlineAsm())
cb7b661dSMatt Arsenault      return isInlineAsmSourceOfDivergence(CI);
cb7b661dSMatt Arsenault    return true;
cb7b661dSMatt Arsenault  }
cb7b661dSMatt Arsenault
cb7b661dSMatt Arsenault  // Assume all function calls are a source of divergence.
cb7b661dSMatt Arsenault  if (isa<InvokeInst>(V))
dbe374b2STom Stellard    return true;
dbe374b2STom Stellard
dbe374b2STom Stellard  return false;
dbe374b2STom Stellard}
3c5e4237SMatt Arsenault
c7624317STom Stellardbool GCNTTIImpl::isAlwaysUniform(const Value *V) const {
0f9c84cdSAlexander Timofeev  if (const IntrinsicInst *Intrinsic = dyn_cast<IntrinsicInst>(V)) {
0f9c84cdSAlexander Timofeev    switch (Intrinsic->getIntrinsicID()) {
0f9c84cdSAlexander Timofeev    default:
0f9c84cdSAlexander Timofeev      return false;
0f9c84cdSAlexander Timofeev    case Intrinsic::amdgcn_readfirstlane:
0f9c84cdSAlexander Timofeev    case Intrinsic::amdgcn_readlane:
3ed09f8eSNeil Henning    case Intrinsic::amdgcn_icmp:
3ed09f8eSNeil Henning    case Intrinsic::amdgcn_fcmp:
5d3a69feSSebastian Neubauer    case Intrinsic::amdgcn_ballot:
096cd991SMatt Arsenault    case Intrinsic::amdgcn_if_break:
0f9c84cdSAlexander Timofeev      return true;
0f9c84cdSAlexander Timofeev    }
0f9c84cdSAlexander Timofeev  }
cb7b661dSMatt Arsenault
4f9f5d09SMatt Arsenault  if (const CallInst *CI = dyn_cast<CallInst>(V)) {
a58b62b4SCraig Topper    if (CI->isInlineAsm())
4f9f5d09SMatt Arsenault      return !isInlineAsmSourceOfDivergence(CI);
4f9f5d09SMatt Arsenault    return false;
4f9f5d09SMatt Arsenault  }
4f9f5d09SMatt Arsenault
cb7b661dSMatt Arsenault  const ExtractValueInst *ExtValue = dyn_cast<ExtractValueInst>(V);
cb7b661dSMatt Arsenault  if (!ExtValue)
cb7b661dSMatt Arsenault    return false;
cb7b661dSMatt Arsenault
096cd991SMatt Arsenault  const CallInst *CI = dyn_cast<CallInst>(ExtValue->getOperand(0));
096cd991SMatt Arsenault  if (!CI)
096cd991SMatt Arsenault    return false;
096cd991SMatt Arsenault
096cd991SMatt Arsenault  if (const IntrinsicInst *Intrinsic = dyn_cast<IntrinsicInst>(CI)) {
096cd991SMatt Arsenault    switch (Intrinsic->getIntrinsicID()) {
096cd991SMatt Arsenault    default:
096cd991SMatt Arsenault      return false;
096cd991SMatt Arsenault    case Intrinsic::amdgcn_if:
096cd991SMatt Arsenault    case Intrinsic::amdgcn_else: {
096cd991SMatt Arsenault      ArrayRef<unsigned> Indices = ExtValue->getIndices();
096cd991SMatt Arsenault      return Indices.size() == 1 && Indices[0] == 1;
096cd991SMatt Arsenault    }
096cd991SMatt Arsenault    }
096cd991SMatt Arsenault  }
096cd991SMatt Arsenault
cb7b661dSMatt Arsenault  // If we have inline asm returning mixed SGPR and VGPR results, we inferred
cb7b661dSMatt Arsenault  // divergent for the overall struct return. We need to override it in the
cb7b661dSMatt Arsenault  // case we're extracting an SGPR component here.
a58b62b4SCraig Topper  if (CI->isInlineAsm())
cb7b661dSMatt Arsenault    return !isInlineAsmSourceOfDivergence(CI, ExtValue->getIndices());
cb7b661dSMatt Arsenault
0f9c84cdSAlexander Timofeev  return false;
0f9c84cdSAlexander Timofeev}
0f9c84cdSAlexander Timofeev
dbc1f207SMatt Arsenaultbool GCNTTIImpl::collectFlatAddressOperands(SmallVectorImpl<int> &OpIndexes,
dbc1f207SMatt Arsenault                                            Intrinsic::ID IID) const {
dbc1f207SMatt Arsenault  switch (IID) {
dbc1f207SMatt Arsenault  case Intrinsic::amdgcn_atomic_inc:
dbc1f207SMatt Arsenault  case Intrinsic::amdgcn_atomic_dec:
dbc1f207SMatt Arsenault  case Intrinsic::amdgcn_ds_fadd:
dbc1f207SMatt Arsenault  case Intrinsic::amdgcn_ds_fmin:
dbc1f207SMatt Arsenault  case Intrinsic::amdgcn_ds_fmax:
f581d575SMatt Arsenault  case Intrinsic::amdgcn_is_shared:
f581d575SMatt Arsenault  case Intrinsic::amdgcn_is_private:
dbc1f207SMatt Arsenault    OpIndexes.push_back(0);
dbc1f207SMatt Arsenault    return true;
dbc1f207SMatt Arsenault  default:
dbc1f207SMatt Arsenault    return false;
dbc1f207SMatt Arsenault  }
dbc1f207SMatt Arsenault}
dbc1f207SMatt Arsenault
d6671ee9SMatt ArsenaultValue *GCNTTIImpl::rewriteIntrinsicWithAddressSpace(IntrinsicInst *II,
d6671ee9SMatt Arsenault                                                    Value *OldV,
d6671ee9SMatt Arsenault                                                    Value *NewV) const {
f581d575SMatt Arsenault  auto IntrID = II->getIntrinsicID();
f581d575SMatt Arsenault  switch (IntrID) {
dbc1f207SMatt Arsenault  case Intrinsic::amdgcn_atomic_inc:
dbc1f207SMatt Arsenault  case Intrinsic::amdgcn_atomic_dec:
dbc1f207SMatt Arsenault  case Intrinsic::amdgcn_ds_fadd:
dbc1f207SMatt Arsenault  case Intrinsic::amdgcn_ds_fmin:
dbc1f207SMatt Arsenault  case Intrinsic::amdgcn_ds_fmax: {
dbc1f207SMatt Arsenault    const ConstantInt *IsVolatile = cast<ConstantInt>(II->getArgOperand(4));
dbc1f207SMatt Arsenault    if (!IsVolatile->isZero())
d6671ee9SMatt Arsenault      return nullptr;
dbc1f207SMatt Arsenault    Module *M = II->getParent()->getParent()->getParent();
dbc1f207SMatt Arsenault    Type *DestTy = II->getType();
dbc1f207SMatt Arsenault    Type *SrcTy = NewV->getType();
dbc1f207SMatt Arsenault    Function *NewDecl =
dbc1f207SMatt Arsenault        Intrinsic::getDeclaration(M, II->getIntrinsicID(), {DestTy, SrcTy});
dbc1f207SMatt Arsenault    II->setArgOperand(0, NewV);
dbc1f207SMatt Arsenault    II->setCalledFunction(NewDecl);
d6671ee9SMatt Arsenault    return II;
dbc1f207SMatt Arsenault  }
f581d575SMatt Arsenault  case Intrinsic::amdgcn_is_shared:
f581d575SMatt Arsenault  case Intrinsic::amdgcn_is_private: {
f581d575SMatt Arsenault    unsigned TrueAS = IntrID == Intrinsic::amdgcn_is_shared ?
f581d575SMatt Arsenault      AMDGPUAS::LOCAL_ADDRESS : AMDGPUAS::PRIVATE_ADDRESS;
f581d575SMatt Arsenault    unsigned NewAS = NewV->getType()->getPointerAddressSpace();
f581d575SMatt Arsenault    LLVMContext &Ctx = NewV->getType()->getContext();
f581d575SMatt Arsenault    ConstantInt *NewVal = (TrueAS == NewAS) ?
f581d575SMatt Arsenault      ConstantInt::getTrue(Ctx) : ConstantInt::getFalse(Ctx);
d6671ee9SMatt Arsenault    return NewVal;
d6671ee9SMatt Arsenault  }
d6671ee9SMatt Arsenault  case Intrinsic::ptrmask: {
d6671ee9SMatt Arsenault    unsigned OldAS = OldV->getType()->getPointerAddressSpace();
d6671ee9SMatt Arsenault    unsigned NewAS = NewV->getType()->getPointerAddressSpace();
d6671ee9SMatt Arsenault    Value *MaskOp = II->getArgOperand(1);
d6671ee9SMatt Arsenault    Type *MaskTy = MaskOp->getType();
4859dd41SMatt Arsenault
4859dd41SMatt Arsenault    bool DoTruncate = false;
57bd64ffSMatt Arsenault
57bd64ffSMatt Arsenault    const GCNTargetMachine &TM =
57bd64ffSMatt Arsenault        static_cast<const GCNTargetMachine &>(getTLI()->getTargetMachine());
57bd64ffSMatt Arsenault    if (!TM.isNoopAddrSpaceCast(OldAS, NewAS)) {
4859dd41SMatt Arsenault      // All valid 64-bit to 32-bit casts work by chopping off the high
4859dd41SMatt Arsenault      // bits. Any masking only clearing the low bits will also apply in the new
4859dd41SMatt Arsenault      // address space.
4859dd41SMatt Arsenault      if (DL.getPointerSizeInBits(OldAS) != 64 ||
4859dd41SMatt Arsenault          DL.getPointerSizeInBits(NewAS) != 32)
4859dd41SMatt Arsenault        return nullptr;
4859dd41SMatt Arsenault
4859dd41SMatt Arsenault      // TODO: Do we need to thread more context in here?
4859dd41SMatt Arsenault      KnownBits Known = computeKnownBits(MaskOp, DL, 0, nullptr, II);
4859dd41SMatt Arsenault      if (Known.countMinLeadingOnes() < 32)
4859dd41SMatt Arsenault        return nullptr;
4859dd41SMatt Arsenault
4859dd41SMatt Arsenault      DoTruncate = true;
4859dd41SMatt Arsenault    }
4859dd41SMatt Arsenault
4859dd41SMatt Arsenault    IRBuilder<> B(II);
4859dd41SMatt Arsenault    if (DoTruncate) {
4859dd41SMatt Arsenault      MaskTy = B.getInt32Ty();
4859dd41SMatt Arsenault      MaskOp = B.CreateTrunc(MaskOp, MaskTy);
4859dd41SMatt Arsenault    }
4859dd41SMatt Arsenault
4859dd41SMatt Arsenault    return B.CreateIntrinsic(Intrinsic::ptrmask, {NewV->getType(), MaskTy},
4859dd41SMatt Arsenault                             {NewV, MaskOp});
f581d575SMatt Arsenault  }
dbc1f207SMatt Arsenault  default:
d6671ee9SMatt Arsenault    return nullptr;
dbc1f207SMatt Arsenault  }
dbc1f207SMatt Arsenault}
dbc1f207SMatt Arsenault
174e8f6cSSander de SmalenInstructionCost GCNTTIImpl::getShuffleCost(TTI::ShuffleKind Kind,
174e8f6cSSander de Smalen                                           VectorType *VT, ArrayRef<int> Mask,
39aa202aSVasileios Porpodas                                           int Index, VectorType *SubTp,
*fa8a9feaSVasileios Porpodas                                           ArrayRef<const Value *> Args) {
12c51f23SAlexey Bataev  Kind = improveShuffleKindFromMask(Kind, Mask);
3c5e4237SMatt Arsenault  if (ST->hasVOP3PInsts()) {
3254a001SChristopher Tetreault    if (cast<FixedVectorType>(VT)->getNumElements() == 2 &&
3c5e4237SMatt Arsenault        DL.getTypeSizeInBits(VT->getElementType()) == 16) {
3c5e4237SMatt Arsenault      // With op_sel VOP3P instructions freely can access the low half or high
3c5e4237SMatt Arsenault      // half of a register, so any swizzle is free.
3c5e4237SMatt Arsenault
3c5e4237SMatt Arsenault      switch (Kind) {
3c5e4237SMatt Arsenault      case TTI::SK_Broadcast:
3c5e4237SMatt Arsenault      case TTI::SK_Reverse:
3c5e4237SMatt Arsenault      case TTI::SK_PermuteSingleSrc:
3c5e4237SMatt Arsenault        return 0;
3c5e4237SMatt Arsenault      default:
3c5e4237SMatt Arsenault        break;
3c5e4237SMatt Arsenault      }
3c5e4237SMatt Arsenault    }
3c5e4237SMatt Arsenault  }
3c5e4237SMatt Arsenault
e2935dcfSDavid Green  return BaseT::getShuffleCost(Kind, VT, Mask, Index, SubTp);
3c5e4237SMatt Arsenault}
aac47c1cSMatt Arsenault
c7624317STom Stellardbool GCNTTIImpl::areInlineCompatible(const Function *Caller,
aac47c1cSMatt Arsenault                                     const Function *Callee) const {
aac47c1cSMatt Arsenault  const TargetMachine &TM = getTLI()->getTargetMachine();
db0ed3e4SMatt Arsenault  const GCNSubtarget *CallerST
db0ed3e4SMatt Arsenault    = static_cast<const GCNSubtarget *>(TM.getSubtargetImpl(*Caller));
db0ed3e4SMatt Arsenault  const GCNSubtarget *CalleeST
db0ed3e4SMatt Arsenault    = static_cast<const GCNSubtarget *>(TM.getSubtargetImpl(*Callee));
db0ed3e4SMatt Arsenault
db0ed3e4SMatt Arsenault  const FeatureBitset &CallerBits = CallerST->getFeatureBits();
db0ed3e4SMatt Arsenault  const FeatureBitset &CalleeBits = CalleeST->getFeatureBits();
aac47c1cSMatt Arsenault
aac47c1cSMatt Arsenault  FeatureBitset RealCallerBits = CallerBits & ~InlineFeatureIgnoreList;
aac47c1cSMatt Arsenault  FeatureBitset RealCalleeBits = CalleeBits & ~InlineFeatureIgnoreList;
055e4dceSMatt Arsenault  if ((RealCallerBits & RealCalleeBits) != RealCalleeBits)
055e4dceSMatt Arsenault    return false;
055e4dceSMatt Arsenault
055e4dceSMatt Arsenault  // FIXME: dx10_clamp can just take the caller setting, but there seems to be
055e4dceSMatt Arsenault  // no way to support merge for backend defined attributes.
5660bb6bSMatt Arsenault  AMDGPU::SIModeRegisterDefaults CallerMode(*Caller);
5660bb6bSMatt Arsenault  AMDGPU::SIModeRegisterDefaults CalleeMode(*Callee);
a11bf9a7SArthur Eubanks  if (!CallerMode.isInlineCompatible(CalleeMode))
a11bf9a7SArthur Eubanks    return false;
a11bf9a7SArthur Eubanks
b70c483eSStanislav Mekhanoshin  if (Callee->hasFnAttribute(Attribute::AlwaysInline) ||
b70c483eSStanislav Mekhanoshin      Callee->hasFnAttribute(Attribute::InlineHint))
b70c483eSStanislav Mekhanoshin    return true;
b70c483eSStanislav Mekhanoshin
a11bf9a7SArthur Eubanks  // Hack to make compile times reasonable.
b70c483eSStanislav Mekhanoshin  if (InlineMaxBB) {
7c724a89SStanislav Mekhanoshin    // Single BB does not increase total BB amount.
7c724a89SStanislav Mekhanoshin    if (Callee->size() == 1)
7c724a89SStanislav Mekhanoshin      return true;
a11bf9a7SArthur Eubanks    size_t BBSize = Caller->size() + Callee->size() - 1;
a11bf9a7SArthur Eubanks    return BBSize <= InlineMaxBB;
a11bf9a7SArthur Eubanks  }
a11bf9a7SArthur Eubanks
a11bf9a7SArthur Eubanks  return true;
a11bf9a7SArthur Eubanks}
a11bf9a7SArthur Eubanks
a11bf9a7SArthur Eubanksunsigned GCNTTIImpl::adjustInliningThreshold(const CallBase *CB) const {
a11bf9a7SArthur Eubanks  // If we have a pointer to private array passed into a function
a11bf9a7SArthur Eubanks  // it will not be optimized out, leaving scratch usage.
a11bf9a7SArthur Eubanks  // Increase the inline threshold to allow inlining in this case.
a11bf9a7SArthur Eubanks  uint64_t AllocaSize = 0;
a11bf9a7SArthur Eubanks  SmallPtrSet<const AllocaInst *, 8> AIVisited;
a11bf9a7SArthur Eubanks  for (Value *PtrArg : CB->args()) {
a11bf9a7SArthur Eubanks    PointerType *Ty = dyn_cast<PointerType>(PtrArg->getType());
a11bf9a7SArthur Eubanks    if (!Ty || (Ty->getAddressSpace() != AMDGPUAS::PRIVATE_ADDRESS &&
a11bf9a7SArthur Eubanks                Ty->getAddressSpace() != AMDGPUAS::FLAT_ADDRESS))
a11bf9a7SArthur Eubanks      continue;
a11bf9a7SArthur Eubanks
a11bf9a7SArthur Eubanks    PtrArg = getUnderlyingObject(PtrArg);
a11bf9a7SArthur Eubanks    if (const AllocaInst *AI = dyn_cast<AllocaInst>(PtrArg)) {
a11bf9a7SArthur Eubanks      if (!AI->isStaticAlloca() || !AIVisited.insert(AI).second)
a11bf9a7SArthur Eubanks        continue;
a11bf9a7SArthur Eubanks      AllocaSize += DL.getTypeAllocSize(AI->getAllocatedType());
a11bf9a7SArthur Eubanks      // If the amount of stack memory is excessive we will not be able
a11bf9a7SArthur Eubanks      // to get rid of the scratch anyway, bail out.
a11bf9a7SArthur Eubanks      if (AllocaSize > ArgAllocaCutoff) {
a11bf9a7SArthur Eubanks        AllocaSize = 0;
a11bf9a7SArthur Eubanks        break;
a11bf9a7SArthur Eubanks      }
a11bf9a7SArthur Eubanks    }
a11bf9a7SArthur Eubanks  }
a11bf9a7SArthur Eubanks  if (AllocaSize)
a11bf9a7SArthur Eubanks    return ArgAllocaCost;
a11bf9a7SArthur Eubanks  return 0;
aac47c1cSMatt Arsenault}
c7624317STom Stellard
c7624317STom Stellardvoid GCNTTIImpl::getUnrollingPreferences(Loop *L, ScalarEvolution &SE,
6f6e9a86SRoman Lebedev                                         TTI::UnrollingPreferences &UP,
6f6e9a86SRoman Lebedev                                         OptimizationRemarkEmitter *ORE) {
6f6e9a86SRoman Lebedev  CommonTTI.getUnrollingPreferences(L, SE, UP, ORE);
c7624317STom Stellard}
c7624317STom Stellard
e541e1b7SSidharth Bavejavoid GCNTTIImpl::getPeelingPreferences(Loop *L, ScalarEvolution &SE,
e541e1b7SSidharth Baveja                                       TTI::PeelingPreferences &PP) {
e541e1b7SSidharth Baveja  CommonTTI.getPeelingPreferences(L, SE, PP);
e541e1b7SSidharth Baveja}
e541e1b7SSidharth Baveja
560d7e04Sdfukalovint GCNTTIImpl::get64BitInstrCost(TTI::TargetCostKind CostKind) const {
a8d9d507SStanislav Mekhanoshin  return ST->hasFullRate64Ops()
a8d9d507SStanislav Mekhanoshin             ? getFullRateInstrCost()
a8d9d507SStanislav Mekhanoshin             : ST->hasHalfRate64Ops() ? getHalfRateInstrCost(CostKind)
560d7e04Sdfukalov                                      : getQuarterRateInstrCost(CostKind);
560d7e04Sdfukalov}