Target/AMDGPU/AMDGPUCodeGenPrepare.cpp

86de486dSMatt Arsenault//===-- AMDGPUCodeGenPrepare.cpp ------------------------------------------===//
86de486dSMatt Arsenault//
86de486dSMatt Arsenault//                     The LLVM Compiler Infrastructure
86de486dSMatt Arsenault//
86de486dSMatt Arsenault// This file is distributed under the University of Illinois Open Source
86de486dSMatt Arsenault// License. See LICENSE.TXT for details.
86de486dSMatt Arsenault//
86de486dSMatt Arsenault//===----------------------------------------------------------------------===//
86de486dSMatt Arsenault//
86de486dSMatt Arsenault/// \file
86de486dSMatt Arsenault/// This pass does misc. AMDGPU optimizations on IR before instruction
86de486dSMatt Arsenault/// selection.
86de486dSMatt Arsenault//
86de486dSMatt Arsenault//===----------------------------------------------------------------------===//
86de486dSMatt Arsenault
86de486dSMatt Arsenault#include "AMDGPU.h"
a1fe17c9SMatt Arsenault#include "AMDGPUIntrinsicInfo.h"
86de486dSMatt Arsenault#include "AMDGPUSubtarget.h"
a1fe17c9SMatt Arsenault#include "AMDGPUTargetMachine.h"
86de486dSMatt Arsenault
86de486dSMatt Arsenault#include "llvm/Analysis/DivergenceAnalysis.h"
86de486dSMatt Arsenault#include "llvm/CodeGen/Passes.h"
86de486dSMatt Arsenault#include "llvm/IR/InstVisitor.h"
86de486dSMatt Arsenault#include "llvm/IR/IRBuilder.h"
86de486dSMatt Arsenault#include "llvm/Support/Debug.h"
86de486dSMatt Arsenault#include "llvm/Support/raw_ostream.h"
86de486dSMatt Arsenault
86de486dSMatt Arsenault#define DEBUG_TYPE "amdgpu-codegenprepare"
86de486dSMatt Arsenault
86de486dSMatt Arsenaultusing namespace llvm;
86de486dSMatt Arsenault
86de486dSMatt Arsenaultnamespace {
86de486dSMatt Arsenault
86de486dSMatt Arsenaultclass AMDGPUCodeGenPrepare : public FunctionPass,
a1fe17c9SMatt Arsenault                             public InstVisitor<AMDGPUCodeGenPrepare, bool> {
a1fe17c9SMatt Arsenault  const GCNTargetMachine *TM;
a1fe17c9SMatt Arsenault  const SISubtarget *ST;
86de486dSMatt Arsenault  DivergenceAnalysis *DA;
a1fe17c9SMatt Arsenault  Module *Mod;
a1fe17c9SMatt Arsenault  bool HasUnsafeFPMath;
86de486dSMatt Arsenault
86de486dSMatt Arsenaultpublic:
86de486dSMatt Arsenault  static char ID;
86de486dSMatt Arsenault  AMDGPUCodeGenPrepare(const TargetMachine *TM = nullptr) :
86de486dSMatt Arsenault    FunctionPass(ID),
a1fe17c9SMatt Arsenault    TM(static_cast<const GCNTargetMachine *>(TM)),
a1fe17c9SMatt Arsenault    ST(nullptr),
a1fe17c9SMatt Arsenault    DA(nullptr),
a1fe17c9SMatt Arsenault    Mod(nullptr),
a1fe17c9SMatt Arsenault    HasUnsafeFPMath(false) { }
a1fe17c9SMatt Arsenault
a1fe17c9SMatt Arsenault  bool visitFDiv(BinaryOperator &I);
a1fe17c9SMatt Arsenault
a1fe17c9SMatt Arsenault  bool visitInstruction(Instruction &I) {
a1fe17c9SMatt Arsenault    return false;
a1fe17c9SMatt Arsenault  }
86de486dSMatt Arsenault
86de486dSMatt Arsenault  bool doInitialization(Module &M) override;
86de486dSMatt Arsenault  bool runOnFunction(Function &F) override;
86de486dSMatt Arsenault
86de486dSMatt Arsenault  const char *getPassName() const override {
86de486dSMatt Arsenault    return "AMDGPU IR optimizations";
86de486dSMatt Arsenault  }
86de486dSMatt Arsenault
86de486dSMatt Arsenault  void getAnalysisUsage(AnalysisUsage &AU) const override {
86de486dSMatt Arsenault    AU.addRequired<DivergenceAnalysis>();
86de486dSMatt Arsenault    AU.setPreservesAll();
86de486dSMatt Arsenault }
86de486dSMatt Arsenault};
86de486dSMatt Arsenault
86de486dSMatt Arsenault} // End anonymous namespace
86de486dSMatt Arsenault
a1fe17c9SMatt Arsenaultstatic bool shouldKeepFDivF32(Value *Num, bool UnsafeDiv) {
a1fe17c9SMatt Arsenault  const ConstantFP *CNum = dyn_cast<ConstantFP>(Num);
a1fe17c9SMatt Arsenault  if (!CNum)
a1fe17c9SMatt Arsenault    return false;
a1fe17c9SMatt Arsenault
a1fe17c9SMatt Arsenault  // Reciprocal f32 is handled separately without denormals.
*e3862cdcSMatt Arsenault  return UnsafeDiv || CNum->isExactlyValue(+1.0);
a1fe17c9SMatt Arsenault}
a1fe17c9SMatt Arsenault
a1fe17c9SMatt Arsenault// Insert an intrinsic for fast fdiv for safe math situations where we can
a1fe17c9SMatt Arsenault// reduce precision. Leave fdiv for situations where the generic node is
a1fe17c9SMatt Arsenault// expected to be optimized.
a1fe17c9SMatt Arsenaultbool AMDGPUCodeGenPrepare::visitFDiv(BinaryOperator &FDiv) {
a1fe17c9SMatt Arsenault  Type *Ty = FDiv.getType();
a1fe17c9SMatt Arsenault
a1fe17c9SMatt Arsenault  // TODO: Handle half
a1fe17c9SMatt Arsenault  if (!Ty->getScalarType()->isFloatTy())
a1fe17c9SMatt Arsenault    return false;
a1fe17c9SMatt Arsenault
a1fe17c9SMatt Arsenault  MDNode *FPMath = FDiv.getMetadata(LLVMContext::MD_fpmath);
a1fe17c9SMatt Arsenault  if (!FPMath)
a1fe17c9SMatt Arsenault    return false;
a1fe17c9SMatt Arsenault
a1fe17c9SMatt Arsenault  const FPMathOperator *FPOp = cast<const FPMathOperator>(&FDiv);
a1fe17c9SMatt Arsenault  float ULP = FPOp->getFPAccuracy();
a1fe17c9SMatt Arsenault  if (ULP < 2.5f)
a1fe17c9SMatt Arsenault    return false;
a1fe17c9SMatt Arsenault
a1fe17c9SMatt Arsenault  FastMathFlags FMF = FPOp->getFastMathFlags();
a1fe17c9SMatt Arsenault  bool UnsafeDiv = HasUnsafeFPMath || FMF.unsafeAlgebra() ||
a1fe17c9SMatt Arsenault                                      FMF.allowReciprocal();
a1fe17c9SMatt Arsenault  if (ST->hasFP32Denormals() && !UnsafeDiv)
a1fe17c9SMatt Arsenault    return false;
a1fe17c9SMatt Arsenault
a1fe17c9SMatt Arsenault  IRBuilder<> Builder(FDiv.getParent(), std::next(FDiv.getIterator()), FPMath);
a1fe17c9SMatt Arsenault  Builder.setFastMathFlags(FMF);
a1fe17c9SMatt Arsenault  Builder.SetCurrentDebugLocation(FDiv.getDebugLoc());
a1fe17c9SMatt Arsenault
a1fe17c9SMatt Arsenault  const AMDGPUIntrinsicInfo *II = TM->getIntrinsicInfo();
a1fe17c9SMatt Arsenault  Function *Decl
a1fe17c9SMatt Arsenault    = II->getDeclaration(Mod, AMDGPUIntrinsic::amdgcn_fdiv_fast, {});
a1fe17c9SMatt Arsenault
a1fe17c9SMatt Arsenault  Value *Num = FDiv.getOperand(0);
a1fe17c9SMatt Arsenault  Value *Den = FDiv.getOperand(1);
a1fe17c9SMatt Arsenault
a1fe17c9SMatt Arsenault  Value *NewFDiv = nullptr;
a1fe17c9SMatt Arsenault
a1fe17c9SMatt Arsenault  if (VectorType *VT = dyn_cast<VectorType>(Ty)) {
a1fe17c9SMatt Arsenault    NewFDiv = UndefValue::get(VT);
a1fe17c9SMatt Arsenault
a1fe17c9SMatt Arsenault    // FIXME: Doesn't do the right thing for cases where the vector is partially
a1fe17c9SMatt Arsenault    // constant. This works when the scalarizer pass is run first.
a1fe17c9SMatt Arsenault    for (unsigned I = 0, E = VT->getNumElements(); I != E; ++I) {
a1fe17c9SMatt Arsenault      Value *NumEltI = Builder.CreateExtractElement(Num, I);
a1fe17c9SMatt Arsenault      Value *DenEltI = Builder.CreateExtractElement(Den, I);
a1fe17c9SMatt Arsenault      Value *NewElt;
a1fe17c9SMatt Arsenault
a1fe17c9SMatt Arsenault      if (shouldKeepFDivF32(NumEltI, UnsafeDiv)) {
a1fe17c9SMatt Arsenault        NewElt = Builder.CreateFDiv(NumEltI, DenEltI);
a1fe17c9SMatt Arsenault      } else {
a1fe17c9SMatt Arsenault        NewElt = Builder.CreateCall(Decl, { NumEltI, DenEltI });
a1fe17c9SMatt Arsenault      }
a1fe17c9SMatt Arsenault
a1fe17c9SMatt Arsenault      NewFDiv = Builder.CreateInsertElement(NewFDiv, NewElt, I);
a1fe17c9SMatt Arsenault    }
a1fe17c9SMatt Arsenault  } else {
a1fe17c9SMatt Arsenault    if (!shouldKeepFDivF32(Num, UnsafeDiv))
a1fe17c9SMatt Arsenault      NewFDiv = Builder.CreateCall(Decl, { Num, Den });
a1fe17c9SMatt Arsenault  }
a1fe17c9SMatt Arsenault
a1fe17c9SMatt Arsenault  if (NewFDiv) {
a1fe17c9SMatt Arsenault    FDiv.replaceAllUsesWith(NewFDiv);
a1fe17c9SMatt Arsenault    NewFDiv->takeName(&FDiv);
a1fe17c9SMatt Arsenault    FDiv.eraseFromParent();
a1fe17c9SMatt Arsenault  }
a1fe17c9SMatt Arsenault
a1fe17c9SMatt Arsenault  return true;
a1fe17c9SMatt Arsenault}
a1fe17c9SMatt Arsenault
a1fe17c9SMatt Arsenaultstatic bool hasUnsafeFPMath(const Function &F) {
a1fe17c9SMatt Arsenault  Attribute Attr = F.getFnAttribute("unsafe-fp-math");
a1fe17c9SMatt Arsenault  return Attr.getValueAsString() == "true";
a1fe17c9SMatt Arsenault}
a1fe17c9SMatt Arsenault
86de486dSMatt Arsenaultbool AMDGPUCodeGenPrepare::doInitialization(Module &M) {
a1fe17c9SMatt Arsenault  Mod = &M;
86de486dSMatt Arsenault  return false;
86de486dSMatt Arsenault}
86de486dSMatt Arsenault
86de486dSMatt Arsenaultbool AMDGPUCodeGenPrepare::runOnFunction(Function &F) {
86de486dSMatt Arsenault  if (!TM || skipFunction(F))
86de486dSMatt Arsenault    return false;
86de486dSMatt Arsenault
a1fe17c9SMatt Arsenault  ST = &TM->getSubtarget<SISubtarget>(F);
86de486dSMatt Arsenault  DA = &getAnalysis<DivergenceAnalysis>();
a1fe17c9SMatt Arsenault  HasUnsafeFPMath = hasUnsafeFPMath(F);
86de486dSMatt Arsenault
a1fe17c9SMatt Arsenault  bool MadeChange = false;
a1fe17c9SMatt Arsenault
a1fe17c9SMatt Arsenault  for (BasicBlock &BB : F) {
a1fe17c9SMatt Arsenault    BasicBlock::iterator Next;
a1fe17c9SMatt Arsenault    for (BasicBlock::iterator I = BB.begin(), E = BB.end(); I != E; I = Next) {
a1fe17c9SMatt Arsenault      Next = std::next(I);
a1fe17c9SMatt Arsenault      MadeChange |= visit(*I);
a1fe17c9SMatt Arsenault    }
a1fe17c9SMatt Arsenault  }
a1fe17c9SMatt Arsenault
a1fe17c9SMatt Arsenault  return MadeChange;
86de486dSMatt Arsenault}
86de486dSMatt Arsenault
86de486dSMatt ArsenaultINITIALIZE_TM_PASS_BEGIN(AMDGPUCodeGenPrepare, DEBUG_TYPE,
86de486dSMatt Arsenault                      "AMDGPU IR optimizations", false, false)
86de486dSMatt ArsenaultINITIALIZE_PASS_DEPENDENCY(DivergenceAnalysis)
86de486dSMatt ArsenaultINITIALIZE_TM_PASS_END(AMDGPUCodeGenPrepare, DEBUG_TYPE,
86de486dSMatt Arsenault                       "AMDGPU IR optimizations", false, false)
86de486dSMatt Arsenault
86de486dSMatt Arsenaultchar AMDGPUCodeGenPrepare::ID = 0;
86de486dSMatt Arsenault
a1fe17c9SMatt ArsenaultFunctionPass *llvm::createAMDGPUCodeGenPreparePass(const GCNTargetMachine *TM) {
86de486dSMatt Arsenault  return new AMDGPUCodeGenPrepare(TM);
86de486dSMatt Arsenault}