SparseTensor/Transforms/SparseTensorRewriting.cpp

28ebb0b6SAart Bik//===- SparseTensorRewriting.cpp - Sparse tensor rewriting rules ----------===//
28ebb0b6SAart Bik//
28ebb0b6SAart Bik// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
28ebb0b6SAart Bik// See https://llvm.org/LICENSE.txt for license information.
28ebb0b6SAart Bik// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
28ebb0b6SAart Bik//
28ebb0b6SAart Bik//===----------------------------------------------------------------------===//
28ebb0b6SAart Bik//
28ebb0b6SAart Bik// This file implements rewriting rules that are specific to sparse tensors.
28ebb0b6SAart Bik//
28ebb0b6SAart Bik//===----------------------------------------------------------------------===//
28ebb0b6SAart Bik
28ebb0b6SAart Bik#include "mlir/Dialect/Arithmetic/IR/Arithmetic.h"
28ebb0b6SAart Bik#include "mlir/Dialect/Bufferization/IR/Bufferization.h"
28ebb0b6SAart Bik#include "mlir/Dialect/Linalg/IR/Linalg.h"
28ebb0b6SAart Bik#include "mlir/Dialect/SparseTensor/IR/SparseTensor.h"
28ebb0b6SAart Bik#include "mlir/Dialect/SparseTensor/Transforms/Passes.h"
28ebb0b6SAart Bik#include "mlir/Dialect/Tensor/IR/Tensor.h"
28ebb0b6SAart Bik#include "mlir/IR/AffineMap.h"
28ebb0b6SAart Bik#include "mlir/IR/Matchers.h"
28ebb0b6SAart Bik#include "mlir/Support/LLVM.h"
28ebb0b6SAart Bik
28ebb0b6SAart Bikusing namespace mlir;
28ebb0b6SAart Bikusing namespace mlir::bufferization;
28ebb0b6SAart Bikusing namespace mlir::linalg;
28ebb0b6SAart Bikusing namespace mlir::sparse_tensor;
28ebb0b6SAart Bik
28ebb0b6SAart Bik//===---------------------------------------------------------------------===//
28ebb0b6SAart Bik// Helper methods for the actual rewriting rules.
28ebb0b6SAart Bik//===---------------------------------------------------------------------===//
28ebb0b6SAart Bik
28ebb0b6SAart Bik// Helper to detect a sparse tensor type operand.
28ebb0b6SAart Bikstatic bool isSparseTensor(OpOperand *op) {
28ebb0b6SAart Bik  if (auto enc = getSparseTensorEncoding(op->get().getType())) {
28ebb0b6SAart Bik    ArrayRef<SparseTensorEncodingAttr::DimLevelType> dimTypes =
28ebb0b6SAart Bik        enc.getDimLevelType();
28ebb0b6SAart Bik    for (auto dimType : dimTypes)
28ebb0b6SAart Bik      if (dimType == SparseTensorEncodingAttr::DimLevelType::Compressed)
28ebb0b6SAart Bik        return true; // at least one compressed
28ebb0b6SAart Bik  }
28ebb0b6SAart Bik  return false;
28ebb0b6SAart Bik}
28ebb0b6SAart Bik
28ebb0b6SAart Bik// Helper method to find zero or empty initialization.
28ebb0b6SAart Bikstatic bool isEmptyInit(OpOperand *op) {
28ebb0b6SAart Bik  Value val = op->get();
28ebb0b6SAart Bik  return matchPattern(val, m_Zero()) || matchPattern(val, m_AnyZeroFloat()) ||
28ebb0b6SAart Bik         val.getDefiningOp<InitTensorOp>() ||
28ebb0b6SAart Bik         val.getDefiningOp<AllocTensorOp>();
28ebb0b6SAart Bik}
28ebb0b6SAart Bik
28ebb0b6SAart Bik// Helper to detect sampling operation.
28ebb0b6SAart Bikstatic bool isSampling(GenericOp op) {
28ebb0b6SAart Bik  auto yieldOp = cast<linalg::YieldOp>(op.region().front().getTerminator());
28ebb0b6SAart Bik  if (auto *def = yieldOp.getOperand(0).getDefiningOp()) {
28ebb0b6SAart Bik    if (isa<arith::MulFOp>(def) || isa<arith::MulIOp>(def)) {
28ebb0b6SAart Bik      // Both scalar input arguments used exactly once.
28ebb0b6SAart Bik      Value s1 = op.getBlock()->getArgument(0);
28ebb0b6SAart Bik      Value s2 = op.getBlock()->getArgument(1);
28ebb0b6SAart Bik      return (def->getOperand(0) == s1 && def->getOperand(1) == s2) ||
28ebb0b6SAart Bik             (def->getOperand(1) == s1 && def->getOperand(0) == s2);
28ebb0b6SAart Bik    }
28ebb0b6SAart Bik  }
28ebb0b6SAart Bik  return false;
28ebb0b6SAart Bik}
28ebb0b6SAart Bik
28ebb0b6SAart Bik// Helper to detect chain of multiplications that do not involve x.
28ebb0b6SAart Bikstatic bool isMulChain(Value val, Value x) {
28ebb0b6SAart Bik  if (auto arg = val.dyn_cast<BlockArgument>())
28ebb0b6SAart Bik    return arg != x;
28ebb0b6SAart Bik  if (auto *def = val.getDefiningOp()) {
28ebb0b6SAart Bik    if (isa<arith::MulFOp>(def) || isa<arith::MulIOp>(def))
28ebb0b6SAart Bik      return isMulChain(def->getOperand(0), x) &&
28ebb0b6SAart Bik             isMulChain(def->getOperand(1), x);
28ebb0b6SAart Bik  }
28ebb0b6SAart Bik  return false;
28ebb0b6SAart Bik}
28ebb0b6SAart Bik
28ebb0b6SAart Bik// Helper to detect x = x + <multiplications>.
28ebb0b6SAart Bikstatic bool isSumOfMul(GenericOp op) {
28ebb0b6SAart Bik  auto yieldOp = cast<linalg::YieldOp>(op.region().front().getTerminator());
28ebb0b6SAart Bik  if (auto *def = yieldOp.getOperand(0).getDefiningOp()) {
28ebb0b6SAart Bik    if (isa<arith::AddFOp>(def) || isa<arith::AddIOp>(def)) {
28ebb0b6SAart Bik      Value x = op.getBlock()->getArguments().back();
28ebb0b6SAart Bik      return (def->getOperand(0) == x && isMulChain(def->getOperand(1), x)) ||
28ebb0b6SAart Bik             (def->getOperand(1) == x && isMulChain(def->getOperand(0), x));
28ebb0b6SAart Bik    }
28ebb0b6SAart Bik  }
28ebb0b6SAart Bik  return false;
28ebb0b6SAart Bik}
28ebb0b6SAart Bik
28ebb0b6SAart Bik//===---------------------------------------------------------------------===//
28ebb0b6SAart Bik// The actual sparse tensor rewriting rules.
28ebb0b6SAart Bik//===---------------------------------------------------------------------===//
28ebb0b6SAart Bik
28ebb0b6SAart Biknamespace {
28ebb0b6SAart Bik
28ebb0b6SAart Bik/// Rewriting rule that converts two kernels:
28ebb0b6SAart Bik///
28ebb0b6SAart Bik///      T(i,j) = SUM(k, A(i,j,k) * B(i,j,k) * ... )
28ebb0b6SAart Bik///      X(i,j) = S(i,j) * T(i,j)
28ebb0b6SAart Bik///
28ebb0b6SAart Bik/// into a single kernel, using distributive law:
28ebb0b6SAart Bik///
28ebb0b6SAart Bik///      X(i,j) = SUM(k, S(i,j) * A(i,j,k) * B(i,j,k) * ... )
28ebb0b6SAart Bik///
28ebb0b6SAart Bik/// This kind of fusion (merging two ops into one but using arithmetic
28ebb0b6SAart Bik/// equalities that may not hold for floating-point computations) would
28ebb0b6SAart Bik/// be undesirable in the dense case, since we distribute the multiplication
28ebb0b6SAart Bik/// into the reduction loop. However, for sparse sampling tensor S, such
28ebb0b6SAart Bik/// a fusion may actually reduce the asymptotic complexity of the kernel,
28ebb0b6SAart Bik/// since intermediate results may be nullified.
28ebb0b6SAart Bikstruct FuseSparseMultiplyOverAdd : public OpRewritePattern<GenericOp> {
28ebb0b6SAart Bikpublic:
28ebb0b6SAart Bik  using OpRewritePattern<GenericOp>::OpRewritePattern;
28ebb0b6SAart Bik
28ebb0b6SAart Bik  LogicalResult matchAndRewrite(GenericOp op,
28ebb0b6SAart Bik                                PatternRewriter &rewriter) const override {
28ebb0b6SAart Bik    // Check consumer.
28ebb0b6SAart Bik    if (!op.hasTensorSemantics() || op.getNumInputs() != 2 ||
28ebb0b6SAart Bik        op.getNumResults() != 1 ||
28ebb0b6SAart Bik        op.getNumParallelLoops() != op.getNumLoops() ||
28ebb0b6SAart Bik        !op.getTiedIndexingMap(op.getOutputOperand(0)).isIdentity() ||
28ebb0b6SAart Bik        !op.getTiedIndexingMap(op.getInputOperand(0)).isIdentity() ||
28ebb0b6SAart Bik        !op.getTiedIndexingMap(op.getInputOperand(1)).isIdentity())
28ebb0b6SAart Bik      return failure();
28ebb0b6SAart Bik    // Find consuming OP2(sparse, other) or OP2(other, sparse). The other
28ebb0b6SAart Bik    // operand can be sparse or dense, since the point of this rewriting rule
28ebb0b6SAart Bik    // is detecting a situation in which *more* sparsity is introduced into
28ebb0b6SAart Bik    // a computation, be it already sparse or still dense.
28ebb0b6SAart Bik    unsigned other = 0;
28ebb0b6SAart Bik    if (isSparseTensor(op.getInputOperand(0)))
28ebb0b6SAart Bik      other = 1;
28ebb0b6SAart Bik    else if (!isSparseTensor(op.getInputOperand(1)))
28ebb0b6SAart Bik      return failure();
28ebb0b6SAart Bik    // Check producer.
28ebb0b6SAart Bik    auto prod = dyn_cast_or_null<GenericOp>(
28ebb0b6SAart Bik        op.getInputOperand(other)->get().getDefiningOp());
28ebb0b6SAart Bik    if (!prod || !prod.hasTensorSemantics() || prod.getNumResults() != 1 ||
28ebb0b6SAart Bik        !prod.getResult(0).hasOneUse())
28ebb0b6SAart Bik      return failure();
28ebb0b6SAart Bik    // Sampling consumer and sum of multiplication chain producer.
28ebb0b6SAart Bik    if (!isEmptyInit(op.getOutputOperand(0)) ||
28ebb0b6SAart Bik        !isEmptyInit(prod.getOutputOperand(0)) || !isSampling(op) ||
28ebb0b6SAart Bik        !isSumOfMul(prod))
28ebb0b6SAart Bik      return failure();
28ebb0b6SAart Bik    // Modify operand structure of producer and consumer.
28ebb0b6SAart Bik    Location loc = prod.getLoc();
28ebb0b6SAart Bik    SmallVector<Value> inputOps = prod.getInputOperands();
28ebb0b6SAart Bik    SmallVector<Value> outputOps = op.getOutputOperands();
*d2c0572bSJacques Pienaar    SmallVector<AffineMap> fusedIndexMaps = prod.getIndexingMapsArray();
28ebb0b6SAart Bik    inputOps.push_back(op.getInputOperand(1 - other)->get());
28ebb0b6SAart Bik    fusedIndexMaps.push_back(fusedIndexMaps.back()); // mimic other
28ebb0b6SAart Bik    // Fuse producer and consumer into a new generic op.
28ebb0b6SAart Bik    auto fusedOp = rewriter.create<GenericOp>(
28ebb0b6SAart Bik        loc, op.getResult(0).getType(), inputOps, outputOps,
28ebb0b6SAart Bik        rewriter.getAffineMapArrayAttr(fusedIndexMaps), prod.iterator_types(),
28ebb0b6SAart Bik        /*doc=*/nullptr, /*library_call=*/nullptr);
28ebb0b6SAart Bik    Block &prodBlock = prod.region().front();
28ebb0b6SAart Bik    Block &consBlock = op.region().front();
28ebb0b6SAart Bik    BlockAndValueMapping mapper;
28ebb0b6SAart Bik    Block *fusedBlock = new Block();
28ebb0b6SAart Bik    fusedOp.region().push_back(fusedBlock);
28ebb0b6SAart Bik    unsigned num = prodBlock.getNumArguments();
28ebb0b6SAart Bik    for (unsigned i = 0; i < num - 1; i++)
28ebb0b6SAart Bik      addArg(mapper, fusedBlock, prodBlock.getArgument(i));
28ebb0b6SAart Bik    addArg(mapper, fusedBlock, consBlock.getArgument(1 - other));
28ebb0b6SAart Bik    addArg(mapper, fusedBlock, prodBlock.getArgument(num - 1));
28ebb0b6SAart Bik    // Clone bodies of the producer and consumer in new evaluation order.
28ebb0b6SAart Bik    auto *acc = prodBlock.getTerminator()->getOperand(0).getDefiningOp();
28ebb0b6SAart Bik    auto *sampler = consBlock.getTerminator()->getOperand(0).getDefiningOp();
28ebb0b6SAart Bik    rewriter.setInsertionPointToStart(fusedBlock);
28ebb0b6SAart Bik    Value last;
28ebb0b6SAart Bik    for (auto &op : prodBlock.without_terminator())
28ebb0b6SAart Bik      if (&op != acc) {
28ebb0b6SAart Bik        last = op.getResult(0);
28ebb0b6SAart Bik        rewriter.clone(op, mapper);
28ebb0b6SAart Bik      }
28ebb0b6SAart Bik    mapper.map(consBlock.getArgument(other), fusedBlock->back().getResult(0));
28ebb0b6SAart Bik    mapper.map(last, rewriter.clone(*sampler, mapper)->getResult(0));
28ebb0b6SAart Bik    last = rewriter.clone(*acc, mapper)->getResult(0);
28ebb0b6SAart Bik    rewriter.create<linalg::YieldOp>(loc, last);
28ebb0b6SAart Bik    // Replace consumer with fused operation. Old producer
28ebb0b6SAart Bik    // and consumer ops will be removed by DCE.
28ebb0b6SAart Bik    rewriter.replaceOp(op, fusedOp->getResults());
28ebb0b6SAart Bik    return success();
28ebb0b6SAart Bik  }
28ebb0b6SAart Bik
28ebb0b6SAart Bikprivate:
28ebb0b6SAart Bik  // Helper to add argument and record the mapping.
28ebb0b6SAart Bik  static void addArg(BlockAndValueMapping &mapper, Block *b, BlockArgument a) {
28ebb0b6SAart Bik    mapper.map(a, b->addArgument(a.getType(), a.getLoc()));
28ebb0b6SAart Bik  }
28ebb0b6SAart Bik};
28ebb0b6SAart Bik
28ebb0b6SAart Bik/// Sparse rewriting rule for reshape operator.
28ebb0b6SAart Biktemplate <typename ReshapeOp>
28ebb0b6SAart Bikstruct ReshapeRewriter : public OpRewritePattern<ReshapeOp> {
28ebb0b6SAart Bikpublic:
28ebb0b6SAart Bik  using OpRewritePattern<ReshapeOp>::OpRewritePattern;
28ebb0b6SAart Bik
28ebb0b6SAart Bik  LogicalResult matchAndRewrite(ReshapeOp op,
28ebb0b6SAart Bik                                PatternRewriter &rewriter) const override {
28ebb0b6SAart Bik    Location loc = op->getLoc();
28ebb0b6SAart Bik    auto encDst = getSparseTensorEncoding(op.getResult().getType());
28ebb0b6SAart Bik    auto encSrc = getSparseTensorEncoding(op.getSrc().getType());
28ebb0b6SAart Bik    // Since a pure dense expansion is very cheap (change of view), for
28ebb0b6SAart Bik    // a sparse2dense or dense2sparse, we can simply unfuse a sparse
28ebb0b6SAart Bik    // conversion from the reshape operation itself.
28ebb0b6SAart Bik    // All other cases are handled elsewhere.
28ebb0b6SAart Bik    if (encDst && encSrc) {
28ebb0b6SAart Bik      return failure();
28ebb0b6SAart Bik    } else if (encSrc) {
28ebb0b6SAart Bik      RankedTensorType rtp =
28ebb0b6SAart Bik          op.getSrc().getType().template cast<RankedTensorType>();
28ebb0b6SAart Bik      auto denseTp =
28ebb0b6SAart Bik          RankedTensorType::get(rtp.getShape(), rtp.getElementType());
28ebb0b6SAart Bik      auto convert = rewriter.create<ConvertOp>(loc, denseTp, op.getSrc());
28ebb0b6SAart Bik      op->setOperand(0, convert);
28ebb0b6SAart Bik      return success();
28ebb0b6SAart Bik    } else if (encDst) {
28ebb0b6SAart Bik      RankedTensorType rtp =
28ebb0b6SAart Bik          op.getResult().getType().template cast<RankedTensorType>();
28ebb0b6SAart Bik      auto denseTp =
28ebb0b6SAart Bik          RankedTensorType::get(rtp.getShape(), rtp.getElementType());
28ebb0b6SAart Bik      auto reshape = rewriter.create<ReshapeOp>(loc, denseTp, op.getSrc(),
28ebb0b6SAart Bik                                                op.getReassociation());
28ebb0b6SAart Bik      Value convert = rewriter.create<ConvertOp>(loc, rtp, reshape);
28ebb0b6SAart Bik      rewriter.replaceOp(op, convert);
28ebb0b6SAart Bik      return success();
28ebb0b6SAart Bik    }
28ebb0b6SAart Bik    return failure();
28ebb0b6SAart Bik  }
28ebb0b6SAart Bik};
28ebb0b6SAart Bik
28ebb0b6SAart Bik} // namespace
28ebb0b6SAart Bik
28ebb0b6SAart Bik//===---------------------------------------------------------------------===//
28ebb0b6SAart Bik// Methods that add patterns described in this file to a pattern list.
28ebb0b6SAart Bik//===---------------------------------------------------------------------===//
28ebb0b6SAart Bik
28ebb0b6SAart Bikvoid mlir::populateSparseTensorRewriting(RewritePatternSet &patterns) {
28ebb0b6SAart Bik  // TODO(springerm): enable FuseSparseMultiplyOverAdd
28ebb0b6SAart Bik  patterns.add<ReshapeRewriter<tensor::ExpandShapeOp>,
28ebb0b6SAart Bik               ReshapeRewriter<tensor::CollapseShapeOp>>(patterns.getContext());
28ebb0b6SAart Bik}