Quant/Utils/FakeQuantSupport.cpp

363dd3f3SRob Suderman//===- FakeQuantSupport.cpp - Support utilities for FakeQuant ops ---------===//
363dd3f3SRob Suderman//
363dd3f3SRob Suderman// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
363dd3f3SRob Suderman// See https://llvm.org/LICENSE.txt for license information.
363dd3f3SRob Suderman// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
363dd3f3SRob Suderman//
363dd3f3SRob Suderman//===----------------------------------------------------------------------===//
363dd3f3SRob Suderman
363dd3f3SRob Suderman#include "mlir/Dialect/Quant/FakeQuantSupport.h"
363dd3f3SRob Suderman#include "mlir/Dialect/Quant/QuantTypes.h"
363dd3f3SRob Suderman
363dd3f3SRob Sudermanusing namespace mlir;
363dd3f3SRob Sudermanusing namespace mlir::quant;
363dd3f3SRob Suderman
363dd3f3SRob Sudermanstatic bool getDefaultStorageParams(unsigned numBits, bool narrowRange,
363dd3f3SRob Suderman                                    bool isSigned, MLIRContext *ctx,
363dd3f3SRob Suderman                                    Type &storageType, int64_t &qmin,
363dd3f3SRob Suderman                                    int64_t &qmax) {
363dd3f3SRob Suderman  // Hard-coded type mapping from TFLite.
363dd3f3SRob Suderman  if (numBits <= 8) {
1b97cdf8SRiver Riddle    storageType = IntegerType::get(ctx, 8);
363dd3f3SRob Suderman    if (isSigned) {
363dd3f3SRob Suderman      qmin = -128;
363dd3f3SRob Suderman      qmax = 127;
363dd3f3SRob Suderman    } else {
363dd3f3SRob Suderman      qmin = 0;
363dd3f3SRob Suderman      qmax = 255;
363dd3f3SRob Suderman    }
363dd3f3SRob Suderman  } else if (numBits <= 16) {
1b97cdf8SRiver Riddle    storageType = IntegerType::get(ctx, 16);
363dd3f3SRob Suderman    if (isSigned) {
363dd3f3SRob Suderman      qmin = -32768;
363dd3f3SRob Suderman      qmax = 32767;
363dd3f3SRob Suderman    } else {
363dd3f3SRob Suderman      qmin = 0;
363dd3f3SRob Suderman      qmax = 65535;
363dd3f3SRob Suderman    }
b578c92aSFeng Liu  } else if (numBits <= 32) {
1b97cdf8SRiver Riddle    storageType = IntegerType::get(ctx, 32);
b578c92aSFeng Liu    if (isSigned) {
b578c92aSFeng Liu      qmin = std::numeric_limits<int32_t>::min();
b578c92aSFeng Liu      qmax = std::numeric_limits<int32_t>::max();
b578c92aSFeng Liu    } else {
b578c92aSFeng Liu      qmin = std::numeric_limits<uint32_t>::min();
b578c92aSFeng Liu      qmax = std::numeric_limits<uint32_t>::max();
b578c92aSFeng Liu    }
363dd3f3SRob Suderman  } else {
363dd3f3SRob Suderman    return true;
363dd3f3SRob Suderman  }
363dd3f3SRob Suderman
363dd3f3SRob Suderman  // Handle narrowRange.
363dd3f3SRob Suderman  if (narrowRange) {
363dd3f3SRob Suderman    qmin += 1;
363dd3f3SRob Suderman  }
363dd3f3SRob Suderman  return false;
363dd3f3SRob Suderman}
363dd3f3SRob Suderman
363dd3f3SRob Suderman// This is a specific implementation of nudging:
363dd3f3SRob Suderman// If 0.0 < rmin < rmax or rmin < rmax < 0.0, the range will be shifted
363dd3f3SRob Suderman// to include 0.0, but the range width size (rmax-rmin) isn't changed. The zero
363dd3f3SRob Suderman// point is derived from the shifted range, and the scale isn't changed. As
363dd3f3SRob Suderman// a consequence some values, which are supposed in the original [rmin, rmax]
363dd3f3SRob Suderman// range will be outside the shifted range and be clamped during quantization.
9db53a18SRiver Riddle// TODO: we should nudge the scale as well, but that requires the
363dd3f3SRob Suderman// fake quant op used in the training to use the nudged scale as well.
363dd3f3SRob Sudermanstatic void getNudgedScaleAndZeroPoint(int64_t qmin, int64_t qmax, double rmin,
363dd3f3SRob Suderman                                       double rmax, double &scale,
363dd3f3SRob Suderman                                       int64_t &nudgedZeroPoint) {
363dd3f3SRob Suderman  // Determine the scale.
363dd3f3SRob Suderman  const double qminDouble = qmin;
363dd3f3SRob Suderman  const double qmaxDouble = qmax;
363dd3f3SRob Suderman  scale = (rmax - rmin) / (qmaxDouble - qminDouble);
363dd3f3SRob Suderman
363dd3f3SRob Suderman  // Zero point computation.
363dd3f3SRob Suderman  // In float, solve the affine equation for any known pair
363dd3f3SRob Suderman  // (real value, corresponding quantized value), of which, two such pairs
363dd3f3SRob Suderman  // are known: (rmin, qmin), (rmax, qmax).
363dd3f3SRob Suderman  // The arithmetic error on the zero point computed from either pair will be
363dd3f3SRob Suderman  // roughly machine_epsilon * (sum of absolute values of terms).
363dd3f3SRob Suderman  // Use the variant that adds the smaller error.
363dd3f3SRob Suderman  const double zeroPointFromMin = qminDouble - rmin / scale;
363dd3f3SRob Suderman  const double zeroPointFromMinError =
363dd3f3SRob Suderman      std::abs(qminDouble) + std::abs(rmin / scale);
363dd3f3SRob Suderman  const double zeroPointFromMax = qmaxDouble - rmax / scale;
363dd3f3SRob Suderman  const double zeroPointFromMaxError =
363dd3f3SRob Suderman      std::abs(qmaxDouble) + std::abs(rmax / scale);
363dd3f3SRob Suderman
363dd3f3SRob Suderman  const double zeroPointDouble = (zeroPointFromMinError < zeroPointFromMaxError)
363dd3f3SRob Suderman                                     ? zeroPointFromMin
363dd3f3SRob Suderman                                     : zeroPointFromMax;
363dd3f3SRob Suderman
363dd3f3SRob Suderman  // Now nudge the zero point to be an integer.
363dd3f3SRob Suderman  nudgedZeroPoint = 0;
363dd3f3SRob Suderman  if (zeroPointDouble < qminDouble) {
363dd3f3SRob Suderman    nudgedZeroPoint = qmin;
363dd3f3SRob Suderman  } else if (zeroPointDouble > qmaxDouble) {
363dd3f3SRob Suderman    nudgedZeroPoint = qmax;
363dd3f3SRob Suderman  } else {
363dd3f3SRob Suderman    nudgedZeroPoint = round(zeroPointDouble);
363dd3f3SRob Suderman  }
363dd3f3SRob Suderman
363dd3f3SRob Suderman  // By construction, the nudged zero point should always be in range.
363dd3f3SRob Suderman  assert(nudgedZeroPoint >= qmin);
363dd3f3SRob Suderman  assert(nudgedZeroPoint <= qmax);
363dd3f3SRob Suderman}
363dd3f3SRob Suderman
363dd3f3SRob SudermanUniformQuantizedType
363dd3f3SRob Sudermanmlir::quant::fakeQuantAttrsToType(Location loc, unsigned numBits, double rmin,
363dd3f3SRob Suderman                                  double rmax, bool narrowRange,
363dd3f3SRob Suderman                                  Type expressedType, bool isSigned) {
363dd3f3SRob Suderman  MLIRContext *ctx = expressedType.getContext();
363dd3f3SRob Suderman  unsigned flags = isSigned ? QuantizationFlags::Signed : 0;
363dd3f3SRob Suderman  Type storageType;
363dd3f3SRob Suderman  int64_t qmin;
363dd3f3SRob Suderman  int64_t qmax;
363dd3f3SRob Suderman  if (getDefaultStorageParams(numBits, narrowRange, isSigned, ctx, storageType,
363dd3f3SRob Suderman                              qmin, qmax)) {
363dd3f3SRob Suderman    return (emitError(loc, "unsupported FakeQuant number of bits: ") << numBits,
363dd3f3SRob Suderman            nullptr);
363dd3f3SRob Suderman  }
363dd3f3SRob Suderman
363dd3f3SRob Suderman  // Special case where min/max is close enough. The tensor contents are all
363dd3f3SRob Suderman  // 0.0s, so the scale is set to 1.0 and the tensor can be quantized to zero
363dd3f3SRob Suderman  // points and dequantized to 0.0.
363dd3f3SRob Suderman  if (std::fabs(rmax - rmin) < std::numeric_limits<double>::epsilon()) {
06e25d56SRiver Riddle    return UniformQuantizedType::getChecked(
06e25d56SRiver Riddle        loc, flags, storageType, expressedType, 1.0, qmin, qmin, qmax);
363dd3f3SRob Suderman  }
363dd3f3SRob Suderman
363dd3f3SRob Suderman  double scale;
363dd3f3SRob Suderman  int64_t nudgedZeroPoint;
363dd3f3SRob Suderman  getNudgedScaleAndZeroPoint(qmin, qmax, rmin, rmax, scale, nudgedZeroPoint);
363dd3f3SRob Suderman
06e25d56SRiver Riddle  return UniformQuantizedType::getChecked(loc, flags, storageType,
06e25d56SRiver Riddle                                          expressedType, scale, nudgedZeroPoint,
06e25d56SRiver Riddle                                          qmin, qmax);
363dd3f3SRob Suderman}
363dd3f3SRob Suderman
363dd3f3SRob SudermanUniformQuantizedPerAxisType mlir::quant::fakeQuantAttrsToType(
363dd3f3SRob Suderman    Location loc, unsigned numBits, int32_t quantizedDimension,
363dd3f3SRob Suderman    ArrayRef<double> rmins, ArrayRef<double> rmaxs, bool narrowRange,
363dd3f3SRob Suderman    Type expressedType, bool isSigned) {
*02b6fb21SMehdi Amini  size_t axisSize = rmins.size();
*02b6fb21SMehdi Amini  if (axisSize != rmaxs.size()) {
363dd3f3SRob Suderman    return (emitError(loc, "mismatched per-axis min and max size: ")
*02b6fb21SMehdi Amini                << axisSize << " vs. " << rmaxs.size(),
363dd3f3SRob Suderman            nullptr);
363dd3f3SRob Suderman  }
363dd3f3SRob Suderman
363dd3f3SRob Suderman  MLIRContext *ctx = expressedType.getContext();
363dd3f3SRob Suderman  Type storageType;
363dd3f3SRob Suderman  int64_t qmin;
363dd3f3SRob Suderman  int64_t qmax;
363dd3f3SRob Suderman  if (getDefaultStorageParams(numBits, narrowRange, isSigned, ctx, storageType,
363dd3f3SRob Suderman                              qmin, qmax)) {
363dd3f3SRob Suderman    return (emitError(loc, "unsupported FakeQuant number of bits: ") << numBits,
363dd3f3SRob Suderman            nullptr);
363dd3f3SRob Suderman  }
363dd3f3SRob Suderman
363dd3f3SRob Suderman  SmallVector<double, 4> scales;
363dd3f3SRob Suderman  SmallVector<int64_t, 4> zeroPoints;
*02b6fb21SMehdi Amini  scales.reserve(axisSize);
*02b6fb21SMehdi Amini  zeroPoints.reserve(axisSize);
*02b6fb21SMehdi Amini  for (size_t axis = 0; axis != axisSize; ++axis) {
363dd3f3SRob Suderman    double rmin = rmins[axis];
363dd3f3SRob Suderman    double rmax = rmaxs[axis];
363dd3f3SRob Suderman    if (std::fabs(rmax - rmin) < std::numeric_limits<double>::epsilon()) {
363dd3f3SRob Suderman      scales.push_back(1.0);
363dd3f3SRob Suderman      zeroPoints.push_back(qmin);
363dd3f3SRob Suderman      continue;
363dd3f3SRob Suderman    }
363dd3f3SRob Suderman
363dd3f3SRob Suderman    double scale;
363dd3f3SRob Suderman    int64_t nudgedZeroPoint;
363dd3f3SRob Suderman    getNudgedScaleAndZeroPoint(qmin, qmax, rmin, rmax, scale, nudgedZeroPoint);
363dd3f3SRob Suderman    scales.push_back(scale);
363dd3f3SRob Suderman    zeroPoints.push_back(nudgedZeroPoint);
363dd3f3SRob Suderman  }
363dd3f3SRob Suderman
363dd3f3SRob Suderman  unsigned flags = isSigned ? QuantizationFlags::Signed : 0;
363dd3f3SRob Suderman  return UniformQuantizedPerAxisType::getChecked(
06e25d56SRiver Riddle      loc, flags, storageType, expressedType, scales, zeroPoints,
06e25d56SRiver Riddle      quantizedDimension, qmin, qmax);
363dd3f3SRob Suderman}