lib/ExecutionEngine/Float16bits.cpp

ea8ed5cbSbixia1//===--- Float16bits.cpp - supports 2-byte floats  ------------------------===//
ea8ed5cbSbixia1//
ea8ed5cbSbixia1// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
ea8ed5cbSbixia1// See https://llvm.org/LICENSE.txt for license information.
ea8ed5cbSbixia1// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
ea8ed5cbSbixia1//
ea8ed5cbSbixia1//===----------------------------------------------------------------------===//
ea8ed5cbSbixia1//
ea8ed5cbSbixia1// This file implements f16 and bf16 to support the compilation and execution
ea8ed5cbSbixia1// of programs using these types.
ea8ed5cbSbixia1//
ea8ed5cbSbixia1//===----------------------------------------------------------------------===//
ea8ed5cbSbixia1
ea8ed5cbSbixia1#include "mlir/ExecutionEngine/Float16bits.h"
b3127769SBenjamin Kramer#include <cmath>
23637ca0SBenjamin Kramer#include <cstring>
ea8ed5cbSbixia1
ea8ed5cbSbixia1namespace {
ea8ed5cbSbixia1
ea8ed5cbSbixia1// Union used to make the int/float aliasing explicit so we can access the raw
ea8ed5cbSbixia1// bits.
ea8ed5cbSbixia1union Float32Bits {
ea8ed5cbSbixia1  uint32_t u;
ea8ed5cbSbixia1  float f;
ea8ed5cbSbixia1};
ea8ed5cbSbixia1
ea8ed5cbSbixia1const uint32_t kF32MantiBits = 23;
ea8ed5cbSbixia1const uint32_t kF32HalfMantiBitDiff = 13;
ea8ed5cbSbixia1const uint32_t kF32HalfBitDiff = 16;
ea8ed5cbSbixia1const Float32Bits kF32Magic = {113 << kF32MantiBits};
ea8ed5cbSbixia1const uint32_t kF32HalfExpAdjust = (127 - 15) << kF32MantiBits;
ea8ed5cbSbixia1
ea8ed5cbSbixia1// Constructs the 16 bit representation for a half precision value from a float
ea8ed5cbSbixia1// value. This implementation is adapted from Eigen.
ea8ed5cbSbixia1uint16_t float2half(float floatValue) {
ea8ed5cbSbixia1  const Float32Bits inf = {255 << kF32MantiBits};
ea8ed5cbSbixia1  const Float32Bits f16max = {(127 + 16) << kF32MantiBits};
ea8ed5cbSbixia1  const Float32Bits denormMagic = {((127 - 15) + (kF32MantiBits - 10) + 1)
ea8ed5cbSbixia1                                   << kF32MantiBits};
ea8ed5cbSbixia1  uint32_t signMask = 0x80000000u;
ea8ed5cbSbixia1  uint16_t halfValue = static_cast<uint16_t>(0x0u);
ea8ed5cbSbixia1  Float32Bits f;
ea8ed5cbSbixia1  f.f = floatValue;
ea8ed5cbSbixia1  uint32_t sign = f.u & signMask;
ea8ed5cbSbixia1  f.u ^= sign;
ea8ed5cbSbixia1
ea8ed5cbSbixia1  if (f.u >= f16max.u) {
ea8ed5cbSbixia1    const uint32_t halfQnan = 0x7e00;
ea8ed5cbSbixia1    const uint32_t halfInf = 0x7c00;
ea8ed5cbSbixia1    // Inf or NaN (all exponent bits set).
ea8ed5cbSbixia1    halfValue = (f.u > inf.u) ? halfQnan : halfInf; // NaN->qNaN and Inf->Inf
ea8ed5cbSbixia1  } else {
ea8ed5cbSbixia1    // (De)normalized number or zero.
ea8ed5cbSbixia1    if (f.u < kF32Magic.u) {
ea8ed5cbSbixia1      // The resulting FP16 is subnormal or zero.
ea8ed5cbSbixia1      //
ea8ed5cbSbixia1      // Use a magic value to align our 10 mantissa bits at the bottom of the
ea8ed5cbSbixia1      // float. As long as FP addition is round-to-nearest-even this works.
ea8ed5cbSbixia1      f.f += denormMagic.f;
ea8ed5cbSbixia1
ea8ed5cbSbixia1      halfValue = static_cast<uint16_t>(f.u - denormMagic.u);
ea8ed5cbSbixia1    } else {
ea8ed5cbSbixia1      uint32_t mantOdd =
ea8ed5cbSbixia1          (f.u >> kF32HalfMantiBitDiff) & 1; // Resulting mantissa is odd.
ea8ed5cbSbixia1
ea8ed5cbSbixia1      // Update exponent, rounding bias part 1. The following expressions are
ea8ed5cbSbixia1      // equivalent to `f.u += ((unsigned int)(15 - 127) << kF32MantiBits) +
ea8ed5cbSbixia1      // 0xfff`, but without arithmetic overflow.
ea8ed5cbSbixia1      f.u += 0xc8000fffU;
ea8ed5cbSbixia1      // Rounding bias part 2.
ea8ed5cbSbixia1      f.u += mantOdd;
ea8ed5cbSbixia1      halfValue = static_cast<uint16_t>(f.u >> kF32HalfMantiBitDiff);
ea8ed5cbSbixia1    }
ea8ed5cbSbixia1  }
ea8ed5cbSbixia1
ea8ed5cbSbixia1  halfValue |= static_cast<uint16_t>(sign >> kF32HalfBitDiff);
ea8ed5cbSbixia1  return halfValue;
ea8ed5cbSbixia1}
ea8ed5cbSbixia1
ea8ed5cbSbixia1// Converts the 16 bit representation of a half precision value to a float
ea8ed5cbSbixia1// value. This implementation is adapted from Eigen.
ea8ed5cbSbixia1float half2float(uint16_t halfValue) {
ea8ed5cbSbixia1  const uint32_t shiftedExp =
ea8ed5cbSbixia1      0x7c00 << kF32HalfMantiBitDiff; // Exponent mask after shift.
ea8ed5cbSbixia1
ea8ed5cbSbixia1  // Initialize the float representation with the exponent/mantissa bits.
ea8ed5cbSbixia1  Float32Bits f = {
ea8ed5cbSbixia1      static_cast<uint32_t>((halfValue & 0x7fff) << kF32HalfMantiBitDiff)};
ea8ed5cbSbixia1  const uint32_t exp = shiftedExp & f.u;
ea8ed5cbSbixia1  f.u += kF32HalfExpAdjust; // Adjust the exponent
ea8ed5cbSbixia1
ea8ed5cbSbixia1  // Handle exponent special cases.
ea8ed5cbSbixia1  if (exp == shiftedExp) {
ea8ed5cbSbixia1    // Inf/NaN
ea8ed5cbSbixia1    f.u += kF32HalfExpAdjust;
ea8ed5cbSbixia1  } else if (exp == 0) {
ea8ed5cbSbixia1    // Zero/Denormal?
ea8ed5cbSbixia1    f.u += 1 << kF32MantiBits;
ea8ed5cbSbixia1    f.f -= kF32Magic.f;
ea8ed5cbSbixia1  }
ea8ed5cbSbixia1
ea8ed5cbSbixia1  f.u |= (halfValue & 0x8000) << kF32HalfBitDiff; // Sign bit.
ea8ed5cbSbixia1  return f.f;
ea8ed5cbSbixia1}
ea8ed5cbSbixia1
ea8ed5cbSbixia1const uint32_t kF32BfMantiBitDiff = 16;
ea8ed5cbSbixia1
ea8ed5cbSbixia1// Constructs the 16 bit representation for a bfloat value from a float value.
ea8ed5cbSbixia1// This implementation is adapted from Eigen.
ea8ed5cbSbixia1uint16_t float2bfloat(float floatValue) {
b3127769SBenjamin Kramer  if (std::isnan(floatValue))
b3127769SBenjamin Kramer    return std::signbit(floatValue) ? 0xFFC0 : 0x7FC0;
b3127769SBenjamin Kramer
ea8ed5cbSbixia1  Float32Bits floatBits;
ea8ed5cbSbixia1  floatBits.f = floatValue;
ea8ed5cbSbixia1  uint16_t bfloatBits;
ea8ed5cbSbixia1
ea8ed5cbSbixia1  // Least significant bit of resulting bfloat.
ea8ed5cbSbixia1  uint32_t lsb = (floatBits.u >> kF32BfMantiBitDiff) & 1;
be799722SMehdi Amini  uint32_t roundingBias = 0x7fff + lsb;
be799722SMehdi Amini  floatBits.u += roundingBias;
ea8ed5cbSbixia1  bfloatBits = static_cast<uint16_t>(floatBits.u >> kF32BfMantiBitDiff);
ea8ed5cbSbixia1  return bfloatBits;
ea8ed5cbSbixia1}
ea8ed5cbSbixia1
ea8ed5cbSbixia1// Converts the 16 bit representation of a bfloat value to a float value. This
ea8ed5cbSbixia1// implementation is adapted from Eigen.
ea8ed5cbSbixia1float bfloat2float(uint16_t bfloatBits) {
ea8ed5cbSbixia1  Float32Bits floatBits;
ea8ed5cbSbixia1  floatBits.u = static_cast<uint32_t>(bfloatBits) << kF32BfMantiBitDiff;
ea8ed5cbSbixia1  return floatBits.f;
ea8ed5cbSbixia1}
ea8ed5cbSbixia1
ea8ed5cbSbixia1} // namespace
ea8ed5cbSbixia1
ea8ed5cbSbixia1f16::f16(float f) : bits(float2half(f)) {}
ea8ed5cbSbixia1
ea8ed5cbSbixia1bf16::bf16(float f) : bits(float2bfloat(f)) {}
ea8ed5cbSbixia1
ea8ed5cbSbixia1std::ostream &operator<<(std::ostream &os, const f16 &f) {
ea8ed5cbSbixia1  os << half2float(f.bits);
ea8ed5cbSbixia1  return os;
ea8ed5cbSbixia1}
ea8ed5cbSbixia1
ea8ed5cbSbixia1std::ostream &operator<<(std::ostream &os, const bf16 &d) {
ea8ed5cbSbixia1  os << bfloat2float(d.bits);
ea8ed5cbSbixia1  return os;
ea8ed5cbSbixia1}
3420cd7cSBenjamin Kramer
23637ca0SBenjamin Kramer// Mark these symbols as weak so they don't conflict when compiler-rt also
23637ca0SBenjamin Kramer// defines them.
23637ca0SBenjamin Kramer#define ATTR_WEAK
745a4caaSBenjamin Kramer#ifdef __has_attribute
745a4caaSBenjamin Kramer#if __has_attribute(weak) && !defined(__MINGW32__) && !defined(__CYGWIN__) &&  \
745a4caaSBenjamin Kramer    !defined(_WIN32)
23637ca0SBenjamin Kramer#undef ATTR_WEAK
23637ca0SBenjamin Kramer#define ATTR_WEAK __attribute__((__weak__))
d5c29b23SBenjamin Kramer#endif
745a4caaSBenjamin Kramer#endif
23637ca0SBenjamin Kramer
23637ca0SBenjamin Kramer#if defined(__x86_64__)
*fbd2950dSBenjamin Kramer// On x86 bfloat16 is passed in SSE registers. Since both float and __bf16
23637ca0SBenjamin Kramer// are passed in the same register we can use the wider type and careful casting
23637ca0SBenjamin Kramer// to conform to x86_64 psABI. This only works with the assumption that we're
23637ca0SBenjamin Kramer// dealing with little-endian values passed in wider registers.
*fbd2950dSBenjamin Kramer// Ideally this would directly use __bf16, but that type isn't supported by all
*fbd2950dSBenjamin Kramer// compilers.
23637ca0SBenjamin Kramerusing BF16ABIType = float;
23637ca0SBenjamin Kramer#else
23637ca0SBenjamin Kramer// Default to uint16_t if we have nothing else.
23637ca0SBenjamin Kramerusing BF16ABIType = uint16_t;
23637ca0SBenjamin Kramer#endif
23637ca0SBenjamin Kramer
23637ca0SBenjamin Kramer// Provide a float->bfloat conversion routine in case the runtime doesn't have
23637ca0SBenjamin Kramer// one.
23637ca0SBenjamin Kramerextern "C" BF16ABIType ATTR_WEAK __truncsfbf2(float f) {
23637ca0SBenjamin Kramer  uint16_t bf = float2bfloat(f);
23637ca0SBenjamin Kramer  // The output can be a float type, bitcast it from uint16_t.
23637ca0SBenjamin Kramer  BF16ABIType ret = 0;
23637ca0SBenjamin Kramer  std::memcpy(&ret, &bf, sizeof(bf));
23637ca0SBenjamin Kramer  return ret;
3420cd7cSBenjamin Kramer}
3420cd7cSBenjamin Kramer
3420cd7cSBenjamin Kramer// Provide a double->bfloat conversion routine in case the runtime doesn't have
3420cd7cSBenjamin Kramer// one.
23637ca0SBenjamin Kramerextern "C" BF16ABIType ATTR_WEAK __truncdfbf2(double d) {
3420cd7cSBenjamin Kramer  // This does a double rounding step, but it's precise enough for our use
3420cd7cSBenjamin Kramer  // cases.
*fbd2950dSBenjamin Kramer  return __truncsfbf2(static_cast<float>(d));
3420cd7cSBenjamin Kramer}