softfloat/bits64/softfloat.c

c36abe0dSDavid Schultz/* $NetBSD: softfloat.c,v 1.8 2011/07/10 04:52:23 matt Exp $ */
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard * This version hacked for use with gcc -msoft-float by bjh21.
15144b0fSOlivier Houchard * (Mostly a case of #ifdefing out things GCC doesn't need or provides
15144b0fSOlivier Houchard *  itself).
15144b0fSOlivier Houchard */
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard * Things you may want to define:
15144b0fSOlivier Houchard *
15144b0fSOlivier Houchard * SOFTFLOAT_FOR_GCC - build only those functions necessary for GCC (with
15144b0fSOlivier Houchard *   -msoft-float) to work.  Include "softfloat-for-gcc.h" to get them
15144b0fSOlivier Houchard *   properly renamed.
15144b0fSOlivier Houchard */
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard===============================================================================
15144b0fSOlivier Houchard
15144b0fSOlivier HouchardThis C source file is part of the SoftFloat IEC/IEEE Floating-point
15144b0fSOlivier HouchardArithmetic Package, Release 2a.
15144b0fSOlivier Houchard
15144b0fSOlivier HouchardWritten by John R. Hauser.  This work was made possible in part by the
15144b0fSOlivier HouchardInternational Computer Science Institute, located at Suite 600, 1947 Center
15144b0fSOlivier HouchardStreet, Berkeley, California 94704.  Funding was partially provided by the
15144b0fSOlivier HouchardNational Science Foundation under grant MIP-9311980.  The original version
15144b0fSOlivier Houchardof this code was written as part of a project to build a fixed-point vector
15144b0fSOlivier Houchardprocessor in collaboration with the University of California at Berkeley,
15144b0fSOlivier Houchardoverseen by Profs. Nelson Morgan and John Wawrzynek.  More information
15144b0fSOlivier Houchardis available through the Web page `http://HTTP.CS.Berkeley.EDU/~jhauser/
15144b0fSOlivier Houchardarithmetic/SoftFloat.html'.
15144b0fSOlivier Houchard
15144b0fSOlivier HouchardTHIS SOFTWARE IS DISTRIBUTED AS IS, FOR FREE.  Although reasonable effort
15144b0fSOlivier Houchardhas been made to avoid it, THIS SOFTWARE MAY CONTAIN FAULTS THAT WILL AT
15144b0fSOlivier HouchardTIMES RESULT IN INCORRECT BEHAVIOR.  USE OF THIS SOFTWARE IS RESTRICTED TO
15144b0fSOlivier HouchardPERSONS AND ORGANIZATIONS WHO CAN AND WILL TAKE FULL RESPONSIBILITY FOR ANY
15144b0fSOlivier HouchardAND ALL LOSSES, COSTS, OR OTHER PROBLEMS ARISING FROM ITS USE.
15144b0fSOlivier Houchard
15144b0fSOlivier HouchardDerivative works are acceptable, even for commercial purposes, so long as
15144b0fSOlivier Houchard(1) they include prominent notice that the work is derivative, and (2) they
15144b0fSOlivier Houchardinclude prominent notice akin to these four paragraphs for those parts of
15144b0fSOlivier Houchardthis code that are retained.
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard===============================================================================
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard#include <sys/cdefs.h>
15144b0fSOlivier Houchard__FBSDID("$FreeBSD$");
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard#ifdef SOFTFLOAT_FOR_GCC
15144b0fSOlivier Houchard#include "softfloat-for-gcc.h"
15144b0fSOlivier Houchard#endif
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard#include "milieu.h"
15144b0fSOlivier Houchard#include "softfloat.h"
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard * Conversions between floats as stored in memory and floats as
15144b0fSOlivier Houchard * SoftFloat uses them
15144b0fSOlivier Houchard */
15144b0fSOlivier Houchard#ifndef FLOAT64_DEMANGLE
15144b0fSOlivier Houchard#define FLOAT64_DEMANGLE(a)	(a)
15144b0fSOlivier Houchard#endif
15144b0fSOlivier Houchard#ifndef FLOAT64_MANGLE
15144b0fSOlivier Houchard#define FLOAT64_MANGLE(a)	(a)
15144b0fSOlivier Houchard#endif
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardFloating-point rounding mode, extended double-precision rounding precision,
15144b0fSOlivier Houchardand exception flags.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
b1d04644SDavid Schultzint float_rounding_mode = float_round_nearest_even;
b1d04644SDavid Schultzint float_exception_flags = 0;
15144b0fSOlivier Houchard#ifdef FLOATX80
15144b0fSOlivier Houchardint8 floatx80_rounding_precision = 80;
15144b0fSOlivier Houchard#endif
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardPrimitive arithmetic functions, including multi-word arithmetic, and
15144b0fSOlivier Houcharddivision and square root approximations.  (Can be specialized to target if
15144b0fSOlivier Houcharddesired.)
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchard#include "softfloat-macros"
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardFunctions and definitions to determine:  (1) whether tininess for underflow
15144b0fSOlivier Houchardis detected before or after rounding by default, (2) what (if anything)
15144b0fSOlivier Houchardhappens when exceptions are raised, (3) how signaling NaNs are distinguished
15144b0fSOlivier Houchardfrom quiet NaNs, (4) the default generated quiet NaNs, and (5) how NaNs
15144b0fSOlivier Houchardare propagated from function inputs to output.  These details are target-
15144b0fSOlivier Houchardspecific.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchard#include "softfloat-specialize"
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard#if !defined(SOFTFLOAT_FOR_GCC) || defined(FLOATX80) || defined(FLOAT128)
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardTakes a 64-bit fixed-point value `absZ' with binary point between bits 6
15144b0fSOlivier Houchardand 7, and returns the properly rounded 32-bit integer corresponding to the
15144b0fSOlivier Houchardinput.  If `zSign' is 1, the input is negated before being converted to an
15144b0fSOlivier Houchardinteger.  Bit 63 of `absZ' must be zero.  Ordinarily, the fixed-point input
15144b0fSOlivier Houchardis simply rounded to an integer, with the inexact exception raised if the
15144b0fSOlivier Houchardinput cannot be represented exactly as an integer.  However, if the fixed-
15144b0fSOlivier Houchardpoint input is too large, the invalid exception is raised and the largest
15144b0fSOlivier Houchardpositive or negative integer is returned.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardstatic int32 roundAndPackInt32( flag zSign, bits64 absZ )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    int8 roundingMode;
15144b0fSOlivier Houchard    flag roundNearestEven;
15144b0fSOlivier Houchard    int8 roundIncrement, roundBits;
15144b0fSOlivier Houchard    int32 z;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    roundingMode = float_rounding_mode;
15144b0fSOlivier Houchard    roundNearestEven = ( roundingMode == float_round_nearest_even );
15144b0fSOlivier Houchard    roundIncrement = 0x40;
15144b0fSOlivier Houchard    if ( ! roundNearestEven ) {
15144b0fSOlivier Houchard        if ( roundingMode == float_round_to_zero ) {
15144b0fSOlivier Houchard            roundIncrement = 0;
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        else {
15144b0fSOlivier Houchard            roundIncrement = 0x7F;
15144b0fSOlivier Houchard            if ( zSign ) {
15144b0fSOlivier Houchard                if ( roundingMode == float_round_up ) roundIncrement = 0;
15144b0fSOlivier Houchard            }
15144b0fSOlivier Houchard            else {
15144b0fSOlivier Houchard                if ( roundingMode == float_round_down ) roundIncrement = 0;
15144b0fSOlivier Houchard            }
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    roundBits = absZ & 0x7F;
15144b0fSOlivier Houchard    absZ = ( absZ + roundIncrement )>>7;
15144b0fSOlivier Houchard    absZ &= ~ ( ( ( roundBits ^ 0x40 ) == 0 ) & roundNearestEven );
15144b0fSOlivier Houchard    z = absZ;
15144b0fSOlivier Houchard    if ( zSign ) z = - z;
15144b0fSOlivier Houchard    if ( ( absZ>>32 ) || ( z && ( ( z < 0 ) ^ zSign ) ) ) {
15144b0fSOlivier Houchard        float_raise( float_flag_invalid );
15144b0fSOlivier Houchard        return zSign ? (sbits32) 0x80000000 : 0x7FFFFFFF;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( roundBits ) float_exception_flags |= float_flag_inexact;
15144b0fSOlivier Houchard    return z;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardTakes the 128-bit fixed-point value formed by concatenating `absZ0' and
15144b0fSOlivier Houchard`absZ1', with binary point between bits 63 and 64 (between the input words),
15144b0fSOlivier Houchardand returns the properly rounded 64-bit integer corresponding to the input.
15144b0fSOlivier HouchardIf `zSign' is 1, the input is negated before being converted to an integer.
15144b0fSOlivier HouchardOrdinarily, the fixed-point input is simply rounded to an integer, with
15144b0fSOlivier Houchardthe inexact exception raised if the input cannot be represented exactly as
15144b0fSOlivier Houchardan integer.  However, if the fixed-point input is too large, the invalid
15144b0fSOlivier Houchardexception is raised and the largest positive or negative integer is
15144b0fSOlivier Houchardreturned.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardstatic int64 roundAndPackInt64( flag zSign, bits64 absZ0, bits64 absZ1 )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    int8 roundingMode;
15144b0fSOlivier Houchard    flag roundNearestEven, increment;
15144b0fSOlivier Houchard    int64 z;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    roundingMode = float_rounding_mode;
15144b0fSOlivier Houchard    roundNearestEven = ( roundingMode == float_round_nearest_even );
15144b0fSOlivier Houchard    increment = ( (sbits64) absZ1 < 0 );
15144b0fSOlivier Houchard    if ( ! roundNearestEven ) {
15144b0fSOlivier Houchard        if ( roundingMode == float_round_to_zero ) {
15144b0fSOlivier Houchard            increment = 0;
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        else {
15144b0fSOlivier Houchard            if ( zSign ) {
15144b0fSOlivier Houchard                increment = ( roundingMode == float_round_down ) && absZ1;
15144b0fSOlivier Houchard            }
15144b0fSOlivier Houchard            else {
15144b0fSOlivier Houchard                increment = ( roundingMode == float_round_up ) && absZ1;
15144b0fSOlivier Houchard            }
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( increment ) {
15144b0fSOlivier Houchard        ++absZ0;
15144b0fSOlivier Houchard        if ( absZ0 == 0 ) goto overflow;
15144b0fSOlivier Houchard        absZ0 &= ~ ( ( (bits64) ( absZ1<<1 ) == 0 ) & roundNearestEven );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    z = absZ0;
15144b0fSOlivier Houchard    if ( zSign ) z = - z;
15144b0fSOlivier Houchard    if ( z && ( ( z < 0 ) ^ zSign ) ) {
15144b0fSOlivier Houchard overflow:
15144b0fSOlivier Houchard        float_raise( float_flag_invalid );
15144b0fSOlivier Houchard        return
15144b0fSOlivier Houchard              zSign ? (sbits64) LIT64( 0x8000000000000000 )
15144b0fSOlivier Houchard            : LIT64( 0x7FFFFFFFFFFFFFFF );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( absZ1 ) float_exception_flags |= float_flag_inexact;
15144b0fSOlivier Houchard    return z;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard#endif
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns the fraction bits of the single-precision floating-point value `a'.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier HouchardINLINE bits32 extractFloat32Frac( float32 a )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    return a & 0x007FFFFF;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns the exponent bits of the single-precision floating-point value `a'.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier HouchardINLINE int16 extractFloat32Exp( float32 a )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    return ( a>>23 ) & 0xFF;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns the sign bit of the single-precision floating-point value `a'.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier HouchardINLINE flag extractFloat32Sign( float32 a )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    return a>>31;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardNormalizes the subnormal single-precision floating-point value represented
15144b0fSOlivier Houchardby the denormalized significand `aSig'.  The normalized exponent and
15144b0fSOlivier Houchardsignificand are stored at the locations pointed to by `zExpPtr' and
15144b0fSOlivier Houchard`zSigPtr', respectively.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardstatic void
15144b0fSOlivier Houchard normalizeFloat32Subnormal( bits32 aSig, int16 *zExpPtr, bits32 *zSigPtr )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    int8 shiftCount;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    shiftCount = countLeadingZeros32( aSig ) - 8;
15144b0fSOlivier Houchard    *zSigPtr = aSig<<shiftCount;
15144b0fSOlivier Houchard    *zExpPtr = 1 - shiftCount;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardPacks the sign `zSign', exponent `zExp', and significand `zSig' into a
15144b0fSOlivier Houchardsingle-precision floating-point value, returning the result.  After being
15144b0fSOlivier Houchardshifted into the proper positions, the three fields are simply added
15144b0fSOlivier Houchardtogether to form the result.  This means that any integer portion of `zSig'
15144b0fSOlivier Houchardwill be added into the exponent.  Since a properly normalized significand
15144b0fSOlivier Houchardwill have an integer portion equal to 1, the `zExp' input should be 1 less
15144b0fSOlivier Houchardthan the desired result exponent whenever `zSig' is a complete, normalized
15144b0fSOlivier Houchardsignificand.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier HouchardINLINE float32 packFloat32( flag zSign, int16 zExp, bits32 zSig )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    return ( ( (bits32) zSign )<<31 ) + ( ( (bits32) zExp )<<23 ) + zSig;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardTakes an abstract floating-point value having sign `zSign', exponent `zExp',
15144b0fSOlivier Houchardand significand `zSig', and returns the proper single-precision floating-
15144b0fSOlivier Houchardpoint value corresponding to the abstract input.  Ordinarily, the abstract
15144b0fSOlivier Houchardvalue is simply rounded and packed into the single-precision format, with
15144b0fSOlivier Houchardthe inexact exception raised if the abstract input cannot be represented
15144b0fSOlivier Houchardexactly.  However, if the abstract value is too large, the overflow and
15144b0fSOlivier Houchardinexact exceptions are raised and an infinity or maximal finite value is
15144b0fSOlivier Houchardreturned.  If the abstract value is too small, the input value is rounded to
15144b0fSOlivier Houcharda subnormal number, and the underflow and inexact exceptions are raised if
15144b0fSOlivier Houchardthe abstract input cannot be represented exactly as a subnormal single-
15144b0fSOlivier Houchardprecision floating-point number.
15144b0fSOlivier Houchard    The input significand `zSig' has its binary point between bits 30
15144b0fSOlivier Houchardand 29, which is 7 bits to the left of the usual location.  This shifted
15144b0fSOlivier Houchardsignificand must be normalized or smaller.  If `zSig' is not normalized,
15144b0fSOlivier Houchard`zExp' must be 0; in that case, the result returned is a subnormal number,
15144b0fSOlivier Houchardand it must not require rounding.  In the usual case that `zSig' is
15144b0fSOlivier Houchardnormalized, `zExp' must be 1 less than the ``true'' floating-point exponent.
15144b0fSOlivier HouchardThe handling of underflow and overflow follows the IEC/IEEE Standard for
15144b0fSOlivier HouchardBinary Floating-Point Arithmetic.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardstatic float32 roundAndPackFloat32( flag zSign, int16 zExp, bits32 zSig )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    int8 roundingMode;
15144b0fSOlivier Houchard    flag roundNearestEven;
15144b0fSOlivier Houchard    int8 roundIncrement, roundBits;
15144b0fSOlivier Houchard    flag isTiny;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    roundingMode = float_rounding_mode;
15144b0fSOlivier Houchard    roundNearestEven = ( roundingMode == float_round_nearest_even );
15144b0fSOlivier Houchard    roundIncrement = 0x40;
15144b0fSOlivier Houchard    if ( ! roundNearestEven ) {
15144b0fSOlivier Houchard        if ( roundingMode == float_round_to_zero ) {
15144b0fSOlivier Houchard            roundIncrement = 0;
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        else {
15144b0fSOlivier Houchard            roundIncrement = 0x7F;
15144b0fSOlivier Houchard            if ( zSign ) {
15144b0fSOlivier Houchard                if ( roundingMode == float_round_up ) roundIncrement = 0;
15144b0fSOlivier Houchard            }
15144b0fSOlivier Houchard            else {
15144b0fSOlivier Houchard                if ( roundingMode == float_round_down ) roundIncrement = 0;
15144b0fSOlivier Houchard            }
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    roundBits = zSig & 0x7F;
15144b0fSOlivier Houchard    if ( 0xFD <= (bits16) zExp ) {
15144b0fSOlivier Houchard        if (    ( 0xFD < zExp )
15144b0fSOlivier Houchard             || (    ( zExp == 0xFD )
15144b0fSOlivier Houchard                  && ( (sbits32) ( zSig + roundIncrement ) < 0 ) )
15144b0fSOlivier Houchard           ) {
15144b0fSOlivier Houchard            float_raise( float_flag_overflow | float_flag_inexact );
15144b0fSOlivier Houchard            return packFloat32( zSign, 0xFF, 0 ) - ( roundIncrement == 0 );
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        if ( zExp < 0 ) {
15144b0fSOlivier Houchard            isTiny =
15144b0fSOlivier Houchard                   ( float_detect_tininess == float_tininess_before_rounding )
15144b0fSOlivier Houchard                || ( zExp < -1 )
15144b0fSOlivier Houchard                || ( zSig + roundIncrement < 0x80000000 );
15144b0fSOlivier Houchard            shift32RightJamming( zSig, - zExp, &zSig );
15144b0fSOlivier Houchard            zExp = 0;
15144b0fSOlivier Houchard            roundBits = zSig & 0x7F;
15144b0fSOlivier Houchard            if ( isTiny && roundBits ) float_raise( float_flag_underflow );
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( roundBits ) float_exception_flags |= float_flag_inexact;
15144b0fSOlivier Houchard    zSig = ( zSig + roundIncrement )>>7;
15144b0fSOlivier Houchard    zSig &= ~ ( ( ( roundBits ^ 0x40 ) == 0 ) & roundNearestEven );
15144b0fSOlivier Houchard    if ( zSig == 0 ) zExp = 0;
15144b0fSOlivier Houchard    return packFloat32( zSign, zExp, zSig );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardTakes an abstract floating-point value having sign `zSign', exponent `zExp',
15144b0fSOlivier Houchardand significand `zSig', and returns the proper single-precision floating-
15144b0fSOlivier Houchardpoint value corresponding to the abstract input.  This routine is just like
15144b0fSOlivier Houchard`roundAndPackFloat32' except that `zSig' does not have to be normalized.
15144b0fSOlivier HouchardBit 31 of `zSig' must be zero, and `zExp' must be 1 less than the ``true''
15144b0fSOlivier Houchardfloating-point exponent.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardstatic float32
15144b0fSOlivier Houchard normalizeRoundAndPackFloat32( flag zSign, int16 zExp, bits32 zSig )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    int8 shiftCount;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    shiftCount = countLeadingZeros32( zSig ) - 1;
15144b0fSOlivier Houchard    return roundAndPackFloat32( zSign, zExp - shiftCount, zSig<<shiftCount );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns the fraction bits of the double-precision floating-point value `a'.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier HouchardINLINE bits64 extractFloat64Frac( float64 a )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    return FLOAT64_DEMANGLE(a) & LIT64( 0x000FFFFFFFFFFFFF );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns the exponent bits of the double-precision floating-point value `a'.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier HouchardINLINE int16 extractFloat64Exp( float64 a )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    return ( FLOAT64_DEMANGLE(a)>>52 ) & 0x7FF;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns the sign bit of the double-precision floating-point value `a'.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier HouchardINLINE flag extractFloat64Sign( float64 a )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    return FLOAT64_DEMANGLE(a)>>63;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardNormalizes the subnormal double-precision floating-point value represented
15144b0fSOlivier Houchardby the denormalized significand `aSig'.  The normalized exponent and
15144b0fSOlivier Houchardsignificand are stored at the locations pointed to by `zExpPtr' and
15144b0fSOlivier Houchard`zSigPtr', respectively.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardstatic void
15144b0fSOlivier Houchard normalizeFloat64Subnormal( bits64 aSig, int16 *zExpPtr, bits64 *zSigPtr )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    int8 shiftCount;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    shiftCount = countLeadingZeros64( aSig ) - 11;
15144b0fSOlivier Houchard    *zSigPtr = aSig<<shiftCount;
15144b0fSOlivier Houchard    *zExpPtr = 1 - shiftCount;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardPacks the sign `zSign', exponent `zExp', and significand `zSig' into a
15144b0fSOlivier Houcharddouble-precision floating-point value, returning the result.  After being
15144b0fSOlivier Houchardshifted into the proper positions, the three fields are simply added
15144b0fSOlivier Houchardtogether to form the result.  This means that any integer portion of `zSig'
15144b0fSOlivier Houchardwill be added into the exponent.  Since a properly normalized significand
15144b0fSOlivier Houchardwill have an integer portion equal to 1, the `zExp' input should be 1 less
15144b0fSOlivier Houchardthan the desired result exponent whenever `zSig' is a complete, normalized
15144b0fSOlivier Houchardsignificand.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier HouchardINLINE float64 packFloat64( flag zSign, int16 zExp, bits64 zSig )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    return FLOAT64_MANGLE( ( ( (bits64) zSign )<<63 ) +
15144b0fSOlivier Houchard			   ( ( (bits64) zExp )<<52 ) + zSig );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardTakes an abstract floating-point value having sign `zSign', exponent `zExp',
15144b0fSOlivier Houchardand significand `zSig', and returns the proper double-precision floating-
15144b0fSOlivier Houchardpoint value corresponding to the abstract input.  Ordinarily, the abstract
15144b0fSOlivier Houchardvalue is simply rounded and packed into the double-precision format, with
15144b0fSOlivier Houchardthe inexact exception raised if the abstract input cannot be represented
15144b0fSOlivier Houchardexactly.  However, if the abstract value is too large, the overflow and
15144b0fSOlivier Houchardinexact exceptions are raised and an infinity or maximal finite value is
15144b0fSOlivier Houchardreturned.  If the abstract value is too small, the input value is rounded to
15144b0fSOlivier Houcharda subnormal number, and the underflow and inexact exceptions are raised if
15144b0fSOlivier Houchardthe abstract input cannot be represented exactly as a subnormal double-
15144b0fSOlivier Houchardprecision floating-point number.
15144b0fSOlivier Houchard    The input significand `zSig' has its binary point between bits 62
15144b0fSOlivier Houchardand 61, which is 10 bits to the left of the usual location.  This shifted
15144b0fSOlivier Houchardsignificand must be normalized or smaller.  If `zSig' is not normalized,
15144b0fSOlivier Houchard`zExp' must be 0; in that case, the result returned is a subnormal number,
15144b0fSOlivier Houchardand it must not require rounding.  In the usual case that `zSig' is
15144b0fSOlivier Houchardnormalized, `zExp' must be 1 less than the ``true'' floating-point exponent.
15144b0fSOlivier HouchardThe handling of underflow and overflow follows the IEC/IEEE Standard for
15144b0fSOlivier HouchardBinary Floating-Point Arithmetic.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardstatic float64 roundAndPackFloat64( flag zSign, int16 zExp, bits64 zSig )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    int8 roundingMode;
15144b0fSOlivier Houchard    flag roundNearestEven;
15144b0fSOlivier Houchard    int16 roundIncrement, roundBits;
15144b0fSOlivier Houchard    flag isTiny;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    roundingMode = float_rounding_mode;
15144b0fSOlivier Houchard    roundNearestEven = ( roundingMode == float_round_nearest_even );
15144b0fSOlivier Houchard    roundIncrement = 0x200;
15144b0fSOlivier Houchard    if ( ! roundNearestEven ) {
15144b0fSOlivier Houchard        if ( roundingMode == float_round_to_zero ) {
15144b0fSOlivier Houchard            roundIncrement = 0;
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        else {
15144b0fSOlivier Houchard            roundIncrement = 0x3FF;
15144b0fSOlivier Houchard            if ( zSign ) {
15144b0fSOlivier Houchard                if ( roundingMode == float_round_up ) roundIncrement = 0;
15144b0fSOlivier Houchard            }
15144b0fSOlivier Houchard            else {
15144b0fSOlivier Houchard                if ( roundingMode == float_round_down ) roundIncrement = 0;
15144b0fSOlivier Houchard            }
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    roundBits = zSig & 0x3FF;
15144b0fSOlivier Houchard    if ( 0x7FD <= (bits16) zExp ) {
15144b0fSOlivier Houchard        if (    ( 0x7FD < zExp )
15144b0fSOlivier Houchard             || (    ( zExp == 0x7FD )
15144b0fSOlivier Houchard                  && ( (sbits64) ( zSig + roundIncrement ) < 0 ) )
15144b0fSOlivier Houchard           ) {
15144b0fSOlivier Houchard            float_raise( float_flag_overflow | float_flag_inexact );
15144b0fSOlivier Houchard            return FLOAT64_MANGLE(
15144b0fSOlivier Houchard		FLOAT64_DEMANGLE(packFloat64( zSign, 0x7FF, 0 )) -
15144b0fSOlivier Houchard		( roundIncrement == 0 ));
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        if ( zExp < 0 ) {
15144b0fSOlivier Houchard            isTiny =
15144b0fSOlivier Houchard                   ( float_detect_tininess == float_tininess_before_rounding )
15144b0fSOlivier Houchard                || ( zExp < -1 )
15144b0fSOlivier Houchard                || ( zSig + roundIncrement < LIT64( 0x8000000000000000 ) );
15144b0fSOlivier Houchard            shift64RightJamming( zSig, - zExp, &zSig );
15144b0fSOlivier Houchard            zExp = 0;
15144b0fSOlivier Houchard            roundBits = zSig & 0x3FF;
15144b0fSOlivier Houchard            if ( isTiny && roundBits ) float_raise( float_flag_underflow );
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( roundBits ) float_exception_flags |= float_flag_inexact;
15144b0fSOlivier Houchard    zSig = ( zSig + roundIncrement )>>10;
15144b0fSOlivier Houchard    zSig &= ~ ( ( ( roundBits ^ 0x200 ) == 0 ) & roundNearestEven );
15144b0fSOlivier Houchard    if ( zSig == 0 ) zExp = 0;
15144b0fSOlivier Houchard    return packFloat64( zSign, zExp, zSig );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardTakes an abstract floating-point value having sign `zSign', exponent `zExp',
15144b0fSOlivier Houchardand significand `zSig', and returns the proper double-precision floating-
15144b0fSOlivier Houchardpoint value corresponding to the abstract input.  This routine is just like
15144b0fSOlivier Houchard`roundAndPackFloat64' except that `zSig' does not have to be normalized.
15144b0fSOlivier HouchardBit 63 of `zSig' must be zero, and `zExp' must be 1 less than the ``true''
15144b0fSOlivier Houchardfloating-point exponent.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardstatic float64
15144b0fSOlivier Houchard normalizeRoundAndPackFloat64( flag zSign, int16 zExp, bits64 zSig )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    int8 shiftCount;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    shiftCount = countLeadingZeros64( zSig ) - 1;
15144b0fSOlivier Houchard    return roundAndPackFloat64( zSign, zExp - shiftCount, zSig<<shiftCount );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard#ifdef FLOATX80
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns the fraction bits of the extended double-precision floating-point
15144b0fSOlivier Houchardvalue `a'.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier HouchardINLINE bits64 extractFloatx80Frac( floatx80 a )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    return a.low;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns the exponent bits of the extended double-precision floating-point
15144b0fSOlivier Houchardvalue `a'.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier HouchardINLINE int32 extractFloatx80Exp( floatx80 a )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    return a.high & 0x7FFF;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns the sign bit of the extended double-precision floating-point value
15144b0fSOlivier Houchard`a'.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier HouchardINLINE flag extractFloatx80Sign( floatx80 a )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    return a.high>>15;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardNormalizes the subnormal extended double-precision floating-point value
15144b0fSOlivier Houchardrepresented by the denormalized significand `aSig'.  The normalized exponent
15144b0fSOlivier Houchardand significand are stored at the locations pointed to by `zExpPtr' and
15144b0fSOlivier Houchard`zSigPtr', respectively.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardstatic void
15144b0fSOlivier Houchard normalizeFloatx80Subnormal( bits64 aSig, int32 *zExpPtr, bits64 *zSigPtr )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    int8 shiftCount;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    shiftCount = countLeadingZeros64( aSig );
15144b0fSOlivier Houchard    *zSigPtr = aSig<<shiftCount;
15144b0fSOlivier Houchard    *zExpPtr = 1 - shiftCount;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardPacks the sign `zSign', exponent `zExp', and significand `zSig' into an
15144b0fSOlivier Houchardextended double-precision floating-point value, returning the result.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier HouchardINLINE floatx80 packFloatx80( flag zSign, int32 zExp, bits64 zSig )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    floatx80 z;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    z.low = zSig;
15144b0fSOlivier Houchard    z.high = ( ( (bits16) zSign )<<15 ) + zExp;
15144b0fSOlivier Houchard    return z;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardTakes an abstract floating-point value having sign `zSign', exponent `zExp',
15144b0fSOlivier Houchardand extended significand formed by the concatenation of `zSig0' and `zSig1',
15144b0fSOlivier Houchardand returns the proper extended double-precision floating-point value
15144b0fSOlivier Houchardcorresponding to the abstract input.  Ordinarily, the abstract value is
15144b0fSOlivier Houchardrounded and packed into the extended double-precision format, with the
15144b0fSOlivier Houchardinexact exception raised if the abstract input cannot be represented
15144b0fSOlivier Houchardexactly.  However, if the abstract value is too large, the overflow and
15144b0fSOlivier Houchardinexact exceptions are raised and an infinity or maximal finite value is
15144b0fSOlivier Houchardreturned.  If the abstract value is too small, the input value is rounded to
15144b0fSOlivier Houcharda subnormal number, and the underflow and inexact exceptions are raised if
15144b0fSOlivier Houchardthe abstract input cannot be represented exactly as a subnormal extended
15144b0fSOlivier Houcharddouble-precision floating-point number.
15144b0fSOlivier Houchard    If `roundingPrecision' is 32 or 64, the result is rounded to the same
15144b0fSOlivier Houchardnumber of bits as single or double precision, respectively.  Otherwise, the
15144b0fSOlivier Houchardresult is rounded to the full precision of the extended double-precision
15144b0fSOlivier Houchardformat.
15144b0fSOlivier Houchard    The input significand must be normalized or smaller.  If the input
15144b0fSOlivier Houchardsignificand is not normalized, `zExp' must be 0; in that case, the result
15144b0fSOlivier Houchardreturned is a subnormal number, and it must not require rounding.  The
15144b0fSOlivier Houchardhandling of underflow and overflow follows the IEC/IEEE Standard for Binary
15144b0fSOlivier HouchardFloating-Point Arithmetic.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardstatic floatx80
15144b0fSOlivier Houchard roundAndPackFloatx80(
15144b0fSOlivier Houchard     int8 roundingPrecision, flag zSign, int32 zExp, bits64 zSig0, bits64 zSig1
15144b0fSOlivier Houchard )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    int8 roundingMode;
15144b0fSOlivier Houchard    flag roundNearestEven, increment, isTiny;
15144b0fSOlivier Houchard    int64 roundIncrement, roundMask, roundBits;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    roundingMode = float_rounding_mode;
15144b0fSOlivier Houchard    roundNearestEven = ( roundingMode == float_round_nearest_even );
15144b0fSOlivier Houchard    if ( roundingPrecision == 80 ) goto precision80;
15144b0fSOlivier Houchard    if ( roundingPrecision == 64 ) {
15144b0fSOlivier Houchard        roundIncrement = LIT64( 0x0000000000000400 );
15144b0fSOlivier Houchard        roundMask = LIT64( 0x00000000000007FF );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    else if ( roundingPrecision == 32 ) {
15144b0fSOlivier Houchard        roundIncrement = LIT64( 0x0000008000000000 );
15144b0fSOlivier Houchard        roundMask = LIT64( 0x000000FFFFFFFFFF );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    else {
15144b0fSOlivier Houchard        goto precision80;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    zSig0 |= ( zSig1 != 0 );
15144b0fSOlivier Houchard    if ( ! roundNearestEven ) {
15144b0fSOlivier Houchard        if ( roundingMode == float_round_to_zero ) {
15144b0fSOlivier Houchard            roundIncrement = 0;
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        else {
15144b0fSOlivier Houchard            roundIncrement = roundMask;
15144b0fSOlivier Houchard            if ( zSign ) {
15144b0fSOlivier Houchard                if ( roundingMode == float_round_up ) roundIncrement = 0;
15144b0fSOlivier Houchard            }
15144b0fSOlivier Houchard            else {
15144b0fSOlivier Houchard                if ( roundingMode == float_round_down ) roundIncrement = 0;
15144b0fSOlivier Houchard            }
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    roundBits = zSig0 & roundMask;
15144b0fSOlivier Houchard    if ( 0x7FFD <= (bits32) ( zExp - 1 ) ) {
15144b0fSOlivier Houchard        if (    ( 0x7FFE < zExp )
15144b0fSOlivier Houchard             || ( ( zExp == 0x7FFE ) && ( zSig0 + roundIncrement < zSig0 ) )
15144b0fSOlivier Houchard           ) {
15144b0fSOlivier Houchard            goto overflow;
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        if ( zExp <= 0 ) {
15144b0fSOlivier Houchard            isTiny =
15144b0fSOlivier Houchard                   ( float_detect_tininess == float_tininess_before_rounding )
15144b0fSOlivier Houchard                || ( zExp < 0 )
15144b0fSOlivier Houchard                || ( zSig0 <= zSig0 + roundIncrement );
15144b0fSOlivier Houchard            shift64RightJamming( zSig0, 1 - zExp, &zSig0 );
15144b0fSOlivier Houchard            zExp = 0;
15144b0fSOlivier Houchard            roundBits = zSig0 & roundMask;
15144b0fSOlivier Houchard            if ( isTiny && roundBits ) float_raise( float_flag_underflow );
15144b0fSOlivier Houchard            if ( roundBits ) float_exception_flags |= float_flag_inexact;
15144b0fSOlivier Houchard            zSig0 += roundIncrement;
15144b0fSOlivier Houchard            if ( (sbits64) zSig0 < 0 ) zExp = 1;
15144b0fSOlivier Houchard            roundIncrement = roundMask + 1;
15144b0fSOlivier Houchard            if ( roundNearestEven && ( roundBits<<1 == roundIncrement ) ) {
15144b0fSOlivier Houchard                roundMask |= roundIncrement;
15144b0fSOlivier Houchard            }
15144b0fSOlivier Houchard            zSig0 &= ~ roundMask;
15144b0fSOlivier Houchard            return packFloatx80( zSign, zExp, zSig0 );
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( roundBits ) float_exception_flags |= float_flag_inexact;
15144b0fSOlivier Houchard    zSig0 += roundIncrement;
15144b0fSOlivier Houchard    if ( zSig0 < roundIncrement ) {
15144b0fSOlivier Houchard        ++zExp;
15144b0fSOlivier Houchard        zSig0 = LIT64( 0x8000000000000000 );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    roundIncrement = roundMask + 1;
15144b0fSOlivier Houchard    if ( roundNearestEven && ( roundBits<<1 == roundIncrement ) ) {
15144b0fSOlivier Houchard        roundMask |= roundIncrement;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    zSig0 &= ~ roundMask;
15144b0fSOlivier Houchard    if ( zSig0 == 0 ) zExp = 0;
15144b0fSOlivier Houchard    return packFloatx80( zSign, zExp, zSig0 );
15144b0fSOlivier Houchard precision80:
15144b0fSOlivier Houchard    increment = ( (sbits64) zSig1 < 0 );
15144b0fSOlivier Houchard    if ( ! roundNearestEven ) {
15144b0fSOlivier Houchard        if ( roundingMode == float_round_to_zero ) {
15144b0fSOlivier Houchard            increment = 0;
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        else {
15144b0fSOlivier Houchard            if ( zSign ) {
15144b0fSOlivier Houchard                increment = ( roundingMode == float_round_down ) && zSig1;
15144b0fSOlivier Houchard            }
15144b0fSOlivier Houchard            else {
15144b0fSOlivier Houchard                increment = ( roundingMode == float_round_up ) && zSig1;
15144b0fSOlivier Houchard            }
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( 0x7FFD <= (bits32) ( zExp - 1 ) ) {
15144b0fSOlivier Houchard        if (    ( 0x7FFE < zExp )
15144b0fSOlivier Houchard             || (    ( zExp == 0x7FFE )
15144b0fSOlivier Houchard                  && ( zSig0 == LIT64( 0xFFFFFFFFFFFFFFFF ) )
15144b0fSOlivier Houchard                  && increment
15144b0fSOlivier Houchard                )
15144b0fSOlivier Houchard           ) {
15144b0fSOlivier Houchard            roundMask = 0;
15144b0fSOlivier Houchard overflow:
15144b0fSOlivier Houchard            float_raise( float_flag_overflow | float_flag_inexact );
15144b0fSOlivier Houchard            if (    ( roundingMode == float_round_to_zero )
15144b0fSOlivier Houchard                 || ( zSign && ( roundingMode == float_round_up ) )
15144b0fSOlivier Houchard                 || ( ! zSign && ( roundingMode == float_round_down ) )
15144b0fSOlivier Houchard               ) {
15144b0fSOlivier Houchard                return packFloatx80( zSign, 0x7FFE, ~ roundMask );
15144b0fSOlivier Houchard            }
15144b0fSOlivier Houchard            return packFloatx80( zSign, 0x7FFF, LIT64( 0x8000000000000000 ) );
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        if ( zExp <= 0 ) {
15144b0fSOlivier Houchard            isTiny =
15144b0fSOlivier Houchard                   ( float_detect_tininess == float_tininess_before_rounding )
15144b0fSOlivier Houchard                || ( zExp < 0 )
15144b0fSOlivier Houchard                || ! increment
15144b0fSOlivier Houchard                || ( zSig0 < LIT64( 0xFFFFFFFFFFFFFFFF ) );
15144b0fSOlivier Houchard            shift64ExtraRightJamming( zSig0, zSig1, 1 - zExp, &zSig0, &zSig1 );
15144b0fSOlivier Houchard            zExp = 0;
15144b0fSOlivier Houchard            if ( isTiny && zSig1 ) float_raise( float_flag_underflow );
15144b0fSOlivier Houchard            if ( zSig1 ) float_exception_flags |= float_flag_inexact;
15144b0fSOlivier Houchard            if ( roundNearestEven ) {
15144b0fSOlivier Houchard                increment = ( (sbits64) zSig1 < 0 );
15144b0fSOlivier Houchard            }
15144b0fSOlivier Houchard            else {
15144b0fSOlivier Houchard                if ( zSign ) {
15144b0fSOlivier Houchard                    increment = ( roundingMode == float_round_down ) && zSig1;
15144b0fSOlivier Houchard                }
15144b0fSOlivier Houchard                else {
15144b0fSOlivier Houchard                    increment = ( roundingMode == float_round_up ) && zSig1;
15144b0fSOlivier Houchard                }
15144b0fSOlivier Houchard            }
15144b0fSOlivier Houchard            if ( increment ) {
15144b0fSOlivier Houchard                ++zSig0;
15144b0fSOlivier Houchard                zSig0 &=
15144b0fSOlivier Houchard                    ~ ( ( (bits64) ( zSig1<<1 ) == 0 ) & roundNearestEven );
15144b0fSOlivier Houchard                if ( (sbits64) zSig0 < 0 ) zExp = 1;
15144b0fSOlivier Houchard            }
15144b0fSOlivier Houchard            return packFloatx80( zSign, zExp, zSig0 );
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( zSig1 ) float_exception_flags |= float_flag_inexact;
15144b0fSOlivier Houchard    if ( increment ) {
15144b0fSOlivier Houchard        ++zSig0;
15144b0fSOlivier Houchard        if ( zSig0 == 0 ) {
15144b0fSOlivier Houchard            ++zExp;
15144b0fSOlivier Houchard            zSig0 = LIT64( 0x8000000000000000 );
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        else {
15144b0fSOlivier Houchard            zSig0 &= ~ ( ( (bits64) ( zSig1<<1 ) == 0 ) & roundNearestEven );
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    else {
15144b0fSOlivier Houchard        if ( zSig0 == 0 ) zExp = 0;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    return packFloatx80( zSign, zExp, zSig0 );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardTakes an abstract floating-point value having sign `zSign', exponent
15144b0fSOlivier Houchard`zExp', and significand formed by the concatenation of `zSig0' and `zSig1',
15144b0fSOlivier Houchardand returns the proper extended double-precision floating-point value
15144b0fSOlivier Houchardcorresponding to the abstract input.  This routine is just like
15144b0fSOlivier Houchard`roundAndPackFloatx80' except that the input significand does not have to be
15144b0fSOlivier Houchardnormalized.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardstatic floatx80
15144b0fSOlivier Houchard normalizeRoundAndPackFloatx80(
15144b0fSOlivier Houchard     int8 roundingPrecision, flag zSign, int32 zExp, bits64 zSig0, bits64 zSig1
15144b0fSOlivier Houchard )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    int8 shiftCount;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    if ( zSig0 == 0 ) {
15144b0fSOlivier Houchard        zSig0 = zSig1;
15144b0fSOlivier Houchard        zSig1 = 0;
15144b0fSOlivier Houchard        zExp -= 64;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    shiftCount = countLeadingZeros64( zSig0 );
15144b0fSOlivier Houchard    shortShift128Left( zSig0, zSig1, shiftCount, &zSig0, &zSig1 );
15144b0fSOlivier Houchard    zExp -= shiftCount;
15144b0fSOlivier Houchard    return
15144b0fSOlivier Houchard        roundAndPackFloatx80( roundingPrecision, zSign, zExp, zSig0, zSig1 );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard#endif
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard#ifdef FLOAT128
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns the least-significant 64 fraction bits of the quadruple-precision
15144b0fSOlivier Houchardfloating-point value `a'.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier HouchardINLINE bits64 extractFloat128Frac1( float128 a )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    return a.low;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns the most-significant 48 fraction bits of the quadruple-precision
15144b0fSOlivier Houchardfloating-point value `a'.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier HouchardINLINE bits64 extractFloat128Frac0( float128 a )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    return a.high & LIT64( 0x0000FFFFFFFFFFFF );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns the exponent bits of the quadruple-precision floating-point value
15144b0fSOlivier Houchard`a'.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier HouchardINLINE int32 extractFloat128Exp( float128 a )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    return ( a.high>>48 ) & 0x7FFF;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns the sign bit of the quadruple-precision floating-point value `a'.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier HouchardINLINE flag extractFloat128Sign( float128 a )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    return a.high>>63;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardNormalizes the subnormal quadruple-precision floating-point value
15144b0fSOlivier Houchardrepresented by the denormalized significand formed by the concatenation of
15144b0fSOlivier Houchard`aSig0' and `aSig1'.  The normalized exponent is stored at the location
15144b0fSOlivier Houchardpointed to by `zExpPtr'.  The most significant 49 bits of the normalized
15144b0fSOlivier Houchardsignificand are stored at the location pointed to by `zSig0Ptr', and the
15144b0fSOlivier Houchardleast significant 64 bits of the normalized significand are stored at the
15144b0fSOlivier Houchardlocation pointed to by `zSig1Ptr'.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardstatic void
15144b0fSOlivier Houchard normalizeFloat128Subnormal(
15144b0fSOlivier Houchard     bits64 aSig0,
15144b0fSOlivier Houchard     bits64 aSig1,
15144b0fSOlivier Houchard     int32 *zExpPtr,
15144b0fSOlivier Houchard     bits64 *zSig0Ptr,
15144b0fSOlivier Houchard     bits64 *zSig1Ptr
15144b0fSOlivier Houchard )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    int8 shiftCount;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    if ( aSig0 == 0 ) {
15144b0fSOlivier Houchard        shiftCount = countLeadingZeros64( aSig1 ) - 15;
15144b0fSOlivier Houchard        if ( shiftCount < 0 ) {
15144b0fSOlivier Houchard            *zSig0Ptr = aSig1>>( - shiftCount );
15144b0fSOlivier Houchard            *zSig1Ptr = aSig1<<( shiftCount & 63 );
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        else {
15144b0fSOlivier Houchard            *zSig0Ptr = aSig1<<shiftCount;
15144b0fSOlivier Houchard            *zSig1Ptr = 0;
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        *zExpPtr = - shiftCount - 63;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    else {
15144b0fSOlivier Houchard        shiftCount = countLeadingZeros64( aSig0 ) - 15;
15144b0fSOlivier Houchard        shortShift128Left( aSig0, aSig1, shiftCount, zSig0Ptr, zSig1Ptr );
15144b0fSOlivier Houchard        *zExpPtr = 1 - shiftCount;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardPacks the sign `zSign', the exponent `zExp', and the significand formed
15144b0fSOlivier Houchardby the concatenation of `zSig0' and `zSig1' into a quadruple-precision
15144b0fSOlivier Houchardfloating-point value, returning the result.  After being shifted into the
15144b0fSOlivier Houchardproper positions, the three fields `zSign', `zExp', and `zSig0' are simply
15144b0fSOlivier Houchardadded together to form the most significant 32 bits of the result.  This
15144b0fSOlivier Houchardmeans that any integer portion of `zSig0' will be added into the exponent.
15144b0fSOlivier HouchardSince a properly normalized significand will have an integer portion equal
15144b0fSOlivier Houchardto 1, the `zExp' input should be 1 less than the desired result exponent
15144b0fSOlivier Houchardwhenever `zSig0' and `zSig1' concatenated form a complete, normalized
15144b0fSOlivier Houchardsignificand.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier HouchardINLINE float128
15144b0fSOlivier Houchard packFloat128( flag zSign, int32 zExp, bits64 zSig0, bits64 zSig1 )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    float128 z;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    z.low = zSig1;
15144b0fSOlivier Houchard    z.high = ( ( (bits64) zSign )<<63 ) + ( ( (bits64) zExp )<<48 ) + zSig0;
15144b0fSOlivier Houchard    return z;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardTakes an abstract floating-point value having sign `zSign', exponent `zExp',
15144b0fSOlivier Houchardand extended significand formed by the concatenation of `zSig0', `zSig1',
15144b0fSOlivier Houchardand `zSig2', and returns the proper quadruple-precision floating-point value
15144b0fSOlivier Houchardcorresponding to the abstract input.  Ordinarily, the abstract value is
15144b0fSOlivier Houchardsimply rounded and packed into the quadruple-precision format, with the
15144b0fSOlivier Houchardinexact exception raised if the abstract input cannot be represented
15144b0fSOlivier Houchardexactly.  However, if the abstract value is too large, the overflow and
15144b0fSOlivier Houchardinexact exceptions are raised and an infinity or maximal finite value is
15144b0fSOlivier Houchardreturned.  If the abstract value is too small, the input value is rounded to
15144b0fSOlivier Houcharda subnormal number, and the underflow and inexact exceptions are raised if
15144b0fSOlivier Houchardthe abstract input cannot be represented exactly as a subnormal quadruple-
15144b0fSOlivier Houchardprecision floating-point number.
15144b0fSOlivier Houchard    The input significand must be normalized or smaller.  If the input
15144b0fSOlivier Houchardsignificand is not normalized, `zExp' must be 0; in that case, the result
15144b0fSOlivier Houchardreturned is a subnormal number, and it must not require rounding.  In the
15144b0fSOlivier Houchardusual case that the input significand is normalized, `zExp' must be 1 less
15144b0fSOlivier Houchardthan the ``true'' floating-point exponent.  The handling of underflow and
15144b0fSOlivier Houchardoverflow follows the IEC/IEEE Standard for Binary Floating-Point Arithmetic.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardstatic float128
15144b0fSOlivier Houchard roundAndPackFloat128(
15144b0fSOlivier Houchard     flag zSign, int32 zExp, bits64 zSig0, bits64 zSig1, bits64 zSig2 )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    int8 roundingMode;
15144b0fSOlivier Houchard    flag roundNearestEven, increment, isTiny;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    roundingMode = float_rounding_mode;
15144b0fSOlivier Houchard    roundNearestEven = ( roundingMode == float_round_nearest_even );
15144b0fSOlivier Houchard    increment = ( (sbits64) zSig2 < 0 );
15144b0fSOlivier Houchard    if ( ! roundNearestEven ) {
15144b0fSOlivier Houchard        if ( roundingMode == float_round_to_zero ) {
15144b0fSOlivier Houchard            increment = 0;
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        else {
15144b0fSOlivier Houchard            if ( zSign ) {
15144b0fSOlivier Houchard                increment = ( roundingMode == float_round_down ) && zSig2;
15144b0fSOlivier Houchard            }
15144b0fSOlivier Houchard            else {
15144b0fSOlivier Houchard                increment = ( roundingMode == float_round_up ) && zSig2;
15144b0fSOlivier Houchard            }
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( 0x7FFD <= (bits32) zExp ) {
15144b0fSOlivier Houchard        if (    ( 0x7FFD < zExp )
15144b0fSOlivier Houchard             || (    ( zExp == 0x7FFD )
15144b0fSOlivier Houchard                  && eq128(
15144b0fSOlivier Houchard                         LIT64( 0x0001FFFFFFFFFFFF ),
15144b0fSOlivier Houchard                         LIT64( 0xFFFFFFFFFFFFFFFF ),
15144b0fSOlivier Houchard                         zSig0,
15144b0fSOlivier Houchard                         zSig1
15144b0fSOlivier Houchard                     )
15144b0fSOlivier Houchard                  && increment
15144b0fSOlivier Houchard                )
15144b0fSOlivier Houchard           ) {
15144b0fSOlivier Houchard            float_raise( float_flag_overflow | float_flag_inexact );
15144b0fSOlivier Houchard            if (    ( roundingMode == float_round_to_zero )
15144b0fSOlivier Houchard                 || ( zSign && ( roundingMode == float_round_up ) )
15144b0fSOlivier Houchard                 || ( ! zSign && ( roundingMode == float_round_down ) )
15144b0fSOlivier Houchard               ) {
15144b0fSOlivier Houchard                return
15144b0fSOlivier Houchard                    packFloat128(
15144b0fSOlivier Houchard                        zSign,
15144b0fSOlivier Houchard                        0x7FFE,
15144b0fSOlivier Houchard                        LIT64( 0x0000FFFFFFFFFFFF ),
15144b0fSOlivier Houchard                        LIT64( 0xFFFFFFFFFFFFFFFF )
15144b0fSOlivier Houchard                    );
15144b0fSOlivier Houchard            }
15144b0fSOlivier Houchard            return packFloat128( zSign, 0x7FFF, 0, 0 );
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        if ( zExp < 0 ) {
15144b0fSOlivier Houchard            isTiny =
15144b0fSOlivier Houchard                   ( float_detect_tininess == float_tininess_before_rounding )
15144b0fSOlivier Houchard                || ( zExp < -1 )
15144b0fSOlivier Houchard                || ! increment
15144b0fSOlivier Houchard                || lt128(
15144b0fSOlivier Houchard                       zSig0,
15144b0fSOlivier Houchard                       zSig1,
15144b0fSOlivier Houchard                       LIT64( 0x0001FFFFFFFFFFFF ),
15144b0fSOlivier Houchard                       LIT64( 0xFFFFFFFFFFFFFFFF )
15144b0fSOlivier Houchard                   );
15144b0fSOlivier Houchard            shift128ExtraRightJamming(
15144b0fSOlivier Houchard                zSig0, zSig1, zSig2, - zExp, &zSig0, &zSig1, &zSig2 );
15144b0fSOlivier Houchard            zExp = 0;
15144b0fSOlivier Houchard            if ( isTiny && zSig2 ) float_raise( float_flag_underflow );
15144b0fSOlivier Houchard            if ( roundNearestEven ) {
15144b0fSOlivier Houchard                increment = ( (sbits64) zSig2 < 0 );
15144b0fSOlivier Houchard            }
15144b0fSOlivier Houchard            else {
15144b0fSOlivier Houchard                if ( zSign ) {
15144b0fSOlivier Houchard                    increment = ( roundingMode == float_round_down ) && zSig2;
15144b0fSOlivier Houchard                }
15144b0fSOlivier Houchard                else {
15144b0fSOlivier Houchard                    increment = ( roundingMode == float_round_up ) && zSig2;
15144b0fSOlivier Houchard                }
15144b0fSOlivier Houchard            }
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( zSig2 ) float_exception_flags |= float_flag_inexact;
15144b0fSOlivier Houchard    if ( increment ) {
15144b0fSOlivier Houchard        add128( zSig0, zSig1, 0, 1, &zSig0, &zSig1 );
15144b0fSOlivier Houchard        zSig1 &= ~ ( ( zSig2 + zSig2 == 0 ) & roundNearestEven );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    else {
15144b0fSOlivier Houchard        if ( ( zSig0 | zSig1 ) == 0 ) zExp = 0;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    return packFloat128( zSign, zExp, zSig0, zSig1 );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardTakes an abstract floating-point value having sign `zSign', exponent `zExp',
15144b0fSOlivier Houchardand significand formed by the concatenation of `zSig0' and `zSig1', and
15144b0fSOlivier Houchardreturns the proper quadruple-precision floating-point value corresponding
15144b0fSOlivier Houchardto the abstract input.  This routine is just like `roundAndPackFloat128'
15144b0fSOlivier Houchardexcept that the input significand has fewer bits and does not have to be
15144b0fSOlivier Houchardnormalized.  In all cases, `zExp' must be 1 less than the ``true'' floating-
15144b0fSOlivier Houchardpoint exponent.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardstatic float128
15144b0fSOlivier Houchard normalizeRoundAndPackFloat128(
15144b0fSOlivier Houchard     flag zSign, int32 zExp, bits64 zSig0, bits64 zSig1 )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    int8 shiftCount;
15144b0fSOlivier Houchard    bits64 zSig2;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    if ( zSig0 == 0 ) {
15144b0fSOlivier Houchard        zSig0 = zSig1;
15144b0fSOlivier Houchard        zSig1 = 0;
15144b0fSOlivier Houchard        zExp -= 64;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    shiftCount = countLeadingZeros64( zSig0 ) - 15;
15144b0fSOlivier Houchard    if ( 0 <= shiftCount ) {
15144b0fSOlivier Houchard        zSig2 = 0;
15144b0fSOlivier Houchard        shortShift128Left( zSig0, zSig1, shiftCount, &zSig0, &zSig1 );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    else {
15144b0fSOlivier Houchard        shift128ExtraRightJamming(
15144b0fSOlivier Houchard            zSig0, zSig1, 0, - shiftCount, &zSig0, &zSig1, &zSig2 );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    zExp -= shiftCount;
15144b0fSOlivier Houchard    return roundAndPackFloat128( zSign, zExp, zSig0, zSig1, zSig2 );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard#endif
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns the result of converting the 32-bit two's complement integer `a'
15144b0fSOlivier Houchardto the single-precision floating-point format.  The conversion is performed
15144b0fSOlivier Houchardaccording to the IEC/IEEE Standard for Binary Floating-Point Arithmetic.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardfloat32 int32_to_float32( int32 a )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    flag zSign;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    if ( a == 0 ) return 0;
15144b0fSOlivier Houchard    if ( a == (sbits32) 0x80000000 ) return packFloat32( 1, 0x9E, 0 );
15144b0fSOlivier Houchard    zSign = ( a < 0 );
15144b0fSOlivier Houchard    return normalizeRoundAndPackFloat32( zSign, 0x9C, zSign ? - a : a );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
*7ea324dfSDavid Schultz#ifndef SOFTFLOAT_FOR_GCC /* __floatunsisf is in libgcc */
c36abe0dSDavid Schultzfloat32 uint32_to_float32( uint32 a )
c36abe0dSDavid Schultz{
c36abe0dSDavid Schultz    if ( a == 0 ) return 0;
c36abe0dSDavid Schultz    if ( a & (bits32) 0x80000000 )
c36abe0dSDavid Schultz	return normalizeRoundAndPackFloat32( 0, 0x9D, a >> 1 );
c36abe0dSDavid Schultz    return normalizeRoundAndPackFloat32( 0, 0x9C, a );
c36abe0dSDavid Schultz}
*7ea324dfSDavid Schultz#endif
c36abe0dSDavid Schultz
c36abe0dSDavid Schultz
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns the result of converting the 32-bit two's complement integer `a'
15144b0fSOlivier Houchardto the double-precision floating-point format.  The conversion is performed
15144b0fSOlivier Houchardaccording to the IEC/IEEE Standard for Binary Floating-Point Arithmetic.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardfloat64 int32_to_float64( int32 a )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    flag zSign;
15144b0fSOlivier Houchard    uint32 absA;
15144b0fSOlivier Houchard    int8 shiftCount;
15144b0fSOlivier Houchard    bits64 zSig;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    if ( a == 0 ) return 0;
15144b0fSOlivier Houchard    zSign = ( a < 0 );
15144b0fSOlivier Houchard    absA = zSign ? - a : a;
15144b0fSOlivier Houchard    shiftCount = countLeadingZeros32( absA ) + 21;
15144b0fSOlivier Houchard    zSig = absA;
15144b0fSOlivier Houchard    return packFloat64( zSign, 0x432 - shiftCount, zSig<<shiftCount );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
*7ea324dfSDavid Schultz#ifndef SOFTFLOAT_FOR_GCC /* __floatunsidf is in libgcc */
c36abe0dSDavid Schultzfloat64 uint32_to_float64( uint32 a )
c36abe0dSDavid Schultz{
c36abe0dSDavid Schultz    int8 shiftCount;
c36abe0dSDavid Schultz    bits64 zSig = a;
c36abe0dSDavid Schultz
c36abe0dSDavid Schultz    if ( a == 0 ) return 0;
c36abe0dSDavid Schultz    shiftCount = countLeadingZeros32( a ) + 21;
c36abe0dSDavid Schultz    return packFloat64( 0, 0x432 - shiftCount, zSig<<shiftCount );
c36abe0dSDavid Schultz
c36abe0dSDavid Schultz}
*7ea324dfSDavid Schultz#endif
c36abe0dSDavid Schultz
15144b0fSOlivier Houchard#ifdef FLOATX80
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns the result of converting the 32-bit two's complement integer `a'
15144b0fSOlivier Houchardto the extended double-precision floating-point format.  The conversion
15144b0fSOlivier Houchardis performed according to the IEC/IEEE Standard for Binary Floating-Point
15144b0fSOlivier HouchardArithmetic.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardfloatx80 int32_to_floatx80( int32 a )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    flag zSign;
15144b0fSOlivier Houchard    uint32 absA;
15144b0fSOlivier Houchard    int8 shiftCount;
15144b0fSOlivier Houchard    bits64 zSig;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    if ( a == 0 ) return packFloatx80( 0, 0, 0 );
15144b0fSOlivier Houchard    zSign = ( a < 0 );
15144b0fSOlivier Houchard    absA = zSign ? - a : a;
15144b0fSOlivier Houchard    shiftCount = countLeadingZeros32( absA ) + 32;
15144b0fSOlivier Houchard    zSig = absA;
15144b0fSOlivier Houchard    return packFloatx80( zSign, 0x403E - shiftCount, zSig<<shiftCount );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
c36abe0dSDavid Schultzfloatx80 uint32_to_floatx80( uint32 a )
c36abe0dSDavid Schultz{
c36abe0dSDavid Schultz    int8 shiftCount;
c36abe0dSDavid Schultz    bits64 zSig = a;
c36abe0dSDavid Schultz
c36abe0dSDavid Schultz    if ( a == 0 ) return packFloatx80( 0, 0, 0 );
c36abe0dSDavid Schultz    shiftCount = countLeadingZeros32( a ) + 32;
c36abe0dSDavid Schultz    return packFloatx80( 0, 0x403E - shiftCount, zSig<<shiftCount );
c36abe0dSDavid Schultz
c36abe0dSDavid Schultz}
c36abe0dSDavid Schultz
15144b0fSOlivier Houchard#endif
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard#ifdef FLOAT128
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns the result of converting the 32-bit two's complement integer `a' to
15144b0fSOlivier Houchardthe quadruple-precision floating-point format.  The conversion is performed
15144b0fSOlivier Houchardaccording to the IEC/IEEE Standard for Binary Floating-Point Arithmetic.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardfloat128 int32_to_float128( int32 a )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    flag zSign;
15144b0fSOlivier Houchard    uint32 absA;
15144b0fSOlivier Houchard    int8 shiftCount;
15144b0fSOlivier Houchard    bits64 zSig0;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    if ( a == 0 ) return packFloat128( 0, 0, 0, 0 );
15144b0fSOlivier Houchard    zSign = ( a < 0 );
15144b0fSOlivier Houchard    absA = zSign ? - a : a;
15144b0fSOlivier Houchard    shiftCount = countLeadingZeros32( absA ) + 17;
15144b0fSOlivier Houchard    zSig0 = absA;
15144b0fSOlivier Houchard    return packFloat128( zSign, 0x402E - shiftCount, zSig0<<shiftCount, 0 );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
c36abe0dSDavid Schultzfloat128 uint32_to_float128( uint32 a )
c36abe0dSDavid Schultz{
c36abe0dSDavid Schultz    int8 shiftCount;
c36abe0dSDavid Schultz    bits64 zSig0 = a;
c36abe0dSDavid Schultz
c36abe0dSDavid Schultz    if ( a == 0 ) return packFloat128( 0, 0, 0, 0 );
c36abe0dSDavid Schultz    shiftCount = countLeadingZeros32( a ) + 17;
c36abe0dSDavid Schultz    return packFloat128( 0, 0x402E - shiftCount, zSig0<<shiftCount, 0 );
c36abe0dSDavid Schultz
c36abe0dSDavid Schultz}
c36abe0dSDavid Schultz
15144b0fSOlivier Houchard#endif
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard#ifndef SOFTFLOAT_FOR_GCC /* __floatdi?f is in libgcc2.c */
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns the result of converting the 64-bit two's complement integer `a'
15144b0fSOlivier Houchardto the single-precision floating-point format.  The conversion is performed
15144b0fSOlivier Houchardaccording to the IEC/IEEE Standard for Binary Floating-Point Arithmetic.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardfloat32 int64_to_float32( int64 a )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    flag zSign;
15144b0fSOlivier Houchard    uint64 absA;
15144b0fSOlivier Houchard    int8 shiftCount;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    if ( a == 0 ) return 0;
15144b0fSOlivier Houchard    zSign = ( a < 0 );
15144b0fSOlivier Houchard    absA = zSign ? - a : a;
15144b0fSOlivier Houchard    shiftCount = countLeadingZeros64( absA ) - 40;
15144b0fSOlivier Houchard    if ( 0 <= shiftCount ) {
15144b0fSOlivier Houchard        return packFloat32( zSign, 0x95 - shiftCount, absA<<shiftCount );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    else {
15144b0fSOlivier Houchard        shiftCount += 7;
15144b0fSOlivier Houchard        if ( shiftCount < 0 ) {
15144b0fSOlivier Houchard            shift64RightJamming( absA, - shiftCount, &absA );
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        else {
15144b0fSOlivier Houchard            absA <<= shiftCount;
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        return roundAndPackFloat32( zSign, 0x9C - shiftCount, absA );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns the result of converting the 64-bit two's complement integer `a'
15144b0fSOlivier Houchardto the double-precision floating-point format.  The conversion is performed
15144b0fSOlivier Houchardaccording to the IEC/IEEE Standard for Binary Floating-Point Arithmetic.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardfloat64 int64_to_float64( int64 a )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    flag zSign;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    if ( a == 0 ) return 0;
15144b0fSOlivier Houchard    if ( a == (sbits64) LIT64( 0x8000000000000000 ) ) {
15144b0fSOlivier Houchard        return packFloat64( 1, 0x43E, 0 );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    zSign = ( a < 0 );
15144b0fSOlivier Houchard    return normalizeRoundAndPackFloat64( zSign, 0x43C, zSign ? - a : a );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard#ifdef FLOATX80
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns the result of converting the 64-bit two's complement integer `a'
15144b0fSOlivier Houchardto the extended double-precision floating-point format.  The conversion
15144b0fSOlivier Houchardis performed according to the IEC/IEEE Standard for Binary Floating-Point
15144b0fSOlivier HouchardArithmetic.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardfloatx80 int64_to_floatx80( int64 a )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    flag zSign;
15144b0fSOlivier Houchard    uint64 absA;
15144b0fSOlivier Houchard    int8 shiftCount;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    if ( a == 0 ) return packFloatx80( 0, 0, 0 );
15144b0fSOlivier Houchard    zSign = ( a < 0 );
15144b0fSOlivier Houchard    absA = zSign ? - a : a;
15144b0fSOlivier Houchard    shiftCount = countLeadingZeros64( absA );
15144b0fSOlivier Houchard    return packFloatx80( zSign, 0x403E - shiftCount, absA<<shiftCount );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard#endif
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard#endif /* !SOFTFLOAT_FOR_GCC */
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard#ifdef FLOAT128
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns the result of converting the 64-bit two's complement integer `a' to
15144b0fSOlivier Houchardthe quadruple-precision floating-point format.  The conversion is performed
15144b0fSOlivier Houchardaccording to the IEC/IEEE Standard for Binary Floating-Point Arithmetic.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardfloat128 int64_to_float128( int64 a )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    flag zSign;
15144b0fSOlivier Houchard    uint64 absA;
15144b0fSOlivier Houchard    int8 shiftCount;
15144b0fSOlivier Houchard    int32 zExp;
15144b0fSOlivier Houchard    bits64 zSig0, zSig1;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    if ( a == 0 ) return packFloat128( 0, 0, 0, 0 );
15144b0fSOlivier Houchard    zSign = ( a < 0 );
15144b0fSOlivier Houchard    absA = zSign ? - a : a;
15144b0fSOlivier Houchard    shiftCount = countLeadingZeros64( absA ) + 49;
15144b0fSOlivier Houchard    zExp = 0x406E - shiftCount;
15144b0fSOlivier Houchard    if ( 64 <= shiftCount ) {
15144b0fSOlivier Houchard        zSig1 = 0;
15144b0fSOlivier Houchard        zSig0 = absA;
15144b0fSOlivier Houchard        shiftCount -= 64;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    else {
15144b0fSOlivier Houchard        zSig1 = absA;
15144b0fSOlivier Houchard        zSig0 = 0;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    shortShift128Left( zSig0, zSig1, shiftCount, &zSig0, &zSig1 );
15144b0fSOlivier Houchard    return packFloat128( zSign, zExp, zSig0, zSig1 );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard#endif
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard#ifndef SOFTFLOAT_FOR_GCC /* Not needed */
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns the result of converting the single-precision floating-point value
15144b0fSOlivier Houchard`a' to the 32-bit two's complement integer format.  The conversion is
15144b0fSOlivier Houchardperformed according to the IEC/IEEE Standard for Binary Floating-Point
15144b0fSOlivier HouchardArithmetic---which means in particular that the conversion is rounded
15144b0fSOlivier Houchardaccording to the current rounding mode.  If `a' is a NaN, the largest
15144b0fSOlivier Houchardpositive integer is returned.  Otherwise, if the conversion overflows, the
15144b0fSOlivier Houchardlargest integer with the same sign as `a' is returned.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardint32 float32_to_int32( float32 a )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    flag aSign;
15144b0fSOlivier Houchard    int16 aExp, shiftCount;
15144b0fSOlivier Houchard    bits32 aSig;
15144b0fSOlivier Houchard    bits64 aSig64;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    aSig = extractFloat32Frac( a );
15144b0fSOlivier Houchard    aExp = extractFloat32Exp( a );
15144b0fSOlivier Houchard    aSign = extractFloat32Sign( a );
15144b0fSOlivier Houchard    if ( ( aExp == 0xFF ) && aSig ) aSign = 0;
15144b0fSOlivier Houchard    if ( aExp ) aSig |= 0x00800000;
15144b0fSOlivier Houchard    shiftCount = 0xAF - aExp;
15144b0fSOlivier Houchard    aSig64 = aSig;
15144b0fSOlivier Houchard    aSig64 <<= 32;
15144b0fSOlivier Houchard    if ( 0 < shiftCount ) shift64RightJamming( aSig64, shiftCount, &aSig64 );
15144b0fSOlivier Houchard    return roundAndPackInt32( aSign, aSig64 );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard#endif /* !SOFTFLOAT_FOR_GCC */
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns the result of converting the single-precision floating-point value
15144b0fSOlivier Houchard`a' to the 32-bit two's complement integer format.  The conversion is
15144b0fSOlivier Houchardperformed according to the IEC/IEEE Standard for Binary Floating-Point
15144b0fSOlivier HouchardArithmetic, except that the conversion is always rounded toward zero.
15144b0fSOlivier HouchardIf `a' is a NaN, the largest positive integer is returned.  Otherwise, if
15144b0fSOlivier Houchardthe conversion overflows, the largest integer with the same sign as `a' is
15144b0fSOlivier Houchardreturned.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardint32 float32_to_int32_round_to_zero( float32 a )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    flag aSign;
15144b0fSOlivier Houchard    int16 aExp, shiftCount;
15144b0fSOlivier Houchard    bits32 aSig;
15144b0fSOlivier Houchard    int32 z;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    aSig = extractFloat32Frac( a );
15144b0fSOlivier Houchard    aExp = extractFloat32Exp( a );
15144b0fSOlivier Houchard    aSign = extractFloat32Sign( a );
15144b0fSOlivier Houchard    shiftCount = aExp - 0x9E;
15144b0fSOlivier Houchard    if ( 0 <= shiftCount ) {
15144b0fSOlivier Houchard        if ( a != 0xCF000000 ) {
15144b0fSOlivier Houchard            float_raise( float_flag_invalid );
15144b0fSOlivier Houchard            if ( ! aSign || ( ( aExp == 0xFF ) && aSig ) ) return 0x7FFFFFFF;
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        return (sbits32) 0x80000000;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    else if ( aExp <= 0x7E ) {
15144b0fSOlivier Houchard        if ( aExp | aSig ) float_exception_flags |= float_flag_inexact;
15144b0fSOlivier Houchard        return 0;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    aSig = ( aSig | 0x00800000 )<<8;
15144b0fSOlivier Houchard    z = aSig>>( - shiftCount );
15144b0fSOlivier Houchard    if ( (bits32) ( aSig<<( shiftCount & 31 ) ) ) {
15144b0fSOlivier Houchard        float_exception_flags |= float_flag_inexact;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( aSign ) z = - z;
15144b0fSOlivier Houchard    return z;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard#ifndef SOFTFLOAT_FOR_GCC /* __fix?fdi provided by libgcc2.c */
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns the result of converting the single-precision floating-point value
15144b0fSOlivier Houchard`a' to the 64-bit two's complement integer format.  The conversion is
15144b0fSOlivier Houchardperformed according to the IEC/IEEE Standard for Binary Floating-Point
15144b0fSOlivier HouchardArithmetic---which means in particular that the conversion is rounded
15144b0fSOlivier Houchardaccording to the current rounding mode.  If `a' is a NaN, the largest
15144b0fSOlivier Houchardpositive integer is returned.  Otherwise, if the conversion overflows, the
15144b0fSOlivier Houchardlargest integer with the same sign as `a' is returned.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardint64 float32_to_int64( float32 a )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    flag aSign;
15144b0fSOlivier Houchard    int16 aExp, shiftCount;
15144b0fSOlivier Houchard    bits32 aSig;
15144b0fSOlivier Houchard    bits64 aSig64, aSigExtra;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    aSig = extractFloat32Frac( a );
15144b0fSOlivier Houchard    aExp = extractFloat32Exp( a );
15144b0fSOlivier Houchard    aSign = extractFloat32Sign( a );
15144b0fSOlivier Houchard    shiftCount = 0xBE - aExp;
15144b0fSOlivier Houchard    if ( shiftCount < 0 ) {
15144b0fSOlivier Houchard        float_raise( float_flag_invalid );
15144b0fSOlivier Houchard        if ( ! aSign || ( ( aExp == 0xFF ) && aSig ) ) {
15144b0fSOlivier Houchard            return LIT64( 0x7FFFFFFFFFFFFFFF );
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        return (sbits64) LIT64( 0x8000000000000000 );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( aExp ) aSig |= 0x00800000;
15144b0fSOlivier Houchard    aSig64 = aSig;
15144b0fSOlivier Houchard    aSig64 <<= 40;
15144b0fSOlivier Houchard    shift64ExtraRightJamming( aSig64, 0, shiftCount, &aSig64, &aSigExtra );
15144b0fSOlivier Houchard    return roundAndPackInt64( aSign, aSig64, aSigExtra );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns the result of converting the single-precision floating-point value
15144b0fSOlivier Houchard`a' to the 64-bit two's complement integer format.  The conversion is
15144b0fSOlivier Houchardperformed according to the IEC/IEEE Standard for Binary Floating-Point
15144b0fSOlivier HouchardArithmetic, except that the conversion is always rounded toward zero.  If
15144b0fSOlivier Houchard`a' is a NaN, the largest positive integer is returned.  Otherwise, if the
15144b0fSOlivier Houchardconversion overflows, the largest integer with the same sign as `a' is
15144b0fSOlivier Houchardreturned.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardint64 float32_to_int64_round_to_zero( float32 a )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    flag aSign;
15144b0fSOlivier Houchard    int16 aExp, shiftCount;
15144b0fSOlivier Houchard    bits32 aSig;
15144b0fSOlivier Houchard    bits64 aSig64;
15144b0fSOlivier Houchard    int64 z;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    aSig = extractFloat32Frac( a );
15144b0fSOlivier Houchard    aExp = extractFloat32Exp( a );
15144b0fSOlivier Houchard    aSign = extractFloat32Sign( a );
15144b0fSOlivier Houchard    shiftCount = aExp - 0xBE;
15144b0fSOlivier Houchard    if ( 0 <= shiftCount ) {
15144b0fSOlivier Houchard        if ( a != 0xDF000000 ) {
15144b0fSOlivier Houchard            float_raise( float_flag_invalid );
15144b0fSOlivier Houchard            if ( ! aSign || ( ( aExp == 0xFF ) && aSig ) ) {
15144b0fSOlivier Houchard                return LIT64( 0x7FFFFFFFFFFFFFFF );
15144b0fSOlivier Houchard            }
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        return (sbits64) LIT64( 0x8000000000000000 );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    else if ( aExp <= 0x7E ) {
15144b0fSOlivier Houchard        if ( aExp | aSig ) float_exception_flags |= float_flag_inexact;
15144b0fSOlivier Houchard        return 0;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    aSig64 = aSig | 0x00800000;
15144b0fSOlivier Houchard    aSig64 <<= 40;
15144b0fSOlivier Houchard    z = aSig64>>( - shiftCount );
15144b0fSOlivier Houchard    if ( (bits64) ( aSig64<<( shiftCount & 63 ) ) ) {
15144b0fSOlivier Houchard        float_exception_flags |= float_flag_inexact;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( aSign ) z = - z;
15144b0fSOlivier Houchard    return z;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard#endif /* !SOFTFLOAT_FOR_GCC */
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns the result of converting the single-precision floating-point value
15144b0fSOlivier Houchard`a' to the double-precision floating-point format.  The conversion is
15144b0fSOlivier Houchardperformed according to the IEC/IEEE Standard for Binary Floating-Point
15144b0fSOlivier HouchardArithmetic.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardfloat64 float32_to_float64( float32 a )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    flag aSign;
15144b0fSOlivier Houchard    int16 aExp;
15144b0fSOlivier Houchard    bits32 aSig;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    aSig = extractFloat32Frac( a );
15144b0fSOlivier Houchard    aExp = extractFloat32Exp( a );
15144b0fSOlivier Houchard    aSign = extractFloat32Sign( a );
15144b0fSOlivier Houchard    if ( aExp == 0xFF ) {
15144b0fSOlivier Houchard        if ( aSig ) return commonNaNToFloat64( float32ToCommonNaN( a ) );
15144b0fSOlivier Houchard        return packFloat64( aSign, 0x7FF, 0 );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( aExp == 0 ) {
15144b0fSOlivier Houchard        if ( aSig == 0 ) return packFloat64( aSign, 0, 0 );
15144b0fSOlivier Houchard        normalizeFloat32Subnormal( aSig, &aExp, &aSig );
15144b0fSOlivier Houchard        --aExp;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    return packFloat64( aSign, aExp + 0x380, ( (bits64) aSig )<<29 );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard#ifdef FLOATX80
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns the result of converting the single-precision floating-point value
15144b0fSOlivier Houchard`a' to the extended double-precision floating-point format.  The conversion
15144b0fSOlivier Houchardis performed according to the IEC/IEEE Standard for Binary Floating-Point
15144b0fSOlivier HouchardArithmetic.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardfloatx80 float32_to_floatx80( float32 a )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    flag aSign;
15144b0fSOlivier Houchard    int16 aExp;
15144b0fSOlivier Houchard    bits32 aSig;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    aSig = extractFloat32Frac( a );
15144b0fSOlivier Houchard    aExp = extractFloat32Exp( a );
15144b0fSOlivier Houchard    aSign = extractFloat32Sign( a );
15144b0fSOlivier Houchard    if ( aExp == 0xFF ) {
15144b0fSOlivier Houchard        if ( aSig ) return commonNaNToFloatx80( float32ToCommonNaN( a ) );
15144b0fSOlivier Houchard        return packFloatx80( aSign, 0x7FFF, LIT64( 0x8000000000000000 ) );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( aExp == 0 ) {
15144b0fSOlivier Houchard        if ( aSig == 0 ) return packFloatx80( aSign, 0, 0 );
15144b0fSOlivier Houchard        normalizeFloat32Subnormal( aSig, &aExp, &aSig );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    aSig |= 0x00800000;
15144b0fSOlivier Houchard    return packFloatx80( aSign, aExp + 0x3F80, ( (bits64) aSig )<<40 );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard#endif
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard#ifdef FLOAT128
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns the result of converting the single-precision floating-point value
15144b0fSOlivier Houchard`a' to the double-precision floating-point format.  The conversion is
15144b0fSOlivier Houchardperformed according to the IEC/IEEE Standard for Binary Floating-Point
15144b0fSOlivier HouchardArithmetic.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardfloat128 float32_to_float128( float32 a )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    flag aSign;
15144b0fSOlivier Houchard    int16 aExp;
15144b0fSOlivier Houchard    bits32 aSig;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    aSig = extractFloat32Frac( a );
15144b0fSOlivier Houchard    aExp = extractFloat32Exp( a );
15144b0fSOlivier Houchard    aSign = extractFloat32Sign( a );
15144b0fSOlivier Houchard    if ( aExp == 0xFF ) {
15144b0fSOlivier Houchard        if ( aSig ) return commonNaNToFloat128( float32ToCommonNaN( a ) );
15144b0fSOlivier Houchard        return packFloat128( aSign, 0x7FFF, 0, 0 );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( aExp == 0 ) {
15144b0fSOlivier Houchard        if ( aSig == 0 ) return packFloat128( aSign, 0, 0, 0 );
15144b0fSOlivier Houchard        normalizeFloat32Subnormal( aSig, &aExp, &aSig );
15144b0fSOlivier Houchard        --aExp;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    return packFloat128( aSign, aExp + 0x3F80, ( (bits64) aSig )<<25, 0 );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard#endif
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard#ifndef SOFTFLOAT_FOR_GCC /* Not needed */
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardRounds the single-precision floating-point value `a' to an integer, and
15144b0fSOlivier Houchardreturns the result as a single-precision floating-point value.  The
15144b0fSOlivier Houchardoperation is performed according to the IEC/IEEE Standard for Binary
15144b0fSOlivier HouchardFloating-Point Arithmetic.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardfloat32 float32_round_to_int( float32 a )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    flag aSign;
15144b0fSOlivier Houchard    int16 aExp;
15144b0fSOlivier Houchard    bits32 lastBitMask, roundBitsMask;
15144b0fSOlivier Houchard    int8 roundingMode;
15144b0fSOlivier Houchard    float32 z;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    aExp = extractFloat32Exp( a );
15144b0fSOlivier Houchard    if ( 0x96 <= aExp ) {
15144b0fSOlivier Houchard        if ( ( aExp == 0xFF ) && extractFloat32Frac( a ) ) {
15144b0fSOlivier Houchard            return propagateFloat32NaN( a, a );
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        return a;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( aExp <= 0x7E ) {
15144b0fSOlivier Houchard        if ( (bits32) ( a<<1 ) == 0 ) return a;
15144b0fSOlivier Houchard        float_exception_flags |= float_flag_inexact;
15144b0fSOlivier Houchard        aSign = extractFloat32Sign( a );
15144b0fSOlivier Houchard        switch ( float_rounding_mode ) {
15144b0fSOlivier Houchard         case float_round_nearest_even:
15144b0fSOlivier Houchard            if ( ( aExp == 0x7E ) && extractFloat32Frac( a ) ) {
15144b0fSOlivier Houchard                return packFloat32( aSign, 0x7F, 0 );
15144b0fSOlivier Houchard            }
15144b0fSOlivier Houchard            break;
15144b0fSOlivier Houchard	 case float_round_to_zero:
15144b0fSOlivier Houchard	    break;
15144b0fSOlivier Houchard         case float_round_down:
15144b0fSOlivier Houchard            return aSign ? 0xBF800000 : 0;
15144b0fSOlivier Houchard         case float_round_up:
15144b0fSOlivier Houchard            return aSign ? 0x80000000 : 0x3F800000;
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        return packFloat32( aSign, 0, 0 );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    lastBitMask = 1;
15144b0fSOlivier Houchard    lastBitMask <<= 0x96 - aExp;
15144b0fSOlivier Houchard    roundBitsMask = lastBitMask - 1;
15144b0fSOlivier Houchard    z = a;
15144b0fSOlivier Houchard    roundingMode = float_rounding_mode;
15144b0fSOlivier Houchard    if ( roundingMode == float_round_nearest_even ) {
15144b0fSOlivier Houchard        z += lastBitMask>>1;
15144b0fSOlivier Houchard        if ( ( z & roundBitsMask ) == 0 ) z &= ~ lastBitMask;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    else if ( roundingMode != float_round_to_zero ) {
15144b0fSOlivier Houchard        if ( extractFloat32Sign( z ) ^ ( roundingMode == float_round_up ) ) {
15144b0fSOlivier Houchard            z += roundBitsMask;
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    z &= ~ roundBitsMask;
15144b0fSOlivier Houchard    if ( z != a ) float_exception_flags |= float_flag_inexact;
15144b0fSOlivier Houchard    return z;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard#endif /* !SOFTFLOAT_FOR_GCC */
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns the result of adding the absolute values of the single-precision
15144b0fSOlivier Houchardfloating-point values `a' and `b'.  If `zSign' is 1, the sum is negated
15144b0fSOlivier Houchardbefore being returned.  `zSign' is ignored if the result is a NaN.
15144b0fSOlivier HouchardThe addition is performed according to the IEC/IEEE Standard for Binary
15144b0fSOlivier HouchardFloating-Point Arithmetic.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardstatic float32 addFloat32Sigs( float32 a, float32 b, flag zSign )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    int16 aExp, bExp, zExp;
15144b0fSOlivier Houchard    bits32 aSig, bSig, zSig;
15144b0fSOlivier Houchard    int16 expDiff;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    aSig = extractFloat32Frac( a );
15144b0fSOlivier Houchard    aExp = extractFloat32Exp( a );
15144b0fSOlivier Houchard    bSig = extractFloat32Frac( b );
15144b0fSOlivier Houchard    bExp = extractFloat32Exp( b );
15144b0fSOlivier Houchard    expDiff = aExp - bExp;
15144b0fSOlivier Houchard    aSig <<= 6;
15144b0fSOlivier Houchard    bSig <<= 6;
15144b0fSOlivier Houchard    if ( 0 < expDiff ) {
15144b0fSOlivier Houchard        if ( aExp == 0xFF ) {
15144b0fSOlivier Houchard            if ( aSig ) return propagateFloat32NaN( a, b );
15144b0fSOlivier Houchard            return a;
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        if ( bExp == 0 ) {
15144b0fSOlivier Houchard            --expDiff;
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        else {
15144b0fSOlivier Houchard            bSig |= 0x20000000;
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        shift32RightJamming( bSig, expDiff, &bSig );
15144b0fSOlivier Houchard        zExp = aExp;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    else if ( expDiff < 0 ) {
15144b0fSOlivier Houchard        if ( bExp == 0xFF ) {
15144b0fSOlivier Houchard            if ( bSig ) return propagateFloat32NaN( a, b );
15144b0fSOlivier Houchard            return packFloat32( zSign, 0xFF, 0 );
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        if ( aExp == 0 ) {
15144b0fSOlivier Houchard            ++expDiff;
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        else {
15144b0fSOlivier Houchard            aSig |= 0x20000000;
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        shift32RightJamming( aSig, - expDiff, &aSig );
15144b0fSOlivier Houchard        zExp = bExp;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    else {
15144b0fSOlivier Houchard        if ( aExp == 0xFF ) {
15144b0fSOlivier Houchard            if ( aSig | bSig ) return propagateFloat32NaN( a, b );
15144b0fSOlivier Houchard            return a;
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        if ( aExp == 0 ) return packFloat32( zSign, 0, ( aSig + bSig )>>6 );
15144b0fSOlivier Houchard        zSig = 0x40000000 + aSig + bSig;
15144b0fSOlivier Houchard        zExp = aExp;
15144b0fSOlivier Houchard        goto roundAndPack;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    aSig |= 0x20000000;
15144b0fSOlivier Houchard    zSig = ( aSig + bSig )<<1;
15144b0fSOlivier Houchard    --zExp;
15144b0fSOlivier Houchard    if ( (sbits32) zSig < 0 ) {
15144b0fSOlivier Houchard        zSig = aSig + bSig;
15144b0fSOlivier Houchard        ++zExp;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard roundAndPack:
15144b0fSOlivier Houchard    return roundAndPackFloat32( zSign, zExp, zSig );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns the result of subtracting the absolute values of the single-
15144b0fSOlivier Houchardprecision floating-point values `a' and `b'.  If `zSign' is 1, the
15144b0fSOlivier Houcharddifference is negated before being returned.  `zSign' is ignored if the
15144b0fSOlivier Houchardresult is a NaN.  The subtraction is performed according to the IEC/IEEE
15144b0fSOlivier HouchardStandard for Binary Floating-Point Arithmetic.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardstatic float32 subFloat32Sigs( float32 a, float32 b, flag zSign )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    int16 aExp, bExp, zExp;
15144b0fSOlivier Houchard    bits32 aSig, bSig, zSig;
15144b0fSOlivier Houchard    int16 expDiff;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    aSig = extractFloat32Frac( a );
15144b0fSOlivier Houchard    aExp = extractFloat32Exp( a );
15144b0fSOlivier Houchard    bSig = extractFloat32Frac( b );
15144b0fSOlivier Houchard    bExp = extractFloat32Exp( b );
15144b0fSOlivier Houchard    expDiff = aExp - bExp;
15144b0fSOlivier Houchard    aSig <<= 7;
15144b0fSOlivier Houchard    bSig <<= 7;
15144b0fSOlivier Houchard    if ( 0 < expDiff ) goto aExpBigger;
15144b0fSOlivier Houchard    if ( expDiff < 0 ) goto bExpBigger;
15144b0fSOlivier Houchard    if ( aExp == 0xFF ) {
15144b0fSOlivier Houchard        if ( aSig | bSig ) return propagateFloat32NaN( a, b );
15144b0fSOlivier Houchard        float_raise( float_flag_invalid );
15144b0fSOlivier Houchard        return float32_default_nan;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( aExp == 0 ) {
15144b0fSOlivier Houchard        aExp = 1;
15144b0fSOlivier Houchard        bExp = 1;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( bSig < aSig ) goto aBigger;
15144b0fSOlivier Houchard    if ( aSig < bSig ) goto bBigger;
15144b0fSOlivier Houchard    return packFloat32( float_rounding_mode == float_round_down, 0, 0 );
15144b0fSOlivier Houchard bExpBigger:
15144b0fSOlivier Houchard    if ( bExp == 0xFF ) {
15144b0fSOlivier Houchard        if ( bSig ) return propagateFloat32NaN( a, b );
15144b0fSOlivier Houchard        return packFloat32( zSign ^ 1, 0xFF, 0 );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( aExp == 0 ) {
15144b0fSOlivier Houchard        ++expDiff;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    else {
15144b0fSOlivier Houchard        aSig |= 0x40000000;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    shift32RightJamming( aSig, - expDiff, &aSig );
15144b0fSOlivier Houchard    bSig |= 0x40000000;
15144b0fSOlivier Houchard bBigger:
15144b0fSOlivier Houchard    zSig = bSig - aSig;
15144b0fSOlivier Houchard    zExp = bExp;
15144b0fSOlivier Houchard    zSign ^= 1;
15144b0fSOlivier Houchard    goto normalizeRoundAndPack;
15144b0fSOlivier Houchard aExpBigger:
15144b0fSOlivier Houchard    if ( aExp == 0xFF ) {
15144b0fSOlivier Houchard        if ( aSig ) return propagateFloat32NaN( a, b );
15144b0fSOlivier Houchard        return a;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( bExp == 0 ) {
15144b0fSOlivier Houchard        --expDiff;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    else {
15144b0fSOlivier Houchard        bSig |= 0x40000000;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    shift32RightJamming( bSig, expDiff, &bSig );
15144b0fSOlivier Houchard    aSig |= 0x40000000;
15144b0fSOlivier Houchard aBigger:
15144b0fSOlivier Houchard    zSig = aSig - bSig;
15144b0fSOlivier Houchard    zExp = aExp;
15144b0fSOlivier Houchard normalizeRoundAndPack:
15144b0fSOlivier Houchard    --zExp;
15144b0fSOlivier Houchard    return normalizeRoundAndPackFloat32( zSign, zExp, zSig );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns the result of adding the single-precision floating-point values `a'
15144b0fSOlivier Houchardand `b'.  The operation is performed according to the IEC/IEEE Standard for
15144b0fSOlivier HouchardBinary Floating-Point Arithmetic.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardfloat32 float32_add( float32 a, float32 b )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    flag aSign, bSign;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    aSign = extractFloat32Sign( a );
15144b0fSOlivier Houchard    bSign = extractFloat32Sign( b );
15144b0fSOlivier Houchard    if ( aSign == bSign ) {
15144b0fSOlivier Houchard        return addFloat32Sigs( a, b, aSign );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    else {
15144b0fSOlivier Houchard        return subFloat32Sigs( a, b, aSign );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns the result of subtracting the single-precision floating-point values
15144b0fSOlivier Houchard`a' and `b'.  The operation is performed according to the IEC/IEEE Standard
15144b0fSOlivier Houchardfor Binary Floating-Point Arithmetic.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardfloat32 float32_sub( float32 a, float32 b )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    flag aSign, bSign;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    aSign = extractFloat32Sign( a );
15144b0fSOlivier Houchard    bSign = extractFloat32Sign( b );
15144b0fSOlivier Houchard    if ( aSign == bSign ) {
15144b0fSOlivier Houchard        return subFloat32Sigs( a, b, aSign );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    else {
15144b0fSOlivier Houchard        return addFloat32Sigs( a, b, aSign );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns the result of multiplying the single-precision floating-point values
15144b0fSOlivier Houchard`a' and `b'.  The operation is performed according to the IEC/IEEE Standard
15144b0fSOlivier Houchardfor Binary Floating-Point Arithmetic.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardfloat32 float32_mul( float32 a, float32 b )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    flag aSign, bSign, zSign;
15144b0fSOlivier Houchard    int16 aExp, bExp, zExp;
15144b0fSOlivier Houchard    bits32 aSig, bSig;
15144b0fSOlivier Houchard    bits64 zSig64;
15144b0fSOlivier Houchard    bits32 zSig;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    aSig = extractFloat32Frac( a );
15144b0fSOlivier Houchard    aExp = extractFloat32Exp( a );
15144b0fSOlivier Houchard    aSign = extractFloat32Sign( a );
15144b0fSOlivier Houchard    bSig = extractFloat32Frac( b );
15144b0fSOlivier Houchard    bExp = extractFloat32Exp( b );
15144b0fSOlivier Houchard    bSign = extractFloat32Sign( b );
15144b0fSOlivier Houchard    zSign = aSign ^ bSign;
15144b0fSOlivier Houchard    if ( aExp == 0xFF ) {
15144b0fSOlivier Houchard        if ( aSig || ( ( bExp == 0xFF ) && bSig ) ) {
15144b0fSOlivier Houchard            return propagateFloat32NaN( a, b );
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        if ( ( bExp | bSig ) == 0 ) {
15144b0fSOlivier Houchard            float_raise( float_flag_invalid );
15144b0fSOlivier Houchard            return float32_default_nan;
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        return packFloat32( zSign, 0xFF, 0 );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( bExp == 0xFF ) {
15144b0fSOlivier Houchard        if ( bSig ) return propagateFloat32NaN( a, b );
15144b0fSOlivier Houchard        if ( ( aExp | aSig ) == 0 ) {
15144b0fSOlivier Houchard            float_raise( float_flag_invalid );
15144b0fSOlivier Houchard            return float32_default_nan;
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        return packFloat32( zSign, 0xFF, 0 );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( aExp == 0 ) {
15144b0fSOlivier Houchard        if ( aSig == 0 ) return packFloat32( zSign, 0, 0 );
15144b0fSOlivier Houchard        normalizeFloat32Subnormal( aSig, &aExp, &aSig );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( bExp == 0 ) {
15144b0fSOlivier Houchard        if ( bSig == 0 ) return packFloat32( zSign, 0, 0 );
15144b0fSOlivier Houchard        normalizeFloat32Subnormal( bSig, &bExp, &bSig );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    zExp = aExp + bExp - 0x7F;
15144b0fSOlivier Houchard    aSig = ( aSig | 0x00800000 )<<7;
15144b0fSOlivier Houchard    bSig = ( bSig | 0x00800000 )<<8;
15144b0fSOlivier Houchard    shift64RightJamming( ( (bits64) aSig ) * bSig, 32, &zSig64 );
15144b0fSOlivier Houchard    zSig = zSig64;
15144b0fSOlivier Houchard    if ( 0 <= (sbits32) ( zSig<<1 ) ) {
15144b0fSOlivier Houchard        zSig <<= 1;
15144b0fSOlivier Houchard        --zExp;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    return roundAndPackFloat32( zSign, zExp, zSig );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns the result of dividing the single-precision floating-point value `a'
15144b0fSOlivier Houchardby the corresponding value `b'.  The operation is performed according to the
15144b0fSOlivier HouchardIEC/IEEE Standard for Binary Floating-Point Arithmetic.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardfloat32 float32_div( float32 a, float32 b )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    flag aSign, bSign, zSign;
15144b0fSOlivier Houchard    int16 aExp, bExp, zExp;
15144b0fSOlivier Houchard    bits32 aSig, bSig, zSig;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    aSig = extractFloat32Frac( a );
15144b0fSOlivier Houchard    aExp = extractFloat32Exp( a );
15144b0fSOlivier Houchard    aSign = extractFloat32Sign( a );
15144b0fSOlivier Houchard    bSig = extractFloat32Frac( b );
15144b0fSOlivier Houchard    bExp = extractFloat32Exp( b );
15144b0fSOlivier Houchard    bSign = extractFloat32Sign( b );
15144b0fSOlivier Houchard    zSign = aSign ^ bSign;
15144b0fSOlivier Houchard    if ( aExp == 0xFF ) {
15144b0fSOlivier Houchard        if ( aSig ) return propagateFloat32NaN( a, b );
15144b0fSOlivier Houchard        if ( bExp == 0xFF ) {
15144b0fSOlivier Houchard            if ( bSig ) return propagateFloat32NaN( a, b );
15144b0fSOlivier Houchard            float_raise( float_flag_invalid );
15144b0fSOlivier Houchard            return float32_default_nan;
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        return packFloat32( zSign, 0xFF, 0 );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( bExp == 0xFF ) {
15144b0fSOlivier Houchard        if ( bSig ) return propagateFloat32NaN( a, b );
15144b0fSOlivier Houchard        return packFloat32( zSign, 0, 0 );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( bExp == 0 ) {
15144b0fSOlivier Houchard        if ( bSig == 0 ) {
15144b0fSOlivier Houchard            if ( ( aExp | aSig ) == 0 ) {
15144b0fSOlivier Houchard                float_raise( float_flag_invalid );
15144b0fSOlivier Houchard                return float32_default_nan;
15144b0fSOlivier Houchard            }
15144b0fSOlivier Houchard            float_raise( float_flag_divbyzero );
15144b0fSOlivier Houchard            return packFloat32( zSign, 0xFF, 0 );
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        normalizeFloat32Subnormal( bSig, &bExp, &bSig );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( aExp == 0 ) {
15144b0fSOlivier Houchard        if ( aSig == 0 ) return packFloat32( zSign, 0, 0 );
15144b0fSOlivier Houchard        normalizeFloat32Subnormal( aSig, &aExp, &aSig );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    zExp = aExp - bExp + 0x7D;
15144b0fSOlivier Houchard    aSig = ( aSig | 0x00800000 )<<7;
15144b0fSOlivier Houchard    bSig = ( bSig | 0x00800000 )<<8;
15144b0fSOlivier Houchard    if ( bSig <= ( aSig + aSig ) ) {
15144b0fSOlivier Houchard        aSig >>= 1;
15144b0fSOlivier Houchard        ++zExp;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    zSig = ( ( (bits64) aSig )<<32 ) / bSig;
15144b0fSOlivier Houchard    if ( ( zSig & 0x3F ) == 0 ) {
15144b0fSOlivier Houchard        zSig |= ( (bits64) bSig * zSig != ( (bits64) aSig )<<32 );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    return roundAndPackFloat32( zSign, zExp, zSig );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard#ifndef SOFTFLOAT_FOR_GCC /* Not needed */
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns the remainder of the single-precision floating-point value `a'
15144b0fSOlivier Houchardwith respect to the corresponding value `b'.  The operation is performed
15144b0fSOlivier Houchardaccording to the IEC/IEEE Standard for Binary Floating-Point Arithmetic.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardfloat32 float32_rem( float32 a, float32 b )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    flag aSign, bSign, zSign;
15144b0fSOlivier Houchard    int16 aExp, bExp, expDiff;
15144b0fSOlivier Houchard    bits32 aSig, bSig;
15144b0fSOlivier Houchard    bits32 q;
15144b0fSOlivier Houchard    bits64 aSig64, bSig64, q64;
15144b0fSOlivier Houchard    bits32 alternateASig;
15144b0fSOlivier Houchard    sbits32 sigMean;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    aSig = extractFloat32Frac( a );
15144b0fSOlivier Houchard    aExp = extractFloat32Exp( a );
15144b0fSOlivier Houchard    aSign = extractFloat32Sign( a );
15144b0fSOlivier Houchard    bSig = extractFloat32Frac( b );
15144b0fSOlivier Houchard    bExp = extractFloat32Exp( b );
15144b0fSOlivier Houchard    bSign = extractFloat32Sign( b );
15144b0fSOlivier Houchard    if ( aExp == 0xFF ) {
15144b0fSOlivier Houchard        if ( aSig || ( ( bExp == 0xFF ) && bSig ) ) {
15144b0fSOlivier Houchard            return propagateFloat32NaN( a, b );
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        float_raise( float_flag_invalid );
15144b0fSOlivier Houchard        return float32_default_nan;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( bExp == 0xFF ) {
15144b0fSOlivier Houchard        if ( bSig ) return propagateFloat32NaN( a, b );
15144b0fSOlivier Houchard        return a;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( bExp == 0 ) {
15144b0fSOlivier Houchard        if ( bSig == 0 ) {
15144b0fSOlivier Houchard            float_raise( float_flag_invalid );
15144b0fSOlivier Houchard            return float32_default_nan;
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        normalizeFloat32Subnormal( bSig, &bExp, &bSig );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( aExp == 0 ) {
15144b0fSOlivier Houchard        if ( aSig == 0 ) return a;
15144b0fSOlivier Houchard        normalizeFloat32Subnormal( aSig, &aExp, &aSig );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    expDiff = aExp - bExp;
15144b0fSOlivier Houchard    aSig |= 0x00800000;
15144b0fSOlivier Houchard    bSig |= 0x00800000;
15144b0fSOlivier Houchard    if ( expDiff < 32 ) {
15144b0fSOlivier Houchard        aSig <<= 8;
15144b0fSOlivier Houchard        bSig <<= 8;
15144b0fSOlivier Houchard        if ( expDiff < 0 ) {
15144b0fSOlivier Houchard            if ( expDiff < -1 ) return a;
15144b0fSOlivier Houchard            aSig >>= 1;
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        q = ( bSig <= aSig );
15144b0fSOlivier Houchard        if ( q ) aSig -= bSig;
15144b0fSOlivier Houchard        if ( 0 < expDiff ) {
15144b0fSOlivier Houchard            q = ( ( (bits64) aSig )<<32 ) / bSig;
15144b0fSOlivier Houchard            q >>= 32 - expDiff;
15144b0fSOlivier Houchard            bSig >>= 2;
15144b0fSOlivier Houchard            aSig = ( ( aSig>>1 )<<( expDiff - 1 ) ) - bSig * q;
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        else {
15144b0fSOlivier Houchard            aSig >>= 2;
15144b0fSOlivier Houchard            bSig >>= 2;
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    else {
15144b0fSOlivier Houchard        if ( bSig <= aSig ) aSig -= bSig;
15144b0fSOlivier Houchard        aSig64 = ( (bits64) aSig )<<40;
15144b0fSOlivier Houchard        bSig64 = ( (bits64) bSig )<<40;
15144b0fSOlivier Houchard        expDiff -= 64;
15144b0fSOlivier Houchard        while ( 0 < expDiff ) {
15144b0fSOlivier Houchard            q64 = estimateDiv128To64( aSig64, 0, bSig64 );
15144b0fSOlivier Houchard            q64 = ( 2 < q64 ) ? q64 - 2 : 0;
15144b0fSOlivier Houchard            aSig64 = - ( ( bSig * q64 )<<38 );
15144b0fSOlivier Houchard            expDiff -= 62;
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        expDiff += 64;
15144b0fSOlivier Houchard        q64 = estimateDiv128To64( aSig64, 0, bSig64 );
15144b0fSOlivier Houchard        q64 = ( 2 < q64 ) ? q64 - 2 : 0;
15144b0fSOlivier Houchard        q = q64>>( 64 - expDiff );
15144b0fSOlivier Houchard        bSig <<= 6;
15144b0fSOlivier Houchard        aSig = ( ( aSig64>>33 )<<( expDiff - 1 ) ) - bSig * q;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    do {
15144b0fSOlivier Houchard        alternateASig = aSig;
15144b0fSOlivier Houchard        ++q;
15144b0fSOlivier Houchard        aSig -= bSig;
15144b0fSOlivier Houchard    } while ( 0 <= (sbits32) aSig );
15144b0fSOlivier Houchard    sigMean = aSig + alternateASig;
15144b0fSOlivier Houchard    if ( ( sigMean < 0 ) || ( ( sigMean == 0 ) && ( q & 1 ) ) ) {
15144b0fSOlivier Houchard        aSig = alternateASig;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    zSign = ( (sbits32) aSig < 0 );
15144b0fSOlivier Houchard    if ( zSign ) aSig = - aSig;
15144b0fSOlivier Houchard    return normalizeRoundAndPackFloat32( aSign ^ zSign, bExp, aSig );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard#endif /* !SOFTFLOAT_FOR_GCC */
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard#ifndef SOFTFLOAT_FOR_GCC /* Not needed */
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns the square root of the single-precision floating-point value `a'.
15144b0fSOlivier HouchardThe operation is performed according to the IEC/IEEE Standard for Binary
15144b0fSOlivier HouchardFloating-Point Arithmetic.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardfloat32 float32_sqrt( float32 a )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    flag aSign;
15144b0fSOlivier Houchard    int16 aExp, zExp;
15144b0fSOlivier Houchard    bits32 aSig, zSig;
15144b0fSOlivier Houchard    bits64 rem, term;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    aSig = extractFloat32Frac( a );
15144b0fSOlivier Houchard    aExp = extractFloat32Exp( a );
15144b0fSOlivier Houchard    aSign = extractFloat32Sign( a );
15144b0fSOlivier Houchard    if ( aExp == 0xFF ) {
15144b0fSOlivier Houchard        if ( aSig ) return propagateFloat32NaN( a, 0 );
15144b0fSOlivier Houchard        if ( ! aSign ) return a;
15144b0fSOlivier Houchard        float_raise( float_flag_invalid );
15144b0fSOlivier Houchard        return float32_default_nan;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( aSign ) {
15144b0fSOlivier Houchard        if ( ( aExp | aSig ) == 0 ) return a;
15144b0fSOlivier Houchard        float_raise( float_flag_invalid );
15144b0fSOlivier Houchard        return float32_default_nan;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( aExp == 0 ) {
15144b0fSOlivier Houchard        if ( aSig == 0 ) return 0;
15144b0fSOlivier Houchard        normalizeFloat32Subnormal( aSig, &aExp, &aSig );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    zExp = ( ( aExp - 0x7F )>>1 ) + 0x7E;
15144b0fSOlivier Houchard    aSig = ( aSig | 0x00800000 )<<8;
15144b0fSOlivier Houchard    zSig = estimateSqrt32( aExp, aSig ) + 2;
15144b0fSOlivier Houchard    if ( ( zSig & 0x7F ) <= 5 ) {
15144b0fSOlivier Houchard        if ( zSig < 2 ) {
15144b0fSOlivier Houchard            zSig = 0x7FFFFFFF;
15144b0fSOlivier Houchard            goto roundAndPack;
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        aSig >>= aExp & 1;
15144b0fSOlivier Houchard        term = ( (bits64) zSig ) * zSig;
15144b0fSOlivier Houchard        rem = ( ( (bits64) aSig )<<32 ) - term;
15144b0fSOlivier Houchard        while ( (sbits64) rem < 0 ) {
15144b0fSOlivier Houchard            --zSig;
15144b0fSOlivier Houchard            rem += ( ( (bits64) zSig )<<1 ) | 1;
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        zSig |= ( rem != 0 );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    shift32RightJamming( zSig, 1, &zSig );
15144b0fSOlivier Houchard roundAndPack:
15144b0fSOlivier Houchard    return roundAndPackFloat32( 0, zExp, zSig );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard#endif /* !SOFTFLOAT_FOR_GCC */
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns 1 if the single-precision floating-point value `a' is equal to
15144b0fSOlivier Houchardthe corresponding value `b', and 0 otherwise.  The comparison is performed
15144b0fSOlivier Houchardaccording to the IEC/IEEE Standard for Binary Floating-Point Arithmetic.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardflag float32_eq( float32 a, float32 b )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    if (    ( ( extractFloat32Exp( a ) == 0xFF ) && extractFloat32Frac( a ) )
15144b0fSOlivier Houchard         || ( ( extractFloat32Exp( b ) == 0xFF ) && extractFloat32Frac( b ) )
15144b0fSOlivier Houchard       ) {
15144b0fSOlivier Houchard        if ( float32_is_signaling_nan( a ) || float32_is_signaling_nan( b ) ) {
15144b0fSOlivier Houchard            float_raise( float_flag_invalid );
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        return 0;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    return ( a == b ) || ( (bits32) ( ( a | b )<<1 ) == 0 );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns 1 if the single-precision floating-point value `a' is less than
15144b0fSOlivier Houchardor equal to the corresponding value `b', and 0 otherwise.  The comparison
15144b0fSOlivier Houchardis performed according to the IEC/IEEE Standard for Binary Floating-Point
15144b0fSOlivier HouchardArithmetic.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardflag float32_le( float32 a, float32 b )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    flag aSign, bSign;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    if (    ( ( extractFloat32Exp( a ) == 0xFF ) && extractFloat32Frac( a ) )
15144b0fSOlivier Houchard         || ( ( extractFloat32Exp( b ) == 0xFF ) && extractFloat32Frac( b ) )
15144b0fSOlivier Houchard       ) {
15144b0fSOlivier Houchard        float_raise( float_flag_invalid );
15144b0fSOlivier Houchard        return 0;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    aSign = extractFloat32Sign( a );
15144b0fSOlivier Houchard    bSign = extractFloat32Sign( b );
15144b0fSOlivier Houchard    if ( aSign != bSign ) return aSign || ( (bits32) ( ( a | b )<<1 ) == 0 );
15144b0fSOlivier Houchard    return ( a == b ) || ( aSign ^ ( a < b ) );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns 1 if the single-precision floating-point value `a' is less than
15144b0fSOlivier Houchardthe corresponding value `b', and 0 otherwise.  The comparison is performed
15144b0fSOlivier Houchardaccording to the IEC/IEEE Standard for Binary Floating-Point Arithmetic.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardflag float32_lt( float32 a, float32 b )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    flag aSign, bSign;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    if (    ( ( extractFloat32Exp( a ) == 0xFF ) && extractFloat32Frac( a ) )
15144b0fSOlivier Houchard         || ( ( extractFloat32Exp( b ) == 0xFF ) && extractFloat32Frac( b ) )
15144b0fSOlivier Houchard       ) {
15144b0fSOlivier Houchard        float_raise( float_flag_invalid );
15144b0fSOlivier Houchard        return 0;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    aSign = extractFloat32Sign( a );
15144b0fSOlivier Houchard    bSign = extractFloat32Sign( b );
15144b0fSOlivier Houchard    if ( aSign != bSign ) return aSign && ( (bits32) ( ( a | b )<<1 ) != 0 );
15144b0fSOlivier Houchard    return ( a != b ) && ( aSign ^ ( a < b ) );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard#ifndef SOFTFLOAT_FOR_GCC /* Not needed */
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns 1 if the single-precision floating-point value `a' is equal to
15144b0fSOlivier Houchardthe corresponding value `b', and 0 otherwise.  The invalid exception is
15144b0fSOlivier Houchardraised if either operand is a NaN.  Otherwise, the comparison is performed
15144b0fSOlivier Houchardaccording to the IEC/IEEE Standard for Binary Floating-Point Arithmetic.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardflag float32_eq_signaling( float32 a, float32 b )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    if (    ( ( extractFloat32Exp( a ) == 0xFF ) && extractFloat32Frac( a ) )
15144b0fSOlivier Houchard         || ( ( extractFloat32Exp( b ) == 0xFF ) && extractFloat32Frac( b ) )
15144b0fSOlivier Houchard       ) {
15144b0fSOlivier Houchard        float_raise( float_flag_invalid );
15144b0fSOlivier Houchard        return 0;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    return ( a == b ) || ( (bits32) ( ( a | b )<<1 ) == 0 );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns 1 if the single-precision floating-point value `a' is less than or
15144b0fSOlivier Houchardequal to the corresponding value `b', and 0 otherwise.  Quiet NaNs do not
15144b0fSOlivier Houchardcause an exception.  Otherwise, the comparison is performed according to the
15144b0fSOlivier HouchardIEC/IEEE Standard for Binary Floating-Point Arithmetic.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardflag float32_le_quiet( float32 a, float32 b )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    flag aSign, bSign;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    if (    ( ( extractFloat32Exp( a ) == 0xFF ) && extractFloat32Frac( a ) )
15144b0fSOlivier Houchard         || ( ( extractFloat32Exp( b ) == 0xFF ) && extractFloat32Frac( b ) )
15144b0fSOlivier Houchard       ) {
15144b0fSOlivier Houchard        if ( float32_is_signaling_nan( a ) || float32_is_signaling_nan( b ) ) {
15144b0fSOlivier Houchard            float_raise( float_flag_invalid );
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        return 0;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    aSign = extractFloat32Sign( a );
15144b0fSOlivier Houchard    bSign = extractFloat32Sign( b );
15144b0fSOlivier Houchard    if ( aSign != bSign ) return aSign || ( (bits32) ( ( a | b )<<1 ) == 0 );
15144b0fSOlivier Houchard    return ( a == b ) || ( aSign ^ ( a < b ) );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns 1 if the single-precision floating-point value `a' is less than
15144b0fSOlivier Houchardthe corresponding value `b', and 0 otherwise.  Quiet NaNs do not cause an
15144b0fSOlivier Houchardexception.  Otherwise, the comparison is performed according to the IEC/IEEE
15144b0fSOlivier HouchardStandard for Binary Floating-Point Arithmetic.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardflag float32_lt_quiet( float32 a, float32 b )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    flag aSign, bSign;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    if (    ( ( extractFloat32Exp( a ) == 0xFF ) && extractFloat32Frac( a ) )
15144b0fSOlivier Houchard         || ( ( extractFloat32Exp( b ) == 0xFF ) && extractFloat32Frac( b ) )
15144b0fSOlivier Houchard       ) {
15144b0fSOlivier Houchard        if ( float32_is_signaling_nan( a ) || float32_is_signaling_nan( b ) ) {
15144b0fSOlivier Houchard            float_raise( float_flag_invalid );
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        return 0;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    aSign = extractFloat32Sign( a );
15144b0fSOlivier Houchard    bSign = extractFloat32Sign( b );
15144b0fSOlivier Houchard    if ( aSign != bSign ) return aSign && ( (bits32) ( ( a | b )<<1 ) != 0 );
15144b0fSOlivier Houchard    return ( a != b ) && ( aSign ^ ( a < b ) );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard#endif /* !SOFTFLOAT_FOR_GCC */
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard#ifndef SOFTFLOAT_FOR_GCC /* Not needed */
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns the result of converting the double-precision floating-point value
15144b0fSOlivier Houchard`a' to the 32-bit two's complement integer format.  The conversion is
15144b0fSOlivier Houchardperformed according to the IEC/IEEE Standard for Binary Floating-Point
15144b0fSOlivier HouchardArithmetic---which means in particular that the conversion is rounded
15144b0fSOlivier Houchardaccording to the current rounding mode.  If `a' is a NaN, the largest
15144b0fSOlivier Houchardpositive integer is returned.  Otherwise, if the conversion overflows, the
15144b0fSOlivier Houchardlargest integer with the same sign as `a' is returned.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardint32 float64_to_int32( float64 a )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    flag aSign;
15144b0fSOlivier Houchard    int16 aExp, shiftCount;
15144b0fSOlivier Houchard    bits64 aSig;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    aSig = extractFloat64Frac( a );
15144b0fSOlivier Houchard    aExp = extractFloat64Exp( a );
15144b0fSOlivier Houchard    aSign = extractFloat64Sign( a );
15144b0fSOlivier Houchard    if ( ( aExp == 0x7FF ) && aSig ) aSign = 0;
15144b0fSOlivier Houchard    if ( aExp ) aSig |= LIT64( 0x0010000000000000 );
15144b0fSOlivier Houchard    shiftCount = 0x42C - aExp;
15144b0fSOlivier Houchard    if ( 0 < shiftCount ) shift64RightJamming( aSig, shiftCount, &aSig );
15144b0fSOlivier Houchard    return roundAndPackInt32( aSign, aSig );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard#endif /* !SOFTFLOAT_FOR_GCC */
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns the result of converting the double-precision floating-point value
15144b0fSOlivier Houchard`a' to the 32-bit two's complement integer format.  The conversion is
15144b0fSOlivier Houchardperformed according to the IEC/IEEE Standard for Binary Floating-Point
15144b0fSOlivier HouchardArithmetic, except that the conversion is always rounded toward zero.
15144b0fSOlivier HouchardIf `a' is a NaN, the largest positive integer is returned.  Otherwise, if
15144b0fSOlivier Houchardthe conversion overflows, the largest integer with the same sign as `a' is
15144b0fSOlivier Houchardreturned.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardint32 float64_to_int32_round_to_zero( float64 a )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    flag aSign;
15144b0fSOlivier Houchard    int16 aExp, shiftCount;
15144b0fSOlivier Houchard    bits64 aSig, savedASig;
15144b0fSOlivier Houchard    int32 z;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    aSig = extractFloat64Frac( a );
15144b0fSOlivier Houchard    aExp = extractFloat64Exp( a );
15144b0fSOlivier Houchard    aSign = extractFloat64Sign( a );
15144b0fSOlivier Houchard    if ( 0x41E < aExp ) {
15144b0fSOlivier Houchard        if ( ( aExp == 0x7FF ) && aSig ) aSign = 0;
15144b0fSOlivier Houchard        goto invalid;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    else if ( aExp < 0x3FF ) {
15144b0fSOlivier Houchard        if ( aExp || aSig ) float_exception_flags |= float_flag_inexact;
15144b0fSOlivier Houchard        return 0;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    aSig |= LIT64( 0x0010000000000000 );
15144b0fSOlivier Houchard    shiftCount = 0x433 - aExp;
15144b0fSOlivier Houchard    savedASig = aSig;
15144b0fSOlivier Houchard    aSig >>= shiftCount;
15144b0fSOlivier Houchard    z = aSig;
15144b0fSOlivier Houchard    if ( aSign ) z = - z;
15144b0fSOlivier Houchard    if ( ( z < 0 ) ^ aSign ) {
15144b0fSOlivier Houchard invalid:
15144b0fSOlivier Houchard        float_raise( float_flag_invalid );
15144b0fSOlivier Houchard        return aSign ? (sbits32) 0x80000000 : 0x7FFFFFFF;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( ( aSig<<shiftCount ) != savedASig ) {
15144b0fSOlivier Houchard        float_exception_flags |= float_flag_inexact;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    return z;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard#ifndef SOFTFLOAT_FOR_GCC /* Not needed */
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns the result of converting the double-precision floating-point value
15144b0fSOlivier Houchard`a' to the 64-bit two's complement integer format.  The conversion is
15144b0fSOlivier Houchardperformed according to the IEC/IEEE Standard for Binary Floating-Point
15144b0fSOlivier HouchardArithmetic---which means in particular that the conversion is rounded
15144b0fSOlivier Houchardaccording to the current rounding mode.  If `a' is a NaN, the largest
15144b0fSOlivier Houchardpositive integer is returned.  Otherwise, if the conversion overflows, the
15144b0fSOlivier Houchardlargest integer with the same sign as `a' is returned.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardint64 float64_to_int64( float64 a )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    flag aSign;
15144b0fSOlivier Houchard    int16 aExp, shiftCount;
15144b0fSOlivier Houchard    bits64 aSig, aSigExtra;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    aSig = extractFloat64Frac( a );
15144b0fSOlivier Houchard    aExp = extractFloat64Exp( a );
15144b0fSOlivier Houchard    aSign = extractFloat64Sign( a );
15144b0fSOlivier Houchard    if ( aExp ) aSig |= LIT64( 0x0010000000000000 );
15144b0fSOlivier Houchard    shiftCount = 0x433 - aExp;
15144b0fSOlivier Houchard    if ( shiftCount <= 0 ) {
15144b0fSOlivier Houchard        if ( 0x43E < aExp ) {
15144b0fSOlivier Houchard            float_raise( float_flag_invalid );
15144b0fSOlivier Houchard            if (    ! aSign
15144b0fSOlivier Houchard                 || (    ( aExp == 0x7FF )
15144b0fSOlivier Houchard                      && ( aSig != LIT64( 0x0010000000000000 ) ) )
15144b0fSOlivier Houchard               ) {
15144b0fSOlivier Houchard                return LIT64( 0x7FFFFFFFFFFFFFFF );
15144b0fSOlivier Houchard            }
15144b0fSOlivier Houchard            return (sbits64) LIT64( 0x8000000000000000 );
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        aSigExtra = 0;
15144b0fSOlivier Houchard        aSig <<= - shiftCount;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    else {
15144b0fSOlivier Houchard        shift64ExtraRightJamming( aSig, 0, shiftCount, &aSig, &aSigExtra );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    return roundAndPackInt64( aSign, aSig, aSigExtra );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns the result of converting the double-precision floating-point value
15144b0fSOlivier Houchard`a' to the 64-bit two's complement integer format.  The conversion is
15144b0fSOlivier Houchardperformed according to the IEC/IEEE Standard for Binary Floating-Point
15144b0fSOlivier HouchardArithmetic, except that the conversion is always rounded toward zero.
15144b0fSOlivier HouchardIf `a' is a NaN, the largest positive integer is returned.  Otherwise, if
15144b0fSOlivier Houchardthe conversion overflows, the largest integer with the same sign as `a' is
15144b0fSOlivier Houchardreturned.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardint64 float64_to_int64_round_to_zero( float64 a )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    flag aSign;
15144b0fSOlivier Houchard    int16 aExp, shiftCount;
15144b0fSOlivier Houchard    bits64 aSig;
15144b0fSOlivier Houchard    int64 z;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    aSig = extractFloat64Frac( a );
15144b0fSOlivier Houchard    aExp = extractFloat64Exp( a );
15144b0fSOlivier Houchard    aSign = extractFloat64Sign( a );
15144b0fSOlivier Houchard    if ( aExp ) aSig |= LIT64( 0x0010000000000000 );
15144b0fSOlivier Houchard    shiftCount = aExp - 0x433;
15144b0fSOlivier Houchard    if ( 0 <= shiftCount ) {
15144b0fSOlivier Houchard        if ( 0x43E <= aExp ) {
15144b0fSOlivier Houchard            if ( a != LIT64( 0xC3E0000000000000 ) ) {
15144b0fSOlivier Houchard                float_raise( float_flag_invalid );
15144b0fSOlivier Houchard                if (    ! aSign
15144b0fSOlivier Houchard                     || (    ( aExp == 0x7FF )
15144b0fSOlivier Houchard                          && ( aSig != LIT64( 0x0010000000000000 ) ) )
15144b0fSOlivier Houchard                   ) {
15144b0fSOlivier Houchard                    return LIT64( 0x7FFFFFFFFFFFFFFF );
15144b0fSOlivier Houchard                }
15144b0fSOlivier Houchard            }
15144b0fSOlivier Houchard            return (sbits64) LIT64( 0x8000000000000000 );
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        z = aSig<<shiftCount;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    else {
15144b0fSOlivier Houchard        if ( aExp < 0x3FE ) {
15144b0fSOlivier Houchard            if ( aExp | aSig ) float_exception_flags |= float_flag_inexact;
15144b0fSOlivier Houchard            return 0;
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        z = aSig>>( - shiftCount );
15144b0fSOlivier Houchard        if ( (bits64) ( aSig<<( shiftCount & 63 ) ) ) {
15144b0fSOlivier Houchard            float_exception_flags |= float_flag_inexact;
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( aSign ) z = - z;
15144b0fSOlivier Houchard    return z;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard#endif /* !SOFTFLOAT_FOR_GCC */
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns the result of converting the double-precision floating-point value
15144b0fSOlivier Houchard`a' to the single-precision floating-point format.  The conversion is
15144b0fSOlivier Houchardperformed according to the IEC/IEEE Standard for Binary Floating-Point
15144b0fSOlivier HouchardArithmetic.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardfloat32 float64_to_float32( float64 a )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    flag aSign;
15144b0fSOlivier Houchard    int16 aExp;
15144b0fSOlivier Houchard    bits64 aSig;
15144b0fSOlivier Houchard    bits32 zSig;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    aSig = extractFloat64Frac( a );
15144b0fSOlivier Houchard    aExp = extractFloat64Exp( a );
15144b0fSOlivier Houchard    aSign = extractFloat64Sign( a );
15144b0fSOlivier Houchard    if ( aExp == 0x7FF ) {
15144b0fSOlivier Houchard        if ( aSig ) return commonNaNToFloat32( float64ToCommonNaN( a ) );
15144b0fSOlivier Houchard        return packFloat32( aSign, 0xFF, 0 );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    shift64RightJamming( aSig, 22, &aSig );
15144b0fSOlivier Houchard    zSig = aSig;
15144b0fSOlivier Houchard    if ( aExp || zSig ) {
15144b0fSOlivier Houchard        zSig |= 0x40000000;
15144b0fSOlivier Houchard        aExp -= 0x381;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    return roundAndPackFloat32( aSign, aExp, zSig );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard#ifdef FLOATX80
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns the result of converting the double-precision floating-point value
15144b0fSOlivier Houchard`a' to the extended double-precision floating-point format.  The conversion
15144b0fSOlivier Houchardis performed according to the IEC/IEEE Standard for Binary Floating-Point
15144b0fSOlivier HouchardArithmetic.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardfloatx80 float64_to_floatx80( float64 a )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    flag aSign;
15144b0fSOlivier Houchard    int16 aExp;
15144b0fSOlivier Houchard    bits64 aSig;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    aSig = extractFloat64Frac( a );
15144b0fSOlivier Houchard    aExp = extractFloat64Exp( a );
15144b0fSOlivier Houchard    aSign = extractFloat64Sign( a );
15144b0fSOlivier Houchard    if ( aExp == 0x7FF ) {
15144b0fSOlivier Houchard        if ( aSig ) return commonNaNToFloatx80( float64ToCommonNaN( a ) );
15144b0fSOlivier Houchard        return packFloatx80( aSign, 0x7FFF, LIT64( 0x8000000000000000 ) );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( aExp == 0 ) {
15144b0fSOlivier Houchard        if ( aSig == 0 ) return packFloatx80( aSign, 0, 0 );
15144b0fSOlivier Houchard        normalizeFloat64Subnormal( aSig, &aExp, &aSig );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    return
15144b0fSOlivier Houchard        packFloatx80(
15144b0fSOlivier Houchard            aSign, aExp + 0x3C00, ( aSig | LIT64( 0x0010000000000000 ) )<<11 );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard#endif
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard#ifdef FLOAT128
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns the result of converting the double-precision floating-point value
15144b0fSOlivier Houchard`a' to the quadruple-precision floating-point format.  The conversion is
15144b0fSOlivier Houchardperformed according to the IEC/IEEE Standard for Binary Floating-Point
15144b0fSOlivier HouchardArithmetic.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardfloat128 float64_to_float128( float64 a )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    flag aSign;
15144b0fSOlivier Houchard    int16 aExp;
15144b0fSOlivier Houchard    bits64 aSig, zSig0, zSig1;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    aSig = extractFloat64Frac( a );
15144b0fSOlivier Houchard    aExp = extractFloat64Exp( a );
15144b0fSOlivier Houchard    aSign = extractFloat64Sign( a );
15144b0fSOlivier Houchard    if ( aExp == 0x7FF ) {
15144b0fSOlivier Houchard        if ( aSig ) return commonNaNToFloat128( float64ToCommonNaN( a ) );
15144b0fSOlivier Houchard        return packFloat128( aSign, 0x7FFF, 0, 0 );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( aExp == 0 ) {
15144b0fSOlivier Houchard        if ( aSig == 0 ) return packFloat128( aSign, 0, 0, 0 );
15144b0fSOlivier Houchard        normalizeFloat64Subnormal( aSig, &aExp, &aSig );
15144b0fSOlivier Houchard        --aExp;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    shift128Right( aSig, 0, 4, &zSig0, &zSig1 );
15144b0fSOlivier Houchard    return packFloat128( aSign, aExp + 0x3C00, zSig0, zSig1 );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard#endif
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard#ifndef SOFTFLOAT_FOR_GCC
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardRounds the double-precision floating-point value `a' to an integer, and
15144b0fSOlivier Houchardreturns the result as a double-precision floating-point value.  The
15144b0fSOlivier Houchardoperation is performed according to the IEC/IEEE Standard for Binary
15144b0fSOlivier HouchardFloating-Point Arithmetic.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardfloat64 float64_round_to_int( float64 a )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    flag aSign;
15144b0fSOlivier Houchard    int16 aExp;
15144b0fSOlivier Houchard    bits64 lastBitMask, roundBitsMask;
15144b0fSOlivier Houchard    int8 roundingMode;
15144b0fSOlivier Houchard    float64 z;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    aExp = extractFloat64Exp( a );
15144b0fSOlivier Houchard    if ( 0x433 <= aExp ) {
15144b0fSOlivier Houchard        if ( ( aExp == 0x7FF ) && extractFloat64Frac( a ) ) {
15144b0fSOlivier Houchard            return propagateFloat64NaN( a, a );
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        return a;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( aExp < 0x3FF ) {
15144b0fSOlivier Houchard        if ( (bits64) ( a<<1 ) == 0 ) return a;
15144b0fSOlivier Houchard        float_exception_flags |= float_flag_inexact;
15144b0fSOlivier Houchard        aSign = extractFloat64Sign( a );
15144b0fSOlivier Houchard        switch ( float_rounding_mode ) {
15144b0fSOlivier Houchard         case float_round_nearest_even:
15144b0fSOlivier Houchard            if ( ( aExp == 0x3FE ) && extractFloat64Frac( a ) ) {
15144b0fSOlivier Houchard                return packFloat64( aSign, 0x3FF, 0 );
15144b0fSOlivier Houchard            }
15144b0fSOlivier Houchard            break;
15144b0fSOlivier Houchard	 case float_round_to_zero:
15144b0fSOlivier Houchard	    break;
15144b0fSOlivier Houchard         case float_round_down:
15144b0fSOlivier Houchard            return aSign ? LIT64( 0xBFF0000000000000 ) : 0;
15144b0fSOlivier Houchard         case float_round_up:
15144b0fSOlivier Houchard            return
15144b0fSOlivier Houchard            aSign ? LIT64( 0x8000000000000000 ) : LIT64( 0x3FF0000000000000 );
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        return packFloat64( aSign, 0, 0 );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    lastBitMask = 1;
15144b0fSOlivier Houchard    lastBitMask <<= 0x433 - aExp;
15144b0fSOlivier Houchard    roundBitsMask = lastBitMask - 1;
15144b0fSOlivier Houchard    z = a;
15144b0fSOlivier Houchard    roundingMode = float_rounding_mode;
15144b0fSOlivier Houchard    if ( roundingMode == float_round_nearest_even ) {
15144b0fSOlivier Houchard        z += lastBitMask>>1;
15144b0fSOlivier Houchard        if ( ( z & roundBitsMask ) == 0 ) z &= ~ lastBitMask;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    else if ( roundingMode != float_round_to_zero ) {
15144b0fSOlivier Houchard        if ( extractFloat64Sign( z ) ^ ( roundingMode == float_round_up ) ) {
15144b0fSOlivier Houchard            z += roundBitsMask;
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    z &= ~ roundBitsMask;
15144b0fSOlivier Houchard    if ( z != a ) float_exception_flags |= float_flag_inexact;
15144b0fSOlivier Houchard    return z;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard#endif
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns the result of adding the absolute values of the double-precision
15144b0fSOlivier Houchardfloating-point values `a' and `b'.  If `zSign' is 1, the sum is negated
15144b0fSOlivier Houchardbefore being returned.  `zSign' is ignored if the result is a NaN.
15144b0fSOlivier HouchardThe addition is performed according to the IEC/IEEE Standard for Binary
15144b0fSOlivier HouchardFloating-Point Arithmetic.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardstatic float64 addFloat64Sigs( float64 a, float64 b, flag zSign )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    int16 aExp, bExp, zExp;
15144b0fSOlivier Houchard    bits64 aSig, bSig, zSig;
15144b0fSOlivier Houchard    int16 expDiff;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    aSig = extractFloat64Frac( a );
15144b0fSOlivier Houchard    aExp = extractFloat64Exp( a );
15144b0fSOlivier Houchard    bSig = extractFloat64Frac( b );
15144b0fSOlivier Houchard    bExp = extractFloat64Exp( b );
15144b0fSOlivier Houchard    expDiff = aExp - bExp;
15144b0fSOlivier Houchard    aSig <<= 9;
15144b0fSOlivier Houchard    bSig <<= 9;
15144b0fSOlivier Houchard    if ( 0 < expDiff ) {
15144b0fSOlivier Houchard        if ( aExp == 0x7FF ) {
15144b0fSOlivier Houchard            if ( aSig ) return propagateFloat64NaN( a, b );
15144b0fSOlivier Houchard            return a;
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        if ( bExp == 0 ) {
15144b0fSOlivier Houchard            --expDiff;
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        else {
15144b0fSOlivier Houchard            bSig |= LIT64( 0x2000000000000000 );
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        shift64RightJamming( bSig, expDiff, &bSig );
15144b0fSOlivier Houchard        zExp = aExp;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    else if ( expDiff < 0 ) {
15144b0fSOlivier Houchard        if ( bExp == 0x7FF ) {
15144b0fSOlivier Houchard            if ( bSig ) return propagateFloat64NaN( a, b );
15144b0fSOlivier Houchard            return packFloat64( zSign, 0x7FF, 0 );
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        if ( aExp == 0 ) {
15144b0fSOlivier Houchard            ++expDiff;
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        else {
15144b0fSOlivier Houchard            aSig |= LIT64( 0x2000000000000000 );
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        shift64RightJamming( aSig, - expDiff, &aSig );
15144b0fSOlivier Houchard        zExp = bExp;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    else {
15144b0fSOlivier Houchard        if ( aExp == 0x7FF ) {
15144b0fSOlivier Houchard            if ( aSig | bSig ) return propagateFloat64NaN( a, b );
15144b0fSOlivier Houchard            return a;
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        if ( aExp == 0 ) return packFloat64( zSign, 0, ( aSig + bSig )>>9 );
15144b0fSOlivier Houchard        zSig = LIT64( 0x4000000000000000 ) + aSig + bSig;
15144b0fSOlivier Houchard        zExp = aExp;
15144b0fSOlivier Houchard        goto roundAndPack;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    aSig |= LIT64( 0x2000000000000000 );
15144b0fSOlivier Houchard    zSig = ( aSig + bSig )<<1;
15144b0fSOlivier Houchard    --zExp;
15144b0fSOlivier Houchard    if ( (sbits64) zSig < 0 ) {
15144b0fSOlivier Houchard        zSig = aSig + bSig;
15144b0fSOlivier Houchard        ++zExp;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard roundAndPack:
15144b0fSOlivier Houchard    return roundAndPackFloat64( zSign, zExp, zSig );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns the result of subtracting the absolute values of the double-
15144b0fSOlivier Houchardprecision floating-point values `a' and `b'.  If `zSign' is 1, the
15144b0fSOlivier Houcharddifference is negated before being returned.  `zSign' is ignored if the
15144b0fSOlivier Houchardresult is a NaN.  The subtraction is performed according to the IEC/IEEE
15144b0fSOlivier HouchardStandard for Binary Floating-Point Arithmetic.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardstatic float64 subFloat64Sigs( float64 a, float64 b, flag zSign )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    int16 aExp, bExp, zExp;
15144b0fSOlivier Houchard    bits64 aSig, bSig, zSig;
15144b0fSOlivier Houchard    int16 expDiff;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    aSig = extractFloat64Frac( a );
15144b0fSOlivier Houchard    aExp = extractFloat64Exp( a );
15144b0fSOlivier Houchard    bSig = extractFloat64Frac( b );
15144b0fSOlivier Houchard    bExp = extractFloat64Exp( b );
15144b0fSOlivier Houchard    expDiff = aExp - bExp;
15144b0fSOlivier Houchard    aSig <<= 10;
15144b0fSOlivier Houchard    bSig <<= 10;
15144b0fSOlivier Houchard    if ( 0 < expDiff ) goto aExpBigger;
15144b0fSOlivier Houchard    if ( expDiff < 0 ) goto bExpBigger;
15144b0fSOlivier Houchard    if ( aExp == 0x7FF ) {
15144b0fSOlivier Houchard        if ( aSig | bSig ) return propagateFloat64NaN( a, b );
15144b0fSOlivier Houchard        float_raise( float_flag_invalid );
15144b0fSOlivier Houchard        return float64_default_nan;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( aExp == 0 ) {
15144b0fSOlivier Houchard        aExp = 1;
15144b0fSOlivier Houchard        bExp = 1;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( bSig < aSig ) goto aBigger;
15144b0fSOlivier Houchard    if ( aSig < bSig ) goto bBigger;
15144b0fSOlivier Houchard    return packFloat64( float_rounding_mode == float_round_down, 0, 0 );
15144b0fSOlivier Houchard bExpBigger:
15144b0fSOlivier Houchard    if ( bExp == 0x7FF ) {
15144b0fSOlivier Houchard        if ( bSig ) return propagateFloat64NaN( a, b );
15144b0fSOlivier Houchard        return packFloat64( zSign ^ 1, 0x7FF, 0 );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( aExp == 0 ) {
15144b0fSOlivier Houchard        ++expDiff;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    else {
15144b0fSOlivier Houchard        aSig |= LIT64( 0x4000000000000000 );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    shift64RightJamming( aSig, - expDiff, &aSig );
15144b0fSOlivier Houchard    bSig |= LIT64( 0x4000000000000000 );
15144b0fSOlivier Houchard bBigger:
15144b0fSOlivier Houchard    zSig = bSig - aSig;
15144b0fSOlivier Houchard    zExp = bExp;
15144b0fSOlivier Houchard    zSign ^= 1;
15144b0fSOlivier Houchard    goto normalizeRoundAndPack;
15144b0fSOlivier Houchard aExpBigger:
15144b0fSOlivier Houchard    if ( aExp == 0x7FF ) {
15144b0fSOlivier Houchard        if ( aSig ) return propagateFloat64NaN( a, b );
15144b0fSOlivier Houchard        return a;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( bExp == 0 ) {
15144b0fSOlivier Houchard        --expDiff;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    else {
15144b0fSOlivier Houchard        bSig |= LIT64( 0x4000000000000000 );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    shift64RightJamming( bSig, expDiff, &bSig );
15144b0fSOlivier Houchard    aSig |= LIT64( 0x4000000000000000 );
15144b0fSOlivier Houchard aBigger:
15144b0fSOlivier Houchard    zSig = aSig - bSig;
15144b0fSOlivier Houchard    zExp = aExp;
15144b0fSOlivier Houchard normalizeRoundAndPack:
15144b0fSOlivier Houchard    --zExp;
15144b0fSOlivier Houchard    return normalizeRoundAndPackFloat64( zSign, zExp, zSig );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns the result of adding the double-precision floating-point values `a'
15144b0fSOlivier Houchardand `b'.  The operation is performed according to the IEC/IEEE Standard for
15144b0fSOlivier HouchardBinary Floating-Point Arithmetic.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardfloat64 float64_add( float64 a, float64 b )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    flag aSign, bSign;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    aSign = extractFloat64Sign( a );
15144b0fSOlivier Houchard    bSign = extractFloat64Sign( b );
15144b0fSOlivier Houchard    if ( aSign == bSign ) {
15144b0fSOlivier Houchard        return addFloat64Sigs( a, b, aSign );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    else {
15144b0fSOlivier Houchard        return subFloat64Sigs( a, b, aSign );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns the result of subtracting the double-precision floating-point values
15144b0fSOlivier Houchard`a' and `b'.  The operation is performed according to the IEC/IEEE Standard
15144b0fSOlivier Houchardfor Binary Floating-Point Arithmetic.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardfloat64 float64_sub( float64 a, float64 b )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    flag aSign, bSign;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    aSign = extractFloat64Sign( a );
15144b0fSOlivier Houchard    bSign = extractFloat64Sign( b );
15144b0fSOlivier Houchard    if ( aSign == bSign ) {
15144b0fSOlivier Houchard        return subFloat64Sigs( a, b, aSign );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    else {
15144b0fSOlivier Houchard        return addFloat64Sigs( a, b, aSign );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns the result of multiplying the double-precision floating-point values
15144b0fSOlivier Houchard`a' and `b'.  The operation is performed according to the IEC/IEEE Standard
15144b0fSOlivier Houchardfor Binary Floating-Point Arithmetic.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardfloat64 float64_mul( float64 a, float64 b )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    flag aSign, bSign, zSign;
15144b0fSOlivier Houchard    int16 aExp, bExp, zExp;
15144b0fSOlivier Houchard    bits64 aSig, bSig, zSig0, zSig1;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    aSig = extractFloat64Frac( a );
15144b0fSOlivier Houchard    aExp = extractFloat64Exp( a );
15144b0fSOlivier Houchard    aSign = extractFloat64Sign( a );
15144b0fSOlivier Houchard    bSig = extractFloat64Frac( b );
15144b0fSOlivier Houchard    bExp = extractFloat64Exp( b );
15144b0fSOlivier Houchard    bSign = extractFloat64Sign( b );
15144b0fSOlivier Houchard    zSign = aSign ^ bSign;
15144b0fSOlivier Houchard    if ( aExp == 0x7FF ) {
15144b0fSOlivier Houchard        if ( aSig || ( ( bExp == 0x7FF ) && bSig ) ) {
15144b0fSOlivier Houchard            return propagateFloat64NaN( a, b );
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        if ( ( bExp | bSig ) == 0 ) {
15144b0fSOlivier Houchard            float_raise( float_flag_invalid );
15144b0fSOlivier Houchard            return float64_default_nan;
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        return packFloat64( zSign, 0x7FF, 0 );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( bExp == 0x7FF ) {
15144b0fSOlivier Houchard        if ( bSig ) return propagateFloat64NaN( a, b );
15144b0fSOlivier Houchard        if ( ( aExp | aSig ) == 0 ) {
15144b0fSOlivier Houchard            float_raise( float_flag_invalid );
15144b0fSOlivier Houchard            return float64_default_nan;
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        return packFloat64( zSign, 0x7FF, 0 );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( aExp == 0 ) {
15144b0fSOlivier Houchard        if ( aSig == 0 ) return packFloat64( zSign, 0, 0 );
15144b0fSOlivier Houchard        normalizeFloat64Subnormal( aSig, &aExp, &aSig );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( bExp == 0 ) {
15144b0fSOlivier Houchard        if ( bSig == 0 ) return packFloat64( zSign, 0, 0 );
15144b0fSOlivier Houchard        normalizeFloat64Subnormal( bSig, &bExp, &bSig );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    zExp = aExp + bExp - 0x3FF;
15144b0fSOlivier Houchard    aSig = ( aSig | LIT64( 0x0010000000000000 ) )<<10;
15144b0fSOlivier Houchard    bSig = ( bSig | LIT64( 0x0010000000000000 ) )<<11;
15144b0fSOlivier Houchard    mul64To128( aSig, bSig, &zSig0, &zSig1 );
15144b0fSOlivier Houchard    zSig0 |= ( zSig1 != 0 );
15144b0fSOlivier Houchard    if ( 0 <= (sbits64) ( zSig0<<1 ) ) {
15144b0fSOlivier Houchard        zSig0 <<= 1;
15144b0fSOlivier Houchard        --zExp;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    return roundAndPackFloat64( zSign, zExp, zSig0 );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns the result of dividing the double-precision floating-point value `a'
15144b0fSOlivier Houchardby the corresponding value `b'.  The operation is performed according to
15144b0fSOlivier Houchardthe IEC/IEEE Standard for Binary Floating-Point Arithmetic.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardfloat64 float64_div( float64 a, float64 b )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    flag aSign, bSign, zSign;
15144b0fSOlivier Houchard    int16 aExp, bExp, zExp;
15144b0fSOlivier Houchard    bits64 aSig, bSig, zSig;
15144b0fSOlivier Houchard    bits64 rem0, rem1;
15144b0fSOlivier Houchard    bits64 term0, term1;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    aSig = extractFloat64Frac( a );
15144b0fSOlivier Houchard    aExp = extractFloat64Exp( a );
15144b0fSOlivier Houchard    aSign = extractFloat64Sign( a );
15144b0fSOlivier Houchard    bSig = extractFloat64Frac( b );
15144b0fSOlivier Houchard    bExp = extractFloat64Exp( b );
15144b0fSOlivier Houchard    bSign = extractFloat64Sign( b );
15144b0fSOlivier Houchard    zSign = aSign ^ bSign;
15144b0fSOlivier Houchard    if ( aExp == 0x7FF ) {
15144b0fSOlivier Houchard        if ( aSig ) return propagateFloat64NaN( a, b );
15144b0fSOlivier Houchard        if ( bExp == 0x7FF ) {
15144b0fSOlivier Houchard            if ( bSig ) return propagateFloat64NaN( a, b );
15144b0fSOlivier Houchard            float_raise( float_flag_invalid );
15144b0fSOlivier Houchard            return float64_default_nan;
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        return packFloat64( zSign, 0x7FF, 0 );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( bExp == 0x7FF ) {
15144b0fSOlivier Houchard        if ( bSig ) return propagateFloat64NaN( a, b );
15144b0fSOlivier Houchard        return packFloat64( zSign, 0, 0 );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( bExp == 0 ) {
15144b0fSOlivier Houchard        if ( bSig == 0 ) {
15144b0fSOlivier Houchard            if ( ( aExp | aSig ) == 0 ) {
15144b0fSOlivier Houchard                float_raise( float_flag_invalid );
15144b0fSOlivier Houchard                return float64_default_nan;
15144b0fSOlivier Houchard            }
15144b0fSOlivier Houchard            float_raise( float_flag_divbyzero );
15144b0fSOlivier Houchard            return packFloat64( zSign, 0x7FF, 0 );
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        normalizeFloat64Subnormal( bSig, &bExp, &bSig );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( aExp == 0 ) {
15144b0fSOlivier Houchard        if ( aSig == 0 ) return packFloat64( zSign, 0, 0 );
15144b0fSOlivier Houchard        normalizeFloat64Subnormal( aSig, &aExp, &aSig );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    zExp = aExp - bExp + 0x3FD;
15144b0fSOlivier Houchard    aSig = ( aSig | LIT64( 0x0010000000000000 ) )<<10;
15144b0fSOlivier Houchard    bSig = ( bSig | LIT64( 0x0010000000000000 ) )<<11;
15144b0fSOlivier Houchard    if ( bSig <= ( aSig + aSig ) ) {
15144b0fSOlivier Houchard        aSig >>= 1;
15144b0fSOlivier Houchard        ++zExp;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    zSig = estimateDiv128To64( aSig, 0, bSig );
15144b0fSOlivier Houchard    if ( ( zSig & 0x1FF ) <= 2 ) {
15144b0fSOlivier Houchard        mul64To128( bSig, zSig, &term0, &term1 );
15144b0fSOlivier Houchard        sub128( aSig, 0, term0, term1, &rem0, &rem1 );
15144b0fSOlivier Houchard        while ( (sbits64) rem0 < 0 ) {
15144b0fSOlivier Houchard            --zSig;
15144b0fSOlivier Houchard            add128( rem0, rem1, 0, bSig, &rem0, &rem1 );
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        zSig |= ( rem1 != 0 );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    return roundAndPackFloat64( zSign, zExp, zSig );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard#ifndef SOFTFLOAT_FOR_GCC
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns the remainder of the double-precision floating-point value `a'
15144b0fSOlivier Houchardwith respect to the corresponding value `b'.  The operation is performed
15144b0fSOlivier Houchardaccording to the IEC/IEEE Standard for Binary Floating-Point Arithmetic.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardfloat64 float64_rem( float64 a, float64 b )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    flag aSign, bSign, zSign;
15144b0fSOlivier Houchard    int16 aExp, bExp, expDiff;
15144b0fSOlivier Houchard    bits64 aSig, bSig;
15144b0fSOlivier Houchard    bits64 q, alternateASig;
15144b0fSOlivier Houchard    sbits64 sigMean;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    aSig = extractFloat64Frac( a );
15144b0fSOlivier Houchard    aExp = extractFloat64Exp( a );
15144b0fSOlivier Houchard    aSign = extractFloat64Sign( a );
15144b0fSOlivier Houchard    bSig = extractFloat64Frac( b );
15144b0fSOlivier Houchard    bExp = extractFloat64Exp( b );
15144b0fSOlivier Houchard    bSign = extractFloat64Sign( b );
15144b0fSOlivier Houchard    if ( aExp == 0x7FF ) {
15144b0fSOlivier Houchard        if ( aSig || ( ( bExp == 0x7FF ) && bSig ) ) {
15144b0fSOlivier Houchard            return propagateFloat64NaN( a, b );
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        float_raise( float_flag_invalid );
15144b0fSOlivier Houchard        return float64_default_nan;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( bExp == 0x7FF ) {
15144b0fSOlivier Houchard        if ( bSig ) return propagateFloat64NaN( a, b );
15144b0fSOlivier Houchard        return a;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( bExp == 0 ) {
15144b0fSOlivier Houchard        if ( bSig == 0 ) {
15144b0fSOlivier Houchard            float_raise( float_flag_invalid );
15144b0fSOlivier Houchard            return float64_default_nan;
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        normalizeFloat64Subnormal( bSig, &bExp, &bSig );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( aExp == 0 ) {
15144b0fSOlivier Houchard        if ( aSig == 0 ) return a;
15144b0fSOlivier Houchard        normalizeFloat64Subnormal( aSig, &aExp, &aSig );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    expDiff = aExp - bExp;
15144b0fSOlivier Houchard    aSig = ( aSig | LIT64( 0x0010000000000000 ) )<<11;
15144b0fSOlivier Houchard    bSig = ( bSig | LIT64( 0x0010000000000000 ) )<<11;
15144b0fSOlivier Houchard    if ( expDiff < 0 ) {
15144b0fSOlivier Houchard        if ( expDiff < -1 ) return a;
15144b0fSOlivier Houchard        aSig >>= 1;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    q = ( bSig <= aSig );
15144b0fSOlivier Houchard    if ( q ) aSig -= bSig;
15144b0fSOlivier Houchard    expDiff -= 64;
15144b0fSOlivier Houchard    while ( 0 < expDiff ) {
15144b0fSOlivier Houchard        q = estimateDiv128To64( aSig, 0, bSig );
15144b0fSOlivier Houchard        q = ( 2 < q ) ? q - 2 : 0;
15144b0fSOlivier Houchard        aSig = - ( ( bSig>>2 ) * q );
15144b0fSOlivier Houchard        expDiff -= 62;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    expDiff += 64;
15144b0fSOlivier Houchard    if ( 0 < expDiff ) {
15144b0fSOlivier Houchard        q = estimateDiv128To64( aSig, 0, bSig );
15144b0fSOlivier Houchard        q = ( 2 < q ) ? q - 2 : 0;
15144b0fSOlivier Houchard        q >>= 64 - expDiff;
15144b0fSOlivier Houchard        bSig >>= 2;
15144b0fSOlivier Houchard        aSig = ( ( aSig>>1 )<<( expDiff - 1 ) ) - bSig * q;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    else {
15144b0fSOlivier Houchard        aSig >>= 2;
15144b0fSOlivier Houchard        bSig >>= 2;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    do {
15144b0fSOlivier Houchard        alternateASig = aSig;
15144b0fSOlivier Houchard        ++q;
15144b0fSOlivier Houchard        aSig -= bSig;
15144b0fSOlivier Houchard    } while ( 0 <= (sbits64) aSig );
15144b0fSOlivier Houchard    sigMean = aSig + alternateASig;
15144b0fSOlivier Houchard    if ( ( sigMean < 0 ) || ( ( sigMean == 0 ) && ( q & 1 ) ) ) {
15144b0fSOlivier Houchard        aSig = alternateASig;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    zSign = ( (sbits64) aSig < 0 );
15144b0fSOlivier Houchard    if ( zSign ) aSig = - aSig;
15144b0fSOlivier Houchard    return normalizeRoundAndPackFloat64( aSign ^ zSign, bExp, aSig );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns the square root of the double-precision floating-point value `a'.
15144b0fSOlivier HouchardThe operation is performed according to the IEC/IEEE Standard for Binary
15144b0fSOlivier HouchardFloating-Point Arithmetic.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardfloat64 float64_sqrt( float64 a )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    flag aSign;
15144b0fSOlivier Houchard    int16 aExp, zExp;
15144b0fSOlivier Houchard    bits64 aSig, zSig, doubleZSig;
15144b0fSOlivier Houchard    bits64 rem0, rem1, term0, term1;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    aSig = extractFloat64Frac( a );
15144b0fSOlivier Houchard    aExp = extractFloat64Exp( a );
15144b0fSOlivier Houchard    aSign = extractFloat64Sign( a );
15144b0fSOlivier Houchard    if ( aExp == 0x7FF ) {
15144b0fSOlivier Houchard        if ( aSig ) return propagateFloat64NaN( a, a );
15144b0fSOlivier Houchard        if ( ! aSign ) return a;
15144b0fSOlivier Houchard        float_raise( float_flag_invalid );
15144b0fSOlivier Houchard        return float64_default_nan;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( aSign ) {
15144b0fSOlivier Houchard        if ( ( aExp | aSig ) == 0 ) return a;
15144b0fSOlivier Houchard        float_raise( float_flag_invalid );
15144b0fSOlivier Houchard        return float64_default_nan;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( aExp == 0 ) {
15144b0fSOlivier Houchard        if ( aSig == 0 ) return 0;
15144b0fSOlivier Houchard        normalizeFloat64Subnormal( aSig, &aExp, &aSig );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    zExp = ( ( aExp - 0x3FF )>>1 ) + 0x3FE;
15144b0fSOlivier Houchard    aSig |= LIT64( 0x0010000000000000 );
15144b0fSOlivier Houchard    zSig = estimateSqrt32( aExp, aSig>>21 );
15144b0fSOlivier Houchard    aSig <<= 9 - ( aExp & 1 );
15144b0fSOlivier Houchard    zSig = estimateDiv128To64( aSig, 0, zSig<<32 ) + ( zSig<<30 );
15144b0fSOlivier Houchard    if ( ( zSig & 0x1FF ) <= 5 ) {
15144b0fSOlivier Houchard        doubleZSig = zSig<<1;
15144b0fSOlivier Houchard        mul64To128( zSig, zSig, &term0, &term1 );
15144b0fSOlivier Houchard        sub128( aSig, 0, term0, term1, &rem0, &rem1 );
15144b0fSOlivier Houchard        while ( (sbits64) rem0 < 0 ) {
15144b0fSOlivier Houchard            --zSig;
15144b0fSOlivier Houchard            doubleZSig -= 2;
15144b0fSOlivier Houchard            add128( rem0, rem1, zSig>>63, doubleZSig | 1, &rem0, &rem1 );
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        zSig |= ( ( rem0 | rem1 ) != 0 );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    return roundAndPackFloat64( 0, zExp, zSig );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard#endif
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns 1 if the double-precision floating-point value `a' is equal to the
15144b0fSOlivier Houchardcorresponding value `b', and 0 otherwise.  The comparison is performed
15144b0fSOlivier Houchardaccording to the IEC/IEEE Standard for Binary Floating-Point Arithmetic.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardflag float64_eq( float64 a, float64 b )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    if (    ( ( extractFloat64Exp( a ) == 0x7FF ) && extractFloat64Frac( a ) )
15144b0fSOlivier Houchard         || ( ( extractFloat64Exp( b ) == 0x7FF ) && extractFloat64Frac( b ) )
15144b0fSOlivier Houchard       ) {
15144b0fSOlivier Houchard        if ( float64_is_signaling_nan( a ) || float64_is_signaling_nan( b ) ) {
15144b0fSOlivier Houchard            float_raise( float_flag_invalid );
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        return 0;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    return ( a == b ) ||
15144b0fSOlivier Houchard	( (bits64) ( ( FLOAT64_DEMANGLE(a) | FLOAT64_DEMANGLE(b) )<<1 ) == 0 );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns 1 if the double-precision floating-point value `a' is less than or
15144b0fSOlivier Houchardequal to the corresponding value `b', and 0 otherwise.  The comparison is
15144b0fSOlivier Houchardperformed according to the IEC/IEEE Standard for Binary Floating-Point
15144b0fSOlivier HouchardArithmetic.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardflag float64_le( float64 a, float64 b )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    flag aSign, bSign;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    if (    ( ( extractFloat64Exp( a ) == 0x7FF ) && extractFloat64Frac( a ) )
15144b0fSOlivier Houchard         || ( ( extractFloat64Exp( b ) == 0x7FF ) && extractFloat64Frac( b ) )
15144b0fSOlivier Houchard       ) {
15144b0fSOlivier Houchard        float_raise( float_flag_invalid );
15144b0fSOlivier Houchard        return 0;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    aSign = extractFloat64Sign( a );
15144b0fSOlivier Houchard    bSign = extractFloat64Sign( b );
15144b0fSOlivier Houchard    if ( aSign != bSign )
15144b0fSOlivier Houchard	return aSign ||
15144b0fSOlivier Houchard	    ( (bits64) ( ( FLOAT64_DEMANGLE(a) | FLOAT64_DEMANGLE(b) )<<1 ) ==
15144b0fSOlivier Houchard	      0 );
15144b0fSOlivier Houchard    return ( a == b ) ||
15144b0fSOlivier Houchard	( aSign ^ ( FLOAT64_DEMANGLE(a) < FLOAT64_DEMANGLE(b) ) );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns 1 if the double-precision floating-point value `a' is less than
15144b0fSOlivier Houchardthe corresponding value `b', and 0 otherwise.  The comparison is performed
15144b0fSOlivier Houchardaccording to the IEC/IEEE Standard for Binary Floating-Point Arithmetic.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardflag float64_lt( float64 a, float64 b )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    flag aSign, bSign;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    if (    ( ( extractFloat64Exp( a ) == 0x7FF ) && extractFloat64Frac( a ) )
15144b0fSOlivier Houchard         || ( ( extractFloat64Exp( b ) == 0x7FF ) && extractFloat64Frac( b ) )
15144b0fSOlivier Houchard       ) {
15144b0fSOlivier Houchard        float_raise( float_flag_invalid );
15144b0fSOlivier Houchard        return 0;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    aSign = extractFloat64Sign( a );
15144b0fSOlivier Houchard    bSign = extractFloat64Sign( b );
15144b0fSOlivier Houchard    if ( aSign != bSign )
15144b0fSOlivier Houchard	return aSign &&
15144b0fSOlivier Houchard	    ( (bits64) ( ( FLOAT64_DEMANGLE(a) | FLOAT64_DEMANGLE(b) )<<1 ) !=
15144b0fSOlivier Houchard	      0 );
15144b0fSOlivier Houchard    return ( a != b ) &&
15144b0fSOlivier Houchard	( aSign ^ ( FLOAT64_DEMANGLE(a) < FLOAT64_DEMANGLE(b) ) );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard#ifndef SOFTFLOAT_FOR_GCC
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns 1 if the double-precision floating-point value `a' is equal to the
15144b0fSOlivier Houchardcorresponding value `b', and 0 otherwise.  The invalid exception is raised
15144b0fSOlivier Houchardif either operand is a NaN.  Otherwise, the comparison is performed
15144b0fSOlivier Houchardaccording to the IEC/IEEE Standard for Binary Floating-Point Arithmetic.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardflag float64_eq_signaling( float64 a, float64 b )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    if (    ( ( extractFloat64Exp( a ) == 0x7FF ) && extractFloat64Frac( a ) )
15144b0fSOlivier Houchard         || ( ( extractFloat64Exp( b ) == 0x7FF ) && extractFloat64Frac( b ) )
15144b0fSOlivier Houchard       ) {
15144b0fSOlivier Houchard        float_raise( float_flag_invalid );
15144b0fSOlivier Houchard        return 0;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    return ( a == b ) || ( (bits64) ( ( a | b )<<1 ) == 0 );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns 1 if the double-precision floating-point value `a' is less than or
15144b0fSOlivier Houchardequal to the corresponding value `b', and 0 otherwise.  Quiet NaNs do not
15144b0fSOlivier Houchardcause an exception.  Otherwise, the comparison is performed according to the
15144b0fSOlivier HouchardIEC/IEEE Standard for Binary Floating-Point Arithmetic.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardflag float64_le_quiet( float64 a, float64 b )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    flag aSign, bSign;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    if (    ( ( extractFloat64Exp( a ) == 0x7FF ) && extractFloat64Frac( a ) )
15144b0fSOlivier Houchard         || ( ( extractFloat64Exp( b ) == 0x7FF ) && extractFloat64Frac( b ) )
15144b0fSOlivier Houchard       ) {
15144b0fSOlivier Houchard        if ( float64_is_signaling_nan( a ) || float64_is_signaling_nan( b ) ) {
15144b0fSOlivier Houchard            float_raise( float_flag_invalid );
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        return 0;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    aSign = extractFloat64Sign( a );
15144b0fSOlivier Houchard    bSign = extractFloat64Sign( b );
15144b0fSOlivier Houchard    if ( aSign != bSign ) return aSign || ( (bits64) ( ( a | b )<<1 ) == 0 );
15144b0fSOlivier Houchard    return ( a == b ) || ( aSign ^ ( a < b ) );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns 1 if the double-precision floating-point value `a' is less than
15144b0fSOlivier Houchardthe corresponding value `b', and 0 otherwise.  Quiet NaNs do not cause an
15144b0fSOlivier Houchardexception.  Otherwise, the comparison is performed according to the IEC/IEEE
15144b0fSOlivier HouchardStandard for Binary Floating-Point Arithmetic.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardflag float64_lt_quiet( float64 a, float64 b )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    flag aSign, bSign;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    if (    ( ( extractFloat64Exp( a ) == 0x7FF ) && extractFloat64Frac( a ) )
15144b0fSOlivier Houchard         || ( ( extractFloat64Exp( b ) == 0x7FF ) && extractFloat64Frac( b ) )
15144b0fSOlivier Houchard       ) {
15144b0fSOlivier Houchard        if ( float64_is_signaling_nan( a ) || float64_is_signaling_nan( b ) ) {
15144b0fSOlivier Houchard            float_raise( float_flag_invalid );
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        return 0;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    aSign = extractFloat64Sign( a );
15144b0fSOlivier Houchard    bSign = extractFloat64Sign( b );
15144b0fSOlivier Houchard    if ( aSign != bSign ) return aSign && ( (bits64) ( ( a | b )<<1 ) != 0 );
15144b0fSOlivier Houchard    return ( a != b ) && ( aSign ^ ( a < b ) );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard#endif
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard#ifdef FLOATX80
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns the result of converting the extended double-precision floating-
15144b0fSOlivier Houchardpoint value `a' to the 32-bit two's complement integer format.  The
15144b0fSOlivier Houchardconversion is performed according to the IEC/IEEE Standard for Binary
15144b0fSOlivier HouchardFloating-Point Arithmetic---which means in particular that the conversion
15144b0fSOlivier Houchardis rounded according to the current rounding mode.  If `a' is a NaN, the
15144b0fSOlivier Houchardlargest positive integer is returned.  Otherwise, if the conversion
15144b0fSOlivier Houchardoverflows, the largest integer with the same sign as `a' is returned.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardint32 floatx80_to_int32( floatx80 a )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    flag aSign;
15144b0fSOlivier Houchard    int32 aExp, shiftCount;
15144b0fSOlivier Houchard    bits64 aSig;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    aSig = extractFloatx80Frac( a );
15144b0fSOlivier Houchard    aExp = extractFloatx80Exp( a );
15144b0fSOlivier Houchard    aSign = extractFloatx80Sign( a );
15144b0fSOlivier Houchard    if ( ( aExp == 0x7FFF ) && (bits64) ( aSig<<1 ) ) aSign = 0;
15144b0fSOlivier Houchard    shiftCount = 0x4037 - aExp;
15144b0fSOlivier Houchard    if ( shiftCount <= 0 ) shiftCount = 1;
15144b0fSOlivier Houchard    shift64RightJamming( aSig, shiftCount, &aSig );
15144b0fSOlivier Houchard    return roundAndPackInt32( aSign, aSig );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns the result of converting the extended double-precision floating-
15144b0fSOlivier Houchardpoint value `a' to the 32-bit two's complement integer format.  The
15144b0fSOlivier Houchardconversion is performed according to the IEC/IEEE Standard for Binary
15144b0fSOlivier HouchardFloating-Point Arithmetic, except that the conversion is always rounded
15144b0fSOlivier Houchardtoward zero.  If `a' is a NaN, the largest positive integer is returned.
15144b0fSOlivier HouchardOtherwise, if the conversion overflows, the largest integer with the same
15144b0fSOlivier Houchardsign as `a' is returned.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardint32 floatx80_to_int32_round_to_zero( floatx80 a )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    flag aSign;
15144b0fSOlivier Houchard    int32 aExp, shiftCount;
15144b0fSOlivier Houchard    bits64 aSig, savedASig;
15144b0fSOlivier Houchard    int32 z;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    aSig = extractFloatx80Frac( a );
15144b0fSOlivier Houchard    aExp = extractFloatx80Exp( a );
15144b0fSOlivier Houchard    aSign = extractFloatx80Sign( a );
15144b0fSOlivier Houchard    if ( 0x401E < aExp ) {
15144b0fSOlivier Houchard        if ( ( aExp == 0x7FFF ) && (bits64) ( aSig<<1 ) ) aSign = 0;
15144b0fSOlivier Houchard        goto invalid;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    else if ( aExp < 0x3FFF ) {
15144b0fSOlivier Houchard        if ( aExp || aSig ) float_exception_flags |= float_flag_inexact;
15144b0fSOlivier Houchard        return 0;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    shiftCount = 0x403E - aExp;
15144b0fSOlivier Houchard    savedASig = aSig;
15144b0fSOlivier Houchard    aSig >>= shiftCount;
15144b0fSOlivier Houchard    z = aSig;
15144b0fSOlivier Houchard    if ( aSign ) z = - z;
15144b0fSOlivier Houchard    if ( ( z < 0 ) ^ aSign ) {
15144b0fSOlivier Houchard invalid:
15144b0fSOlivier Houchard        float_raise( float_flag_invalid );
15144b0fSOlivier Houchard        return aSign ? (sbits32) 0x80000000 : 0x7FFFFFFF;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( ( aSig<<shiftCount ) != savedASig ) {
15144b0fSOlivier Houchard        float_exception_flags |= float_flag_inexact;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    return z;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns the result of converting the extended double-precision floating-
15144b0fSOlivier Houchardpoint value `a' to the 64-bit two's complement integer format.  The
15144b0fSOlivier Houchardconversion is performed according to the IEC/IEEE Standard for Binary
15144b0fSOlivier HouchardFloating-Point Arithmetic---which means in particular that the conversion
15144b0fSOlivier Houchardis rounded according to the current rounding mode.  If `a' is a NaN,
15144b0fSOlivier Houchardthe largest positive integer is returned.  Otherwise, if the conversion
15144b0fSOlivier Houchardoverflows, the largest integer with the same sign as `a' is returned.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardint64 floatx80_to_int64( floatx80 a )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    flag aSign;
15144b0fSOlivier Houchard    int32 aExp, shiftCount;
15144b0fSOlivier Houchard    bits64 aSig, aSigExtra;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    aSig = extractFloatx80Frac( a );
15144b0fSOlivier Houchard    aExp = extractFloatx80Exp( a );
15144b0fSOlivier Houchard    aSign = extractFloatx80Sign( a );
15144b0fSOlivier Houchard    shiftCount = 0x403E - aExp;
15144b0fSOlivier Houchard    if ( shiftCount <= 0 ) {
15144b0fSOlivier Houchard        if ( shiftCount ) {
15144b0fSOlivier Houchard            float_raise( float_flag_invalid );
15144b0fSOlivier Houchard            if (    ! aSign
15144b0fSOlivier Houchard                 || (    ( aExp == 0x7FFF )
15144b0fSOlivier Houchard                      && ( aSig != LIT64( 0x8000000000000000 ) ) )
15144b0fSOlivier Houchard               ) {
15144b0fSOlivier Houchard                return LIT64( 0x7FFFFFFFFFFFFFFF );
15144b0fSOlivier Houchard            }
15144b0fSOlivier Houchard            return (sbits64) LIT64( 0x8000000000000000 );
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        aSigExtra = 0;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    else {
15144b0fSOlivier Houchard        shift64ExtraRightJamming( aSig, 0, shiftCount, &aSig, &aSigExtra );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    return roundAndPackInt64( aSign, aSig, aSigExtra );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns the result of converting the extended double-precision floating-
15144b0fSOlivier Houchardpoint value `a' to the 64-bit two's complement integer format.  The
15144b0fSOlivier Houchardconversion is performed according to the IEC/IEEE Standard for Binary
15144b0fSOlivier HouchardFloating-Point Arithmetic, except that the conversion is always rounded
15144b0fSOlivier Houchardtoward zero.  If `a' is a NaN, the largest positive integer is returned.
15144b0fSOlivier HouchardOtherwise, if the conversion overflows, the largest integer with the same
15144b0fSOlivier Houchardsign as `a' is returned.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardint64 floatx80_to_int64_round_to_zero( floatx80 a )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    flag aSign;
15144b0fSOlivier Houchard    int32 aExp, shiftCount;
15144b0fSOlivier Houchard    bits64 aSig;
15144b0fSOlivier Houchard    int64 z;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    aSig = extractFloatx80Frac( a );
15144b0fSOlivier Houchard    aExp = extractFloatx80Exp( a );
15144b0fSOlivier Houchard    aSign = extractFloatx80Sign( a );
15144b0fSOlivier Houchard    shiftCount = aExp - 0x403E;
15144b0fSOlivier Houchard    if ( 0 <= shiftCount ) {
15144b0fSOlivier Houchard        aSig &= LIT64( 0x7FFFFFFFFFFFFFFF );
15144b0fSOlivier Houchard        if ( ( a.high != 0xC03E ) || aSig ) {
15144b0fSOlivier Houchard            float_raise( float_flag_invalid );
15144b0fSOlivier Houchard            if ( ! aSign || ( ( aExp == 0x7FFF ) && aSig ) ) {
15144b0fSOlivier Houchard                return LIT64( 0x7FFFFFFFFFFFFFFF );
15144b0fSOlivier Houchard            }
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        return (sbits64) LIT64( 0x8000000000000000 );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    else if ( aExp < 0x3FFF ) {
15144b0fSOlivier Houchard        if ( aExp | aSig ) float_exception_flags |= float_flag_inexact;
15144b0fSOlivier Houchard        return 0;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    z = aSig>>( - shiftCount );
15144b0fSOlivier Houchard    if ( (bits64) ( aSig<<( shiftCount & 63 ) ) ) {
15144b0fSOlivier Houchard        float_exception_flags |= float_flag_inexact;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( aSign ) z = - z;
15144b0fSOlivier Houchard    return z;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns the result of converting the extended double-precision floating-
15144b0fSOlivier Houchardpoint value `a' to the single-precision floating-point format.  The
15144b0fSOlivier Houchardconversion is performed according to the IEC/IEEE Standard for Binary
15144b0fSOlivier HouchardFloating-Point Arithmetic.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardfloat32 floatx80_to_float32( floatx80 a )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    flag aSign;
15144b0fSOlivier Houchard    int32 aExp;
15144b0fSOlivier Houchard    bits64 aSig;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    aSig = extractFloatx80Frac( a );
15144b0fSOlivier Houchard    aExp = extractFloatx80Exp( a );
15144b0fSOlivier Houchard    aSign = extractFloatx80Sign( a );
15144b0fSOlivier Houchard    if ( aExp == 0x7FFF ) {
15144b0fSOlivier Houchard        if ( (bits64) ( aSig<<1 ) ) {
15144b0fSOlivier Houchard            return commonNaNToFloat32( floatx80ToCommonNaN( a ) );
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        return packFloat32( aSign, 0xFF, 0 );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    shift64RightJamming( aSig, 33, &aSig );
15144b0fSOlivier Houchard    if ( aExp || aSig ) aExp -= 0x3F81;
15144b0fSOlivier Houchard    return roundAndPackFloat32( aSign, aExp, aSig );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns the result of converting the extended double-precision floating-
15144b0fSOlivier Houchardpoint value `a' to the double-precision floating-point format.  The
15144b0fSOlivier Houchardconversion is performed according to the IEC/IEEE Standard for Binary
15144b0fSOlivier HouchardFloating-Point Arithmetic.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardfloat64 floatx80_to_float64( floatx80 a )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    flag aSign;
15144b0fSOlivier Houchard    int32 aExp;
15144b0fSOlivier Houchard    bits64 aSig, zSig;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    aSig = extractFloatx80Frac( a );
15144b0fSOlivier Houchard    aExp = extractFloatx80Exp( a );
15144b0fSOlivier Houchard    aSign = extractFloatx80Sign( a );
15144b0fSOlivier Houchard    if ( aExp == 0x7FFF ) {
15144b0fSOlivier Houchard        if ( (bits64) ( aSig<<1 ) ) {
15144b0fSOlivier Houchard            return commonNaNToFloat64( floatx80ToCommonNaN( a ) );
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        return packFloat64( aSign, 0x7FF, 0 );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    shift64RightJamming( aSig, 1, &zSig );
15144b0fSOlivier Houchard    if ( aExp || aSig ) aExp -= 0x3C01;
15144b0fSOlivier Houchard    return roundAndPackFloat64( aSign, aExp, zSig );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard#ifdef FLOAT128
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns the result of converting the extended double-precision floating-
15144b0fSOlivier Houchardpoint value `a' to the quadruple-precision floating-point format.  The
15144b0fSOlivier Houchardconversion is performed according to the IEC/IEEE Standard for Binary
15144b0fSOlivier HouchardFloating-Point Arithmetic.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardfloat128 floatx80_to_float128( floatx80 a )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    flag aSign;
15144b0fSOlivier Houchard    int16 aExp;
15144b0fSOlivier Houchard    bits64 aSig, zSig0, zSig1;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    aSig = extractFloatx80Frac( a );
15144b0fSOlivier Houchard    aExp = extractFloatx80Exp( a );
15144b0fSOlivier Houchard    aSign = extractFloatx80Sign( a );
15144b0fSOlivier Houchard    if ( ( aExp == 0x7FFF ) && (bits64) ( aSig<<1 ) ) {
15144b0fSOlivier Houchard        return commonNaNToFloat128( floatx80ToCommonNaN( a ) );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    shift128Right( aSig<<1, 0, 16, &zSig0, &zSig1 );
15144b0fSOlivier Houchard    return packFloat128( aSign, aExp, zSig0, zSig1 );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard#endif
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardRounds the extended double-precision floating-point value `a' to an integer,
15144b0fSOlivier Houchardand returns the result as an extended quadruple-precision floating-point
15144b0fSOlivier Houchardvalue.  The operation is performed according to the IEC/IEEE Standard for
15144b0fSOlivier HouchardBinary Floating-Point Arithmetic.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardfloatx80 floatx80_round_to_int( floatx80 a )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    flag aSign;
15144b0fSOlivier Houchard    int32 aExp;
15144b0fSOlivier Houchard    bits64 lastBitMask, roundBitsMask;
15144b0fSOlivier Houchard    int8 roundingMode;
15144b0fSOlivier Houchard    floatx80 z;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    aExp = extractFloatx80Exp( a );
15144b0fSOlivier Houchard    if ( 0x403E <= aExp ) {
15144b0fSOlivier Houchard        if ( ( aExp == 0x7FFF ) && (bits64) ( extractFloatx80Frac( a )<<1 ) ) {
15144b0fSOlivier Houchard            return propagateFloatx80NaN( a, a );
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        return a;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( aExp < 0x3FFF ) {
15144b0fSOlivier Houchard        if (    ( aExp == 0 )
15144b0fSOlivier Houchard             && ( (bits64) ( extractFloatx80Frac( a )<<1 ) == 0 ) ) {
15144b0fSOlivier Houchard            return a;
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        float_exception_flags |= float_flag_inexact;
15144b0fSOlivier Houchard        aSign = extractFloatx80Sign( a );
15144b0fSOlivier Houchard        switch ( float_rounding_mode ) {
15144b0fSOlivier Houchard         case float_round_nearest_even:
15144b0fSOlivier Houchard            if ( ( aExp == 0x3FFE ) && (bits64) ( extractFloatx80Frac( a )<<1 )
15144b0fSOlivier Houchard               ) {
15144b0fSOlivier Houchard                return
15144b0fSOlivier Houchard                    packFloatx80( aSign, 0x3FFF, LIT64( 0x8000000000000000 ) );
15144b0fSOlivier Houchard            }
15144b0fSOlivier Houchard            break;
15144b0fSOlivier Houchard	 case float_round_to_zero:
15144b0fSOlivier Houchard	    break;
15144b0fSOlivier Houchard         case float_round_down:
15144b0fSOlivier Houchard            return
15144b0fSOlivier Houchard                  aSign ?
15144b0fSOlivier Houchard                      packFloatx80( 1, 0x3FFF, LIT64( 0x8000000000000000 ) )
15144b0fSOlivier Houchard                : packFloatx80( 0, 0, 0 );
15144b0fSOlivier Houchard         case float_round_up:
15144b0fSOlivier Houchard            return
15144b0fSOlivier Houchard                  aSign ? packFloatx80( 1, 0, 0 )
15144b0fSOlivier Houchard                : packFloatx80( 0, 0x3FFF, LIT64( 0x8000000000000000 ) );
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        return packFloatx80( aSign, 0, 0 );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    lastBitMask = 1;
15144b0fSOlivier Houchard    lastBitMask <<= 0x403E - aExp;
15144b0fSOlivier Houchard    roundBitsMask = lastBitMask - 1;
15144b0fSOlivier Houchard    z = a;
15144b0fSOlivier Houchard    roundingMode = float_rounding_mode;
15144b0fSOlivier Houchard    if ( roundingMode == float_round_nearest_even ) {
15144b0fSOlivier Houchard        z.low += lastBitMask>>1;
15144b0fSOlivier Houchard        if ( ( z.low & roundBitsMask ) == 0 ) z.low &= ~ lastBitMask;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    else if ( roundingMode != float_round_to_zero ) {
15144b0fSOlivier Houchard        if ( extractFloatx80Sign( z ) ^ ( roundingMode == float_round_up ) ) {
15144b0fSOlivier Houchard            z.low += roundBitsMask;
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    z.low &= ~ roundBitsMask;
15144b0fSOlivier Houchard    if ( z.low == 0 ) {
15144b0fSOlivier Houchard        ++z.high;
15144b0fSOlivier Houchard        z.low = LIT64( 0x8000000000000000 );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( z.low != a.low ) float_exception_flags |= float_flag_inexact;
15144b0fSOlivier Houchard    return z;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns the result of adding the absolute values of the extended double-
15144b0fSOlivier Houchardprecision floating-point values `a' and `b'.  If `zSign' is 1, the sum is
15144b0fSOlivier Houchardnegated before being returned.  `zSign' is ignored if the result is a NaN.
15144b0fSOlivier HouchardThe addition is performed according to the IEC/IEEE Standard for Binary
15144b0fSOlivier HouchardFloating-Point Arithmetic.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardstatic floatx80 addFloatx80Sigs( floatx80 a, floatx80 b, flag zSign )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    int32 aExp, bExp, zExp;
15144b0fSOlivier Houchard    bits64 aSig, bSig, zSig0, zSig1;
15144b0fSOlivier Houchard    int32 expDiff;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    aSig = extractFloatx80Frac( a );
15144b0fSOlivier Houchard    aExp = extractFloatx80Exp( a );
15144b0fSOlivier Houchard    bSig = extractFloatx80Frac( b );
15144b0fSOlivier Houchard    bExp = extractFloatx80Exp( b );
15144b0fSOlivier Houchard    expDiff = aExp - bExp;
15144b0fSOlivier Houchard    if ( 0 < expDiff ) {
15144b0fSOlivier Houchard        if ( aExp == 0x7FFF ) {
15144b0fSOlivier Houchard            if ( (bits64) ( aSig<<1 ) ) return propagateFloatx80NaN( a, b );
15144b0fSOlivier Houchard            return a;
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        if ( bExp == 0 ) --expDiff;
15144b0fSOlivier Houchard        shift64ExtraRightJamming( bSig, 0, expDiff, &bSig, &zSig1 );
15144b0fSOlivier Houchard        zExp = aExp;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    else if ( expDiff < 0 ) {
15144b0fSOlivier Houchard        if ( bExp == 0x7FFF ) {
15144b0fSOlivier Houchard            if ( (bits64) ( bSig<<1 ) ) return propagateFloatx80NaN( a, b );
15144b0fSOlivier Houchard            return packFloatx80( zSign, 0x7FFF, LIT64( 0x8000000000000000 ) );
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        if ( aExp == 0 ) ++expDiff;
15144b0fSOlivier Houchard        shift64ExtraRightJamming( aSig, 0, - expDiff, &aSig, &zSig1 );
15144b0fSOlivier Houchard        zExp = bExp;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    else {
15144b0fSOlivier Houchard        if ( aExp == 0x7FFF ) {
15144b0fSOlivier Houchard            if ( (bits64) ( ( aSig | bSig )<<1 ) ) {
15144b0fSOlivier Houchard                return propagateFloatx80NaN( a, b );
15144b0fSOlivier Houchard            }
15144b0fSOlivier Houchard            return a;
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        zSig1 = 0;
15144b0fSOlivier Houchard        zSig0 = aSig + bSig;
15144b0fSOlivier Houchard        if ( aExp == 0 ) {
15144b0fSOlivier Houchard            normalizeFloatx80Subnormal( zSig0, &zExp, &zSig0 );
15144b0fSOlivier Houchard            goto roundAndPack;
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        zExp = aExp;
15144b0fSOlivier Houchard        goto shiftRight1;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    zSig0 = aSig + bSig;
15144b0fSOlivier Houchard    if ( (sbits64) zSig0 < 0 ) goto roundAndPack;
15144b0fSOlivier Houchard shiftRight1:
15144b0fSOlivier Houchard    shift64ExtraRightJamming( zSig0, zSig1, 1, &zSig0, &zSig1 );
15144b0fSOlivier Houchard    zSig0 |= LIT64( 0x8000000000000000 );
15144b0fSOlivier Houchard    ++zExp;
15144b0fSOlivier Houchard roundAndPack:
15144b0fSOlivier Houchard    return
15144b0fSOlivier Houchard        roundAndPackFloatx80(
15144b0fSOlivier Houchard            floatx80_rounding_precision, zSign, zExp, zSig0, zSig1 );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns the result of subtracting the absolute values of the extended
15144b0fSOlivier Houcharddouble-precision floating-point values `a' and `b'.  If `zSign' is 1, the
15144b0fSOlivier Houcharddifference is negated before being returned.  `zSign' is ignored if the
15144b0fSOlivier Houchardresult is a NaN.  The subtraction is performed according to the IEC/IEEE
15144b0fSOlivier HouchardStandard for Binary Floating-Point Arithmetic.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardstatic floatx80 subFloatx80Sigs( floatx80 a, floatx80 b, flag zSign )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    int32 aExp, bExp, zExp;
15144b0fSOlivier Houchard    bits64 aSig, bSig, zSig0, zSig1;
15144b0fSOlivier Houchard    int32 expDiff;
15144b0fSOlivier Houchard    floatx80 z;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    aSig = extractFloatx80Frac( a );
15144b0fSOlivier Houchard    aExp = extractFloatx80Exp( a );
15144b0fSOlivier Houchard    bSig = extractFloatx80Frac( b );
15144b0fSOlivier Houchard    bExp = extractFloatx80Exp( b );
15144b0fSOlivier Houchard    expDiff = aExp - bExp;
15144b0fSOlivier Houchard    if ( 0 < expDiff ) goto aExpBigger;
15144b0fSOlivier Houchard    if ( expDiff < 0 ) goto bExpBigger;
15144b0fSOlivier Houchard    if ( aExp == 0x7FFF ) {
15144b0fSOlivier Houchard        if ( (bits64) ( ( aSig | bSig )<<1 ) ) {
15144b0fSOlivier Houchard            return propagateFloatx80NaN( a, b );
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        float_raise( float_flag_invalid );
15144b0fSOlivier Houchard        z.low = floatx80_default_nan_low;
15144b0fSOlivier Houchard        z.high = floatx80_default_nan_high;
15144b0fSOlivier Houchard        return z;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( aExp == 0 ) {
15144b0fSOlivier Houchard        aExp = 1;
15144b0fSOlivier Houchard        bExp = 1;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    zSig1 = 0;
15144b0fSOlivier Houchard    if ( bSig < aSig ) goto aBigger;
15144b0fSOlivier Houchard    if ( aSig < bSig ) goto bBigger;
15144b0fSOlivier Houchard    return packFloatx80( float_rounding_mode == float_round_down, 0, 0 );
15144b0fSOlivier Houchard bExpBigger:
15144b0fSOlivier Houchard    if ( bExp == 0x7FFF ) {
15144b0fSOlivier Houchard        if ( (bits64) ( bSig<<1 ) ) return propagateFloatx80NaN( a, b );
15144b0fSOlivier Houchard        return packFloatx80( zSign ^ 1, 0x7FFF, LIT64( 0x8000000000000000 ) );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( aExp == 0 ) ++expDiff;
15144b0fSOlivier Houchard    shift128RightJamming( aSig, 0, - expDiff, &aSig, &zSig1 );
15144b0fSOlivier Houchard bBigger:
15144b0fSOlivier Houchard    sub128( bSig, 0, aSig, zSig1, &zSig0, &zSig1 );
15144b0fSOlivier Houchard    zExp = bExp;
15144b0fSOlivier Houchard    zSign ^= 1;
15144b0fSOlivier Houchard    goto normalizeRoundAndPack;
15144b0fSOlivier Houchard aExpBigger:
15144b0fSOlivier Houchard    if ( aExp == 0x7FFF ) {
15144b0fSOlivier Houchard        if ( (bits64) ( aSig<<1 ) ) return propagateFloatx80NaN( a, b );
15144b0fSOlivier Houchard        return a;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( bExp == 0 ) --expDiff;
15144b0fSOlivier Houchard    shift128RightJamming( bSig, 0, expDiff, &bSig, &zSig1 );
15144b0fSOlivier Houchard aBigger:
15144b0fSOlivier Houchard    sub128( aSig, 0, bSig, zSig1, &zSig0, &zSig1 );
15144b0fSOlivier Houchard    zExp = aExp;
15144b0fSOlivier Houchard normalizeRoundAndPack:
15144b0fSOlivier Houchard    return
15144b0fSOlivier Houchard        normalizeRoundAndPackFloatx80(
15144b0fSOlivier Houchard            floatx80_rounding_precision, zSign, zExp, zSig0, zSig1 );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns the result of adding the extended double-precision floating-point
15144b0fSOlivier Houchardvalues `a' and `b'.  The operation is performed according to the IEC/IEEE
15144b0fSOlivier HouchardStandard for Binary Floating-Point Arithmetic.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardfloatx80 floatx80_add( floatx80 a, floatx80 b )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    flag aSign, bSign;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    aSign = extractFloatx80Sign( a );
15144b0fSOlivier Houchard    bSign = extractFloatx80Sign( b );
15144b0fSOlivier Houchard    if ( aSign == bSign ) {
15144b0fSOlivier Houchard        return addFloatx80Sigs( a, b, aSign );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    else {
15144b0fSOlivier Houchard        return subFloatx80Sigs( a, b, aSign );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns the result of subtracting the extended double-precision floating-
15144b0fSOlivier Houchardpoint values `a' and `b'.  The operation is performed according to the
15144b0fSOlivier HouchardIEC/IEEE Standard for Binary Floating-Point Arithmetic.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardfloatx80 floatx80_sub( floatx80 a, floatx80 b )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    flag aSign, bSign;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    aSign = extractFloatx80Sign( a );
15144b0fSOlivier Houchard    bSign = extractFloatx80Sign( b );
15144b0fSOlivier Houchard    if ( aSign == bSign ) {
15144b0fSOlivier Houchard        return subFloatx80Sigs( a, b, aSign );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    else {
15144b0fSOlivier Houchard        return addFloatx80Sigs( a, b, aSign );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns the result of multiplying the extended double-precision floating-
15144b0fSOlivier Houchardpoint values `a' and `b'.  The operation is performed according to the
15144b0fSOlivier HouchardIEC/IEEE Standard for Binary Floating-Point Arithmetic.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardfloatx80 floatx80_mul( floatx80 a, floatx80 b )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    flag aSign, bSign, zSign;
15144b0fSOlivier Houchard    int32 aExp, bExp, zExp;
15144b0fSOlivier Houchard    bits64 aSig, bSig, zSig0, zSig1;
15144b0fSOlivier Houchard    floatx80 z;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    aSig = extractFloatx80Frac( a );
15144b0fSOlivier Houchard    aExp = extractFloatx80Exp( a );
15144b0fSOlivier Houchard    aSign = extractFloatx80Sign( a );
15144b0fSOlivier Houchard    bSig = extractFloatx80Frac( b );
15144b0fSOlivier Houchard    bExp = extractFloatx80Exp( b );
15144b0fSOlivier Houchard    bSign = extractFloatx80Sign( b );
15144b0fSOlivier Houchard    zSign = aSign ^ bSign;
15144b0fSOlivier Houchard    if ( aExp == 0x7FFF ) {
15144b0fSOlivier Houchard        if (    (bits64) ( aSig<<1 )
15144b0fSOlivier Houchard             || ( ( bExp == 0x7FFF ) && (bits64) ( bSig<<1 ) ) ) {
15144b0fSOlivier Houchard            return propagateFloatx80NaN( a, b );
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        if ( ( bExp | bSig ) == 0 ) goto invalid;
15144b0fSOlivier Houchard        return packFloatx80( zSign, 0x7FFF, LIT64( 0x8000000000000000 ) );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( bExp == 0x7FFF ) {
15144b0fSOlivier Houchard        if ( (bits64) ( bSig<<1 ) ) return propagateFloatx80NaN( a, b );
15144b0fSOlivier Houchard        if ( ( aExp | aSig ) == 0 ) {
15144b0fSOlivier Houchard invalid:
15144b0fSOlivier Houchard            float_raise( float_flag_invalid );
15144b0fSOlivier Houchard            z.low = floatx80_default_nan_low;
15144b0fSOlivier Houchard            z.high = floatx80_default_nan_high;
15144b0fSOlivier Houchard            return z;
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        return packFloatx80( zSign, 0x7FFF, LIT64( 0x8000000000000000 ) );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( aExp == 0 ) {
15144b0fSOlivier Houchard        if ( aSig == 0 ) return packFloatx80( zSign, 0, 0 );
15144b0fSOlivier Houchard        normalizeFloatx80Subnormal( aSig, &aExp, &aSig );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( bExp == 0 ) {
15144b0fSOlivier Houchard        if ( bSig == 0 ) return packFloatx80( zSign, 0, 0 );
15144b0fSOlivier Houchard        normalizeFloatx80Subnormal( bSig, &bExp, &bSig );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    zExp = aExp + bExp - 0x3FFE;
15144b0fSOlivier Houchard    mul64To128( aSig, bSig, &zSig0, &zSig1 );
15144b0fSOlivier Houchard    if ( 0 < (sbits64) zSig0 ) {
15144b0fSOlivier Houchard        shortShift128Left( zSig0, zSig1, 1, &zSig0, &zSig1 );
15144b0fSOlivier Houchard        --zExp;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    return
15144b0fSOlivier Houchard        roundAndPackFloatx80(
15144b0fSOlivier Houchard            floatx80_rounding_precision, zSign, zExp, zSig0, zSig1 );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns the result of dividing the extended double-precision floating-point
15144b0fSOlivier Houchardvalue `a' by the corresponding value `b'.  The operation is performed
15144b0fSOlivier Houchardaccording to the IEC/IEEE Standard for Binary Floating-Point Arithmetic.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardfloatx80 floatx80_div( floatx80 a, floatx80 b )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    flag aSign, bSign, zSign;
15144b0fSOlivier Houchard    int32 aExp, bExp, zExp;
15144b0fSOlivier Houchard    bits64 aSig, bSig, zSig0, zSig1;
15144b0fSOlivier Houchard    bits64 rem0, rem1, rem2, term0, term1, term2;
15144b0fSOlivier Houchard    floatx80 z;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    aSig = extractFloatx80Frac( a );
15144b0fSOlivier Houchard    aExp = extractFloatx80Exp( a );
15144b0fSOlivier Houchard    aSign = extractFloatx80Sign( a );
15144b0fSOlivier Houchard    bSig = extractFloatx80Frac( b );
15144b0fSOlivier Houchard    bExp = extractFloatx80Exp( b );
15144b0fSOlivier Houchard    bSign = extractFloatx80Sign( b );
15144b0fSOlivier Houchard    zSign = aSign ^ bSign;
15144b0fSOlivier Houchard    if ( aExp == 0x7FFF ) {
15144b0fSOlivier Houchard        if ( (bits64) ( aSig<<1 ) ) return propagateFloatx80NaN( a, b );
15144b0fSOlivier Houchard        if ( bExp == 0x7FFF ) {
15144b0fSOlivier Houchard            if ( (bits64) ( bSig<<1 ) ) return propagateFloatx80NaN( a, b );
15144b0fSOlivier Houchard            goto invalid;
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        return packFloatx80( zSign, 0x7FFF, LIT64( 0x8000000000000000 ) );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( bExp == 0x7FFF ) {
15144b0fSOlivier Houchard        if ( (bits64) ( bSig<<1 ) ) return propagateFloatx80NaN( a, b );
15144b0fSOlivier Houchard        return packFloatx80( zSign, 0, 0 );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( bExp == 0 ) {
15144b0fSOlivier Houchard        if ( bSig == 0 ) {
15144b0fSOlivier Houchard            if ( ( aExp | aSig ) == 0 ) {
15144b0fSOlivier Houchard invalid:
15144b0fSOlivier Houchard                float_raise( float_flag_invalid );
15144b0fSOlivier Houchard                z.low = floatx80_default_nan_low;
15144b0fSOlivier Houchard                z.high = floatx80_default_nan_high;
15144b0fSOlivier Houchard                return z;
15144b0fSOlivier Houchard            }
15144b0fSOlivier Houchard            float_raise( float_flag_divbyzero );
15144b0fSOlivier Houchard            return packFloatx80( zSign, 0x7FFF, LIT64( 0x8000000000000000 ) );
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        normalizeFloatx80Subnormal( bSig, &bExp, &bSig );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( aExp == 0 ) {
15144b0fSOlivier Houchard        if ( aSig == 0 ) return packFloatx80( zSign, 0, 0 );
15144b0fSOlivier Houchard        normalizeFloatx80Subnormal( aSig, &aExp, &aSig );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    zExp = aExp - bExp + 0x3FFE;
15144b0fSOlivier Houchard    rem1 = 0;
15144b0fSOlivier Houchard    if ( bSig <= aSig ) {
15144b0fSOlivier Houchard        shift128Right( aSig, 0, 1, &aSig, &rem1 );
15144b0fSOlivier Houchard        ++zExp;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    zSig0 = estimateDiv128To64( aSig, rem1, bSig );
15144b0fSOlivier Houchard    mul64To128( bSig, zSig0, &term0, &term1 );
15144b0fSOlivier Houchard    sub128( aSig, rem1, term0, term1, &rem0, &rem1 );
15144b0fSOlivier Houchard    while ( (sbits64) rem0 < 0 ) {
15144b0fSOlivier Houchard        --zSig0;
15144b0fSOlivier Houchard        add128( rem0, rem1, 0, bSig, &rem0, &rem1 );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    zSig1 = estimateDiv128To64( rem1, 0, bSig );
15144b0fSOlivier Houchard    if ( (bits64) ( zSig1<<1 ) <= 8 ) {
15144b0fSOlivier Houchard        mul64To128( bSig, zSig1, &term1, &term2 );
15144b0fSOlivier Houchard        sub128( rem1, 0, term1, term2, &rem1, &rem2 );
15144b0fSOlivier Houchard        while ( (sbits64) rem1 < 0 ) {
15144b0fSOlivier Houchard            --zSig1;
15144b0fSOlivier Houchard            add128( rem1, rem2, 0, bSig, &rem1, &rem2 );
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        zSig1 |= ( ( rem1 | rem2 ) != 0 );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    return
15144b0fSOlivier Houchard        roundAndPackFloatx80(
15144b0fSOlivier Houchard            floatx80_rounding_precision, zSign, zExp, zSig0, zSig1 );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns the remainder of the extended double-precision floating-point value
15144b0fSOlivier Houchard`a' with respect to the corresponding value `b'.  The operation is performed
15144b0fSOlivier Houchardaccording to the IEC/IEEE Standard for Binary Floating-Point Arithmetic.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardfloatx80 floatx80_rem( floatx80 a, floatx80 b )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    flag aSign, bSign, zSign;
15144b0fSOlivier Houchard    int32 aExp, bExp, expDiff;
15144b0fSOlivier Houchard    bits64 aSig0, aSig1, bSig;
15144b0fSOlivier Houchard    bits64 q, term0, term1, alternateASig0, alternateASig1;
15144b0fSOlivier Houchard    floatx80 z;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    aSig0 = extractFloatx80Frac( a );
15144b0fSOlivier Houchard    aExp = extractFloatx80Exp( a );
15144b0fSOlivier Houchard    aSign = extractFloatx80Sign( a );
15144b0fSOlivier Houchard    bSig = extractFloatx80Frac( b );
15144b0fSOlivier Houchard    bExp = extractFloatx80Exp( b );
15144b0fSOlivier Houchard    bSign = extractFloatx80Sign( b );
15144b0fSOlivier Houchard    if ( aExp == 0x7FFF ) {
15144b0fSOlivier Houchard        if (    (bits64) ( aSig0<<1 )
15144b0fSOlivier Houchard             || ( ( bExp == 0x7FFF ) && (bits64) ( bSig<<1 ) ) ) {
15144b0fSOlivier Houchard            return propagateFloatx80NaN( a, b );
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        goto invalid;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( bExp == 0x7FFF ) {
15144b0fSOlivier Houchard        if ( (bits64) ( bSig<<1 ) ) return propagateFloatx80NaN( a, b );
15144b0fSOlivier Houchard        return a;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( bExp == 0 ) {
15144b0fSOlivier Houchard        if ( bSig == 0 ) {
15144b0fSOlivier Houchard invalid:
15144b0fSOlivier Houchard            float_raise( float_flag_invalid );
15144b0fSOlivier Houchard            z.low = floatx80_default_nan_low;
15144b0fSOlivier Houchard            z.high = floatx80_default_nan_high;
15144b0fSOlivier Houchard            return z;
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        normalizeFloatx80Subnormal( bSig, &bExp, &bSig );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( aExp == 0 ) {
15144b0fSOlivier Houchard        if ( (bits64) ( aSig0<<1 ) == 0 ) return a;
15144b0fSOlivier Houchard        normalizeFloatx80Subnormal( aSig0, &aExp, &aSig0 );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    bSig |= LIT64( 0x8000000000000000 );
15144b0fSOlivier Houchard    zSign = aSign;
15144b0fSOlivier Houchard    expDiff = aExp - bExp;
15144b0fSOlivier Houchard    aSig1 = 0;
15144b0fSOlivier Houchard    if ( expDiff < 0 ) {
15144b0fSOlivier Houchard        if ( expDiff < -1 ) return a;
15144b0fSOlivier Houchard        shift128Right( aSig0, 0, 1, &aSig0, &aSig1 );
15144b0fSOlivier Houchard        expDiff = 0;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    q = ( bSig <= aSig0 );
15144b0fSOlivier Houchard    if ( q ) aSig0 -= bSig;
15144b0fSOlivier Houchard    expDiff -= 64;
15144b0fSOlivier Houchard    while ( 0 < expDiff ) {
15144b0fSOlivier Houchard        q = estimateDiv128To64( aSig0, aSig1, bSig );
15144b0fSOlivier Houchard        q = ( 2 < q ) ? q - 2 : 0;
15144b0fSOlivier Houchard        mul64To128( bSig, q, &term0, &term1 );
15144b0fSOlivier Houchard        sub128( aSig0, aSig1, term0, term1, &aSig0, &aSig1 );
15144b0fSOlivier Houchard        shortShift128Left( aSig0, aSig1, 62, &aSig0, &aSig1 );
15144b0fSOlivier Houchard        expDiff -= 62;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    expDiff += 64;
15144b0fSOlivier Houchard    if ( 0 < expDiff ) {
15144b0fSOlivier Houchard        q = estimateDiv128To64( aSig0, aSig1, bSig );
15144b0fSOlivier Houchard        q = ( 2 < q ) ? q - 2 : 0;
15144b0fSOlivier Houchard        q >>= 64 - expDiff;
15144b0fSOlivier Houchard        mul64To128( bSig, q<<( 64 - expDiff ), &term0, &term1 );
15144b0fSOlivier Houchard        sub128( aSig0, aSig1, term0, term1, &aSig0, &aSig1 );
15144b0fSOlivier Houchard        shortShift128Left( 0, bSig, 64 - expDiff, &term0, &term1 );
15144b0fSOlivier Houchard        while ( le128( term0, term1, aSig0, aSig1 ) ) {
15144b0fSOlivier Houchard            ++q;
15144b0fSOlivier Houchard            sub128( aSig0, aSig1, term0, term1, &aSig0, &aSig1 );
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    else {
15144b0fSOlivier Houchard        term1 = 0;
15144b0fSOlivier Houchard        term0 = bSig;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    sub128( term0, term1, aSig0, aSig1, &alternateASig0, &alternateASig1 );
15144b0fSOlivier Houchard    if (    lt128( alternateASig0, alternateASig1, aSig0, aSig1 )
15144b0fSOlivier Houchard         || (    eq128( alternateASig0, alternateASig1, aSig0, aSig1 )
15144b0fSOlivier Houchard              && ( q & 1 ) )
15144b0fSOlivier Houchard       ) {
15144b0fSOlivier Houchard        aSig0 = alternateASig0;
15144b0fSOlivier Houchard        aSig1 = alternateASig1;
15144b0fSOlivier Houchard        zSign = ! zSign;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    return
15144b0fSOlivier Houchard        normalizeRoundAndPackFloatx80(
15144b0fSOlivier Houchard            80, zSign, bExp + expDiff, aSig0, aSig1 );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns the square root of the extended double-precision floating-point
15144b0fSOlivier Houchardvalue `a'.  The operation is performed according to the IEC/IEEE Standard
15144b0fSOlivier Houchardfor Binary Floating-Point Arithmetic.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardfloatx80 floatx80_sqrt( floatx80 a )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    flag aSign;
15144b0fSOlivier Houchard    int32 aExp, zExp;
15144b0fSOlivier Houchard    bits64 aSig0, aSig1, zSig0, zSig1, doubleZSig0;
15144b0fSOlivier Houchard    bits64 rem0, rem1, rem2, rem3, term0, term1, term2, term3;
15144b0fSOlivier Houchard    floatx80 z;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    aSig0 = extractFloatx80Frac( a );
15144b0fSOlivier Houchard    aExp = extractFloatx80Exp( a );
15144b0fSOlivier Houchard    aSign = extractFloatx80Sign( a );
15144b0fSOlivier Houchard    if ( aExp == 0x7FFF ) {
15144b0fSOlivier Houchard        if ( (bits64) ( aSig0<<1 ) ) return propagateFloatx80NaN( a, a );
15144b0fSOlivier Houchard        if ( ! aSign ) return a;
15144b0fSOlivier Houchard        goto invalid;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( aSign ) {
15144b0fSOlivier Houchard        if ( ( aExp | aSig0 ) == 0 ) return a;
15144b0fSOlivier Houchard invalid:
15144b0fSOlivier Houchard        float_raise( float_flag_invalid );
15144b0fSOlivier Houchard        z.low = floatx80_default_nan_low;
15144b0fSOlivier Houchard        z.high = floatx80_default_nan_high;
15144b0fSOlivier Houchard        return z;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( aExp == 0 ) {
15144b0fSOlivier Houchard        if ( aSig0 == 0 ) return packFloatx80( 0, 0, 0 );
15144b0fSOlivier Houchard        normalizeFloatx80Subnormal( aSig0, &aExp, &aSig0 );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    zExp = ( ( aExp - 0x3FFF )>>1 ) + 0x3FFF;
15144b0fSOlivier Houchard    zSig0 = estimateSqrt32( aExp, aSig0>>32 );
15144b0fSOlivier Houchard    shift128Right( aSig0, 0, 2 + ( aExp & 1 ), &aSig0, &aSig1 );
15144b0fSOlivier Houchard    zSig0 = estimateDiv128To64( aSig0, aSig1, zSig0<<32 ) + ( zSig0<<30 );
15144b0fSOlivier Houchard    doubleZSig0 = zSig0<<1;
15144b0fSOlivier Houchard    mul64To128( zSig0, zSig0, &term0, &term1 );
15144b0fSOlivier Houchard    sub128( aSig0, aSig1, term0, term1, &rem0, &rem1 );
15144b0fSOlivier Houchard    while ( (sbits64) rem0 < 0 ) {
15144b0fSOlivier Houchard        --zSig0;
15144b0fSOlivier Houchard        doubleZSig0 -= 2;
15144b0fSOlivier Houchard        add128( rem0, rem1, zSig0>>63, doubleZSig0 | 1, &rem0, &rem1 );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    zSig1 = estimateDiv128To64( rem1, 0, doubleZSig0 );
15144b0fSOlivier Houchard    if ( ( zSig1 & LIT64( 0x3FFFFFFFFFFFFFFF ) ) <= 5 ) {
15144b0fSOlivier Houchard        if ( zSig1 == 0 ) zSig1 = 1;
15144b0fSOlivier Houchard        mul64To128( doubleZSig0, zSig1, &term1, &term2 );
15144b0fSOlivier Houchard        sub128( rem1, 0, term1, term2, &rem1, &rem2 );
15144b0fSOlivier Houchard        mul64To128( zSig1, zSig1, &term2, &term3 );
15144b0fSOlivier Houchard        sub192( rem1, rem2, 0, 0, term2, term3, &rem1, &rem2, &rem3 );
15144b0fSOlivier Houchard        while ( (sbits64) rem1 < 0 ) {
15144b0fSOlivier Houchard            --zSig1;
15144b0fSOlivier Houchard            shortShift128Left( 0, zSig1, 1, &term2, &term3 );
15144b0fSOlivier Houchard            term3 |= 1;
15144b0fSOlivier Houchard            term2 |= doubleZSig0;
15144b0fSOlivier Houchard            add192( rem1, rem2, rem3, 0, term2, term3, &rem1, &rem2, &rem3 );
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        zSig1 |= ( ( rem1 | rem2 | rem3 ) != 0 );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    shortShift128Left( 0, zSig1, 1, &zSig0, &zSig1 );
15144b0fSOlivier Houchard    zSig0 |= doubleZSig0;
15144b0fSOlivier Houchard    return
15144b0fSOlivier Houchard        roundAndPackFloatx80(
15144b0fSOlivier Houchard            floatx80_rounding_precision, 0, zExp, zSig0, zSig1 );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns 1 if the extended double-precision floating-point value `a' is
15144b0fSOlivier Houchardequal to the corresponding value `b', and 0 otherwise.  The comparison is
15144b0fSOlivier Houchardperformed according to the IEC/IEEE Standard for Binary Floating-Point
15144b0fSOlivier HouchardArithmetic.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardflag floatx80_eq( floatx80 a, floatx80 b )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    if (    (    ( extractFloatx80Exp( a ) == 0x7FFF )
15144b0fSOlivier Houchard              && (bits64) ( extractFloatx80Frac( a )<<1 ) )
15144b0fSOlivier Houchard         || (    ( extractFloatx80Exp( b ) == 0x7FFF )
15144b0fSOlivier Houchard              && (bits64) ( extractFloatx80Frac( b )<<1 ) )
15144b0fSOlivier Houchard       ) {
15144b0fSOlivier Houchard        if (    floatx80_is_signaling_nan( a )
15144b0fSOlivier Houchard             || floatx80_is_signaling_nan( b ) ) {
15144b0fSOlivier Houchard            float_raise( float_flag_invalid );
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        return 0;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    return
15144b0fSOlivier Houchard           ( a.low == b.low )
15144b0fSOlivier Houchard        && (    ( a.high == b.high )
15144b0fSOlivier Houchard             || (    ( a.low == 0 )
15144b0fSOlivier Houchard                  && ( (bits16) ( ( a.high | b.high )<<1 ) == 0 ) )
15144b0fSOlivier Houchard           );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns 1 if the extended double-precision floating-point value `a' is
15144b0fSOlivier Houchardless than or equal to the corresponding value `b', and 0 otherwise.  The
15144b0fSOlivier Houchardcomparison is performed according to the IEC/IEEE Standard for Binary
15144b0fSOlivier HouchardFloating-Point Arithmetic.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardflag floatx80_le( floatx80 a, floatx80 b )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    flag aSign, bSign;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    if (    (    ( extractFloatx80Exp( a ) == 0x7FFF )
15144b0fSOlivier Houchard              && (bits64) ( extractFloatx80Frac( a )<<1 ) )
15144b0fSOlivier Houchard         || (    ( extractFloatx80Exp( b ) == 0x7FFF )
15144b0fSOlivier Houchard              && (bits64) ( extractFloatx80Frac( b )<<1 ) )
15144b0fSOlivier Houchard       ) {
15144b0fSOlivier Houchard        float_raise( float_flag_invalid );
15144b0fSOlivier Houchard        return 0;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    aSign = extractFloatx80Sign( a );
15144b0fSOlivier Houchard    bSign = extractFloatx80Sign( b );
15144b0fSOlivier Houchard    if ( aSign != bSign ) {
15144b0fSOlivier Houchard        return
15144b0fSOlivier Houchard               aSign
15144b0fSOlivier Houchard            || (    ( ( (bits16) ( ( a.high | b.high )<<1 ) ) | a.low | b.low )
15144b0fSOlivier Houchard                 == 0 );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    return
15144b0fSOlivier Houchard          aSign ? le128( b.high, b.low, a.high, a.low )
15144b0fSOlivier Houchard        : le128( a.high, a.low, b.high, b.low );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns 1 if the extended double-precision floating-point value `a' is
15144b0fSOlivier Houchardless than the corresponding value `b', and 0 otherwise.  The comparison
15144b0fSOlivier Houchardis performed according to the IEC/IEEE Standard for Binary Floating-Point
15144b0fSOlivier HouchardArithmetic.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardflag floatx80_lt( floatx80 a, floatx80 b )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    flag aSign, bSign;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    if (    (    ( extractFloatx80Exp( a ) == 0x7FFF )
15144b0fSOlivier Houchard              && (bits64) ( extractFloatx80Frac( a )<<1 ) )
15144b0fSOlivier Houchard         || (    ( extractFloatx80Exp( b ) == 0x7FFF )
15144b0fSOlivier Houchard              && (bits64) ( extractFloatx80Frac( b )<<1 ) )
15144b0fSOlivier Houchard       ) {
15144b0fSOlivier Houchard        float_raise( float_flag_invalid );
15144b0fSOlivier Houchard        return 0;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    aSign = extractFloatx80Sign( a );
15144b0fSOlivier Houchard    bSign = extractFloatx80Sign( b );
15144b0fSOlivier Houchard    if ( aSign != bSign ) {
15144b0fSOlivier Houchard        return
15144b0fSOlivier Houchard               aSign
15144b0fSOlivier Houchard            && (    ( ( (bits16) ( ( a.high | b.high )<<1 ) ) | a.low | b.low )
15144b0fSOlivier Houchard                 != 0 );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    return
15144b0fSOlivier Houchard          aSign ? lt128( b.high, b.low, a.high, a.low )
15144b0fSOlivier Houchard        : lt128( a.high, a.low, b.high, b.low );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns 1 if the extended double-precision floating-point value `a' is equal
15144b0fSOlivier Houchardto the corresponding value `b', and 0 otherwise.  The invalid exception is
15144b0fSOlivier Houchardraised if either operand is a NaN.  Otherwise, the comparison is performed
15144b0fSOlivier Houchardaccording to the IEC/IEEE Standard for Binary Floating-Point Arithmetic.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardflag floatx80_eq_signaling( floatx80 a, floatx80 b )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    if (    (    ( extractFloatx80Exp( a ) == 0x7FFF )
15144b0fSOlivier Houchard              && (bits64) ( extractFloatx80Frac( a )<<1 ) )
15144b0fSOlivier Houchard         || (    ( extractFloatx80Exp( b ) == 0x7FFF )
15144b0fSOlivier Houchard              && (bits64) ( extractFloatx80Frac( b )<<1 ) )
15144b0fSOlivier Houchard       ) {
15144b0fSOlivier Houchard        float_raise( float_flag_invalid );
15144b0fSOlivier Houchard        return 0;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    return
15144b0fSOlivier Houchard           ( a.low == b.low )
15144b0fSOlivier Houchard        && (    ( a.high == b.high )
15144b0fSOlivier Houchard             || (    ( a.low == 0 )
15144b0fSOlivier Houchard                  && ( (bits16) ( ( a.high | b.high )<<1 ) == 0 ) )
15144b0fSOlivier Houchard           );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns 1 if the extended double-precision floating-point value `a' is less
15144b0fSOlivier Houchardthan or equal to the corresponding value `b', and 0 otherwise.  Quiet NaNs
15144b0fSOlivier Houcharddo not cause an exception.  Otherwise, the comparison is performed according
15144b0fSOlivier Houchardto the IEC/IEEE Standard for Binary Floating-Point Arithmetic.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardflag floatx80_le_quiet( floatx80 a, floatx80 b )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    flag aSign, bSign;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    if (    (    ( extractFloatx80Exp( a ) == 0x7FFF )
15144b0fSOlivier Houchard              && (bits64) ( extractFloatx80Frac( a )<<1 ) )
15144b0fSOlivier Houchard         || (    ( extractFloatx80Exp( b ) == 0x7FFF )
15144b0fSOlivier Houchard              && (bits64) ( extractFloatx80Frac( b )<<1 ) )
15144b0fSOlivier Houchard       ) {
15144b0fSOlivier Houchard        if (    floatx80_is_signaling_nan( a )
15144b0fSOlivier Houchard             || floatx80_is_signaling_nan( b ) ) {
15144b0fSOlivier Houchard            float_raise( float_flag_invalid );
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        return 0;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    aSign = extractFloatx80Sign( a );
15144b0fSOlivier Houchard    bSign = extractFloatx80Sign( b );
15144b0fSOlivier Houchard    if ( aSign != bSign ) {
15144b0fSOlivier Houchard        return
15144b0fSOlivier Houchard               aSign
15144b0fSOlivier Houchard            || (    ( ( (bits16) ( ( a.high | b.high )<<1 ) ) | a.low | b.low )
15144b0fSOlivier Houchard                 == 0 );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    return
15144b0fSOlivier Houchard          aSign ? le128( b.high, b.low, a.high, a.low )
15144b0fSOlivier Houchard        : le128( a.high, a.low, b.high, b.low );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns 1 if the extended double-precision floating-point value `a' is less
15144b0fSOlivier Houchardthan the corresponding value `b', and 0 otherwise.  Quiet NaNs do not cause
15144b0fSOlivier Houchardan exception.  Otherwise, the comparison is performed according to the
15144b0fSOlivier HouchardIEC/IEEE Standard for Binary Floating-Point Arithmetic.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardflag floatx80_lt_quiet( floatx80 a, floatx80 b )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    flag aSign, bSign;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    if (    (    ( extractFloatx80Exp( a ) == 0x7FFF )
15144b0fSOlivier Houchard              && (bits64) ( extractFloatx80Frac( a )<<1 ) )
15144b0fSOlivier Houchard         || (    ( extractFloatx80Exp( b ) == 0x7FFF )
15144b0fSOlivier Houchard              && (bits64) ( extractFloatx80Frac( b )<<1 ) )
15144b0fSOlivier Houchard       ) {
15144b0fSOlivier Houchard        if (    floatx80_is_signaling_nan( a )
15144b0fSOlivier Houchard             || floatx80_is_signaling_nan( b ) ) {
15144b0fSOlivier Houchard            float_raise( float_flag_invalid );
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        return 0;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    aSign = extractFloatx80Sign( a );
15144b0fSOlivier Houchard    bSign = extractFloatx80Sign( b );
15144b0fSOlivier Houchard    if ( aSign != bSign ) {
15144b0fSOlivier Houchard        return
15144b0fSOlivier Houchard               aSign
15144b0fSOlivier Houchard            && (    ( ( (bits16) ( ( a.high | b.high )<<1 ) ) | a.low | b.low )
15144b0fSOlivier Houchard                 != 0 );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    return
15144b0fSOlivier Houchard          aSign ? lt128( b.high, b.low, a.high, a.low )
15144b0fSOlivier Houchard        : lt128( a.high, a.low, b.high, b.low );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard#endif
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard#ifdef FLOAT128
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns the result of converting the quadruple-precision floating-point
15144b0fSOlivier Houchardvalue `a' to the 32-bit two's complement integer format.  The conversion
15144b0fSOlivier Houchardis performed according to the IEC/IEEE Standard for Binary Floating-Point
15144b0fSOlivier HouchardArithmetic---which means in particular that the conversion is rounded
15144b0fSOlivier Houchardaccording to the current rounding mode.  If `a' is a NaN, the largest
15144b0fSOlivier Houchardpositive integer is returned.  Otherwise, if the conversion overflows, the
15144b0fSOlivier Houchardlargest integer with the same sign as `a' is returned.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardint32 float128_to_int32( float128 a )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    flag aSign;
15144b0fSOlivier Houchard    int32 aExp, shiftCount;
15144b0fSOlivier Houchard    bits64 aSig0, aSig1;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    aSig1 = extractFloat128Frac1( a );
15144b0fSOlivier Houchard    aSig0 = extractFloat128Frac0( a );
15144b0fSOlivier Houchard    aExp = extractFloat128Exp( a );
15144b0fSOlivier Houchard    aSign = extractFloat128Sign( a );
15144b0fSOlivier Houchard    if ( ( aExp == 0x7FFF ) && ( aSig0 | aSig1 ) ) aSign = 0;
15144b0fSOlivier Houchard    if ( aExp ) aSig0 |= LIT64( 0x0001000000000000 );
15144b0fSOlivier Houchard    aSig0 |= ( aSig1 != 0 );
15144b0fSOlivier Houchard    shiftCount = 0x4028 - aExp;
15144b0fSOlivier Houchard    if ( 0 < shiftCount ) shift64RightJamming( aSig0, shiftCount, &aSig0 );
15144b0fSOlivier Houchard    return roundAndPackInt32( aSign, aSig0 );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns the result of converting the quadruple-precision floating-point
15144b0fSOlivier Houchardvalue `a' to the 32-bit two's complement integer format.  The conversion
15144b0fSOlivier Houchardis performed according to the IEC/IEEE Standard for Binary Floating-Point
15144b0fSOlivier HouchardArithmetic, except that the conversion is always rounded toward zero.  If
15144b0fSOlivier Houchard`a' is a NaN, the largest positive integer is returned.  Otherwise, if the
15144b0fSOlivier Houchardconversion overflows, the largest integer with the same sign as `a' is
15144b0fSOlivier Houchardreturned.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardint32 float128_to_int32_round_to_zero( float128 a )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    flag aSign;
15144b0fSOlivier Houchard    int32 aExp, shiftCount;
15144b0fSOlivier Houchard    bits64 aSig0, aSig1, savedASig;
15144b0fSOlivier Houchard    int32 z;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    aSig1 = extractFloat128Frac1( a );
15144b0fSOlivier Houchard    aSig0 = extractFloat128Frac0( a );
15144b0fSOlivier Houchard    aExp = extractFloat128Exp( a );
15144b0fSOlivier Houchard    aSign = extractFloat128Sign( a );
15144b0fSOlivier Houchard    aSig0 |= ( aSig1 != 0 );
15144b0fSOlivier Houchard    if ( 0x401E < aExp ) {
15144b0fSOlivier Houchard        if ( ( aExp == 0x7FFF ) && aSig0 ) aSign = 0;
15144b0fSOlivier Houchard        goto invalid;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    else if ( aExp < 0x3FFF ) {
15144b0fSOlivier Houchard        if ( aExp || aSig0 ) float_exception_flags |= float_flag_inexact;
15144b0fSOlivier Houchard        return 0;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    aSig0 |= LIT64( 0x0001000000000000 );
15144b0fSOlivier Houchard    shiftCount = 0x402F - aExp;
15144b0fSOlivier Houchard    savedASig = aSig0;
15144b0fSOlivier Houchard    aSig0 >>= shiftCount;
15144b0fSOlivier Houchard    z = aSig0;
15144b0fSOlivier Houchard    if ( aSign ) z = - z;
15144b0fSOlivier Houchard    if ( ( z < 0 ) ^ aSign ) {
15144b0fSOlivier Houchard invalid:
15144b0fSOlivier Houchard        float_raise( float_flag_invalid );
15144b0fSOlivier Houchard        return aSign ? (sbits32) 0x80000000 : 0x7FFFFFFF;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( ( aSig0<<shiftCount ) != savedASig ) {
15144b0fSOlivier Houchard        float_exception_flags |= float_flag_inexact;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    return z;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns the result of converting the quadruple-precision floating-point
15144b0fSOlivier Houchardvalue `a' to the 64-bit two's complement integer format.  The conversion
15144b0fSOlivier Houchardis performed according to the IEC/IEEE Standard for Binary Floating-Point
15144b0fSOlivier HouchardArithmetic---which means in particular that the conversion is rounded
15144b0fSOlivier Houchardaccording to the current rounding mode.  If `a' is a NaN, the largest
15144b0fSOlivier Houchardpositive integer is returned.  Otherwise, if the conversion overflows, the
15144b0fSOlivier Houchardlargest integer with the same sign as `a' is returned.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardint64 float128_to_int64( float128 a )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    flag aSign;
15144b0fSOlivier Houchard    int32 aExp, shiftCount;
15144b0fSOlivier Houchard    bits64 aSig0, aSig1;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    aSig1 = extractFloat128Frac1( a );
15144b0fSOlivier Houchard    aSig0 = extractFloat128Frac0( a );
15144b0fSOlivier Houchard    aExp = extractFloat128Exp( a );
15144b0fSOlivier Houchard    aSign = extractFloat128Sign( a );
15144b0fSOlivier Houchard    if ( aExp ) aSig0 |= LIT64( 0x0001000000000000 );
15144b0fSOlivier Houchard    shiftCount = 0x402F - aExp;
15144b0fSOlivier Houchard    if ( shiftCount <= 0 ) {
15144b0fSOlivier Houchard        if ( 0x403E < aExp ) {
15144b0fSOlivier Houchard            float_raise( float_flag_invalid );
15144b0fSOlivier Houchard            if (    ! aSign
15144b0fSOlivier Houchard                 || (    ( aExp == 0x7FFF )
15144b0fSOlivier Houchard                      && ( aSig1 || ( aSig0 != LIT64( 0x0001000000000000 ) ) )
15144b0fSOlivier Houchard                    )
15144b0fSOlivier Houchard               ) {
15144b0fSOlivier Houchard                return LIT64( 0x7FFFFFFFFFFFFFFF );
15144b0fSOlivier Houchard            }
15144b0fSOlivier Houchard            return (sbits64) LIT64( 0x8000000000000000 );
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        shortShift128Left( aSig0, aSig1, - shiftCount, &aSig0, &aSig1 );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    else {
15144b0fSOlivier Houchard        shift64ExtraRightJamming( aSig0, aSig1, shiftCount, &aSig0, &aSig1 );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    return roundAndPackInt64( aSign, aSig0, aSig1 );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns the result of converting the quadruple-precision floating-point
15144b0fSOlivier Houchardvalue `a' to the 64-bit two's complement integer format.  The conversion
15144b0fSOlivier Houchardis performed according to the IEC/IEEE Standard for Binary Floating-Point
15144b0fSOlivier HouchardArithmetic, except that the conversion is always rounded toward zero.
15144b0fSOlivier HouchardIf `a' is a NaN, the largest positive integer is returned.  Otherwise, if
15144b0fSOlivier Houchardthe conversion overflows, the largest integer with the same sign as `a' is
15144b0fSOlivier Houchardreturned.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardint64 float128_to_int64_round_to_zero( float128 a )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    flag aSign;
15144b0fSOlivier Houchard    int32 aExp, shiftCount;
15144b0fSOlivier Houchard    bits64 aSig0, aSig1;
15144b0fSOlivier Houchard    int64 z;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    aSig1 = extractFloat128Frac1( a );
15144b0fSOlivier Houchard    aSig0 = extractFloat128Frac0( a );
15144b0fSOlivier Houchard    aExp = extractFloat128Exp( a );
15144b0fSOlivier Houchard    aSign = extractFloat128Sign( a );
15144b0fSOlivier Houchard    if ( aExp ) aSig0 |= LIT64( 0x0001000000000000 );
15144b0fSOlivier Houchard    shiftCount = aExp - 0x402F;
15144b0fSOlivier Houchard    if ( 0 < shiftCount ) {
15144b0fSOlivier Houchard        if ( 0x403E <= aExp ) {
15144b0fSOlivier Houchard            aSig0 &= LIT64( 0x0000FFFFFFFFFFFF );
15144b0fSOlivier Houchard            if (    ( a.high == LIT64( 0xC03E000000000000 ) )
15144b0fSOlivier Houchard                 && ( aSig1 < LIT64( 0x0002000000000000 ) ) ) {
15144b0fSOlivier Houchard                if ( aSig1 ) float_exception_flags |= float_flag_inexact;
15144b0fSOlivier Houchard            }
15144b0fSOlivier Houchard            else {
15144b0fSOlivier Houchard                float_raise( float_flag_invalid );
15144b0fSOlivier Houchard                if ( ! aSign || ( ( aExp == 0x7FFF ) && ( aSig0 | aSig1 ) ) ) {
15144b0fSOlivier Houchard                    return LIT64( 0x7FFFFFFFFFFFFFFF );
15144b0fSOlivier Houchard                }
15144b0fSOlivier Houchard            }
15144b0fSOlivier Houchard            return (sbits64) LIT64( 0x8000000000000000 );
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        z = ( aSig0<<shiftCount ) | ( aSig1>>( ( - shiftCount ) & 63 ) );
15144b0fSOlivier Houchard        if ( (bits64) ( aSig1<<shiftCount ) ) {
15144b0fSOlivier Houchard            float_exception_flags |= float_flag_inexact;
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    else {
15144b0fSOlivier Houchard        if ( aExp < 0x3FFF ) {
15144b0fSOlivier Houchard            if ( aExp | aSig0 | aSig1 ) {
15144b0fSOlivier Houchard                float_exception_flags |= float_flag_inexact;
15144b0fSOlivier Houchard            }
15144b0fSOlivier Houchard            return 0;
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        z = aSig0>>( - shiftCount );
15144b0fSOlivier Houchard        if (    aSig1
15144b0fSOlivier Houchard             || ( shiftCount && (bits64) ( aSig0<<( shiftCount & 63 ) ) ) ) {
15144b0fSOlivier Houchard            float_exception_flags |= float_flag_inexact;
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( aSign ) z = - z;
15144b0fSOlivier Houchard    return z;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
c36abe0dSDavid Schultz#if (defined(SOFTFLOATSPARC64_FOR_GCC) || defined(SOFTFLOAT_FOR_GCC)) \
c36abe0dSDavid Schultz    && defined(SOFTFLOAT_NEED_FIXUNS)
c36abe0dSDavid Schultz/*
c36abe0dSDavid Schultz * just like above - but do not care for overflow of signed results
c36abe0dSDavid Schultz */
c36abe0dSDavid Schultzuint64 float128_to_uint64_round_to_zero( float128 a )
c36abe0dSDavid Schultz{
c36abe0dSDavid Schultz    flag aSign;
c36abe0dSDavid Schultz    int32 aExp, shiftCount;
c36abe0dSDavid Schultz    bits64 aSig0, aSig1;
c36abe0dSDavid Schultz    uint64 z;
c36abe0dSDavid Schultz
c36abe0dSDavid Schultz    aSig1 = extractFloat128Frac1( a );
c36abe0dSDavid Schultz    aSig0 = extractFloat128Frac0( a );
c36abe0dSDavid Schultz    aExp = extractFloat128Exp( a );
c36abe0dSDavid Schultz    aSign = extractFloat128Sign( a );
c36abe0dSDavid Schultz    if ( aExp ) aSig0 |= LIT64( 0x0001000000000000 );
c36abe0dSDavid Schultz    shiftCount = aExp - 0x402F;
c36abe0dSDavid Schultz    if ( 0 < shiftCount ) {
c36abe0dSDavid Schultz        if ( 0x403F <= aExp ) {
c36abe0dSDavid Schultz            aSig0 &= LIT64( 0x0000FFFFFFFFFFFF );
c36abe0dSDavid Schultz            if (    ( a.high == LIT64( 0xC03E000000000000 ) )
c36abe0dSDavid Schultz                 && ( aSig1 < LIT64( 0x0002000000000000 ) ) ) {
c36abe0dSDavid Schultz                if ( aSig1 ) float_exception_flags |= float_flag_inexact;
c36abe0dSDavid Schultz            }
c36abe0dSDavid Schultz            else {
c36abe0dSDavid Schultz                float_raise( float_flag_invalid );
c36abe0dSDavid Schultz            }
c36abe0dSDavid Schultz            return LIT64( 0xFFFFFFFFFFFFFFFF );
c36abe0dSDavid Schultz        }
c36abe0dSDavid Schultz        z = ( aSig0<<shiftCount ) | ( aSig1>>( ( - shiftCount ) & 63 ) );
c36abe0dSDavid Schultz        if ( (bits64) ( aSig1<<shiftCount ) ) {
c36abe0dSDavid Schultz            float_exception_flags |= float_flag_inexact;
c36abe0dSDavid Schultz        }
c36abe0dSDavid Schultz    }
c36abe0dSDavid Schultz    else {
c36abe0dSDavid Schultz        if ( aExp < 0x3FFF ) {
c36abe0dSDavid Schultz            if ( aExp | aSig0 | aSig1 ) {
c36abe0dSDavid Schultz                float_exception_flags |= float_flag_inexact;
c36abe0dSDavid Schultz            }
c36abe0dSDavid Schultz            return 0;
c36abe0dSDavid Schultz        }
c36abe0dSDavid Schultz        z = aSig0>>( - shiftCount );
c36abe0dSDavid Schultz        if (aSig1 || ( shiftCount && (bits64) ( aSig0<<( shiftCount & 63 ) ) ) ) {
c36abe0dSDavid Schultz            float_exception_flags |= float_flag_inexact;
c36abe0dSDavid Schultz        }
c36abe0dSDavid Schultz    }
c36abe0dSDavid Schultz    if ( aSign ) z = - z;
c36abe0dSDavid Schultz    return z;
c36abe0dSDavid Schultz
c36abe0dSDavid Schultz}
c36abe0dSDavid Schultz#endif /* (SOFTFLOATSPARC64_FOR_GCC || SOFTFLOAT_FOR_GCC) && SOFTFLOAT_NEED_FIXUNS */
c36abe0dSDavid Schultz
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns the result of converting the quadruple-precision floating-point
15144b0fSOlivier Houchardvalue `a' to the single-precision floating-point format.  The conversion
15144b0fSOlivier Houchardis performed according to the IEC/IEEE Standard for Binary Floating-Point
15144b0fSOlivier HouchardArithmetic.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardfloat32 float128_to_float32( float128 a )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    flag aSign;
15144b0fSOlivier Houchard    int32 aExp;
15144b0fSOlivier Houchard    bits64 aSig0, aSig1;
15144b0fSOlivier Houchard    bits32 zSig;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    aSig1 = extractFloat128Frac1( a );
15144b0fSOlivier Houchard    aSig0 = extractFloat128Frac0( a );
15144b0fSOlivier Houchard    aExp = extractFloat128Exp( a );
15144b0fSOlivier Houchard    aSign = extractFloat128Sign( a );
15144b0fSOlivier Houchard    if ( aExp == 0x7FFF ) {
15144b0fSOlivier Houchard        if ( aSig0 | aSig1 ) {
15144b0fSOlivier Houchard            return commonNaNToFloat32( float128ToCommonNaN( a ) );
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        return packFloat32( aSign, 0xFF, 0 );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    aSig0 |= ( aSig1 != 0 );
15144b0fSOlivier Houchard    shift64RightJamming( aSig0, 18, &aSig0 );
15144b0fSOlivier Houchard    zSig = aSig0;
15144b0fSOlivier Houchard    if ( aExp || zSig ) {
15144b0fSOlivier Houchard        zSig |= 0x40000000;
15144b0fSOlivier Houchard        aExp -= 0x3F81;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    return roundAndPackFloat32( aSign, aExp, zSig );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns the result of converting the quadruple-precision floating-point
15144b0fSOlivier Houchardvalue `a' to the double-precision floating-point format.  The conversion
15144b0fSOlivier Houchardis performed according to the IEC/IEEE Standard for Binary Floating-Point
15144b0fSOlivier HouchardArithmetic.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardfloat64 float128_to_float64( float128 a )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    flag aSign;
15144b0fSOlivier Houchard    int32 aExp;
15144b0fSOlivier Houchard    bits64 aSig0, aSig1;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    aSig1 = extractFloat128Frac1( a );
15144b0fSOlivier Houchard    aSig0 = extractFloat128Frac0( a );
15144b0fSOlivier Houchard    aExp = extractFloat128Exp( a );
15144b0fSOlivier Houchard    aSign = extractFloat128Sign( a );
15144b0fSOlivier Houchard    if ( aExp == 0x7FFF ) {
15144b0fSOlivier Houchard        if ( aSig0 | aSig1 ) {
15144b0fSOlivier Houchard            return commonNaNToFloat64( float128ToCommonNaN( a ) );
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        return packFloat64( aSign, 0x7FF, 0 );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    shortShift128Left( aSig0, aSig1, 14, &aSig0, &aSig1 );
15144b0fSOlivier Houchard    aSig0 |= ( aSig1 != 0 );
15144b0fSOlivier Houchard    if ( aExp || aSig0 ) {
15144b0fSOlivier Houchard        aSig0 |= LIT64( 0x4000000000000000 );
15144b0fSOlivier Houchard        aExp -= 0x3C01;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    return roundAndPackFloat64( aSign, aExp, aSig0 );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard#ifdef FLOATX80
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns the result of converting the quadruple-precision floating-point
15144b0fSOlivier Houchardvalue `a' to the extended double-precision floating-point format.  The
15144b0fSOlivier Houchardconversion is performed according to the IEC/IEEE Standard for Binary
15144b0fSOlivier HouchardFloating-Point Arithmetic.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardfloatx80 float128_to_floatx80( float128 a )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    flag aSign;
15144b0fSOlivier Houchard    int32 aExp;
15144b0fSOlivier Houchard    bits64 aSig0, aSig1;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    aSig1 = extractFloat128Frac1( a );
15144b0fSOlivier Houchard    aSig0 = extractFloat128Frac0( a );
15144b0fSOlivier Houchard    aExp = extractFloat128Exp( a );
15144b0fSOlivier Houchard    aSign = extractFloat128Sign( a );
15144b0fSOlivier Houchard    if ( aExp == 0x7FFF ) {
15144b0fSOlivier Houchard        if ( aSig0 | aSig1 ) {
15144b0fSOlivier Houchard            return commonNaNToFloatx80( float128ToCommonNaN( a ) );
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        return packFloatx80( aSign, 0x7FFF, LIT64( 0x8000000000000000 ) );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( aExp == 0 ) {
15144b0fSOlivier Houchard        if ( ( aSig0 | aSig1 ) == 0 ) return packFloatx80( aSign, 0, 0 );
15144b0fSOlivier Houchard        normalizeFloat128Subnormal( aSig0, aSig1, &aExp, &aSig0, &aSig1 );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    else {
15144b0fSOlivier Houchard        aSig0 |= LIT64( 0x0001000000000000 );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    shortShift128Left( aSig0, aSig1, 15, &aSig0, &aSig1 );
15144b0fSOlivier Houchard    return roundAndPackFloatx80( 80, aSign, aExp, aSig0, aSig1 );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard#endif
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardRounds the quadruple-precision floating-point value `a' to an integer, and
15144b0fSOlivier Houchardreturns the result as a quadruple-precision floating-point value.  The
15144b0fSOlivier Houchardoperation is performed according to the IEC/IEEE Standard for Binary
15144b0fSOlivier HouchardFloating-Point Arithmetic.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardfloat128 float128_round_to_int( float128 a )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    flag aSign;
15144b0fSOlivier Houchard    int32 aExp;
15144b0fSOlivier Houchard    bits64 lastBitMask, roundBitsMask;
15144b0fSOlivier Houchard    int8 roundingMode;
15144b0fSOlivier Houchard    float128 z;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    aExp = extractFloat128Exp( a );
15144b0fSOlivier Houchard    if ( 0x402F <= aExp ) {
15144b0fSOlivier Houchard        if ( 0x406F <= aExp ) {
15144b0fSOlivier Houchard            if (    ( aExp == 0x7FFF )
15144b0fSOlivier Houchard                 && ( extractFloat128Frac0( a ) | extractFloat128Frac1( a ) )
15144b0fSOlivier Houchard               ) {
15144b0fSOlivier Houchard                return propagateFloat128NaN( a, a );
15144b0fSOlivier Houchard            }
15144b0fSOlivier Houchard            return a;
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        lastBitMask = 1;
15144b0fSOlivier Houchard        lastBitMask = ( lastBitMask<<( 0x406E - aExp ) )<<1;
15144b0fSOlivier Houchard        roundBitsMask = lastBitMask - 1;
15144b0fSOlivier Houchard        z = a;
15144b0fSOlivier Houchard        roundingMode = float_rounding_mode;
15144b0fSOlivier Houchard        if ( roundingMode == float_round_nearest_even ) {
15144b0fSOlivier Houchard            if ( lastBitMask ) {
15144b0fSOlivier Houchard                add128( z.high, z.low, 0, lastBitMask>>1, &z.high, &z.low );
15144b0fSOlivier Houchard                if ( ( z.low & roundBitsMask ) == 0 ) z.low &= ~ lastBitMask;
15144b0fSOlivier Houchard            }
15144b0fSOlivier Houchard            else {
15144b0fSOlivier Houchard                if ( (sbits64) z.low < 0 ) {
15144b0fSOlivier Houchard                    ++z.high;
15144b0fSOlivier Houchard                    if ( (bits64) ( z.low<<1 ) == 0 ) z.high &= ~1;
15144b0fSOlivier Houchard                }
15144b0fSOlivier Houchard            }
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        else if ( roundingMode != float_round_to_zero ) {
15144b0fSOlivier Houchard            if (   extractFloat128Sign( z )
15144b0fSOlivier Houchard                 ^ ( roundingMode == float_round_up ) ) {
15144b0fSOlivier Houchard                add128( z.high, z.low, 0, roundBitsMask, &z.high, &z.low );
15144b0fSOlivier Houchard            }
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        z.low &= ~ roundBitsMask;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    else {
15144b0fSOlivier Houchard        if ( aExp < 0x3FFF ) {
15144b0fSOlivier Houchard            if ( ( ( (bits64) ( a.high<<1 ) ) | a.low ) == 0 ) return a;
15144b0fSOlivier Houchard            float_exception_flags |= float_flag_inexact;
15144b0fSOlivier Houchard            aSign = extractFloat128Sign( a );
15144b0fSOlivier Houchard            switch ( float_rounding_mode ) {
15144b0fSOlivier Houchard             case float_round_nearest_even:
15144b0fSOlivier Houchard                if (    ( aExp == 0x3FFE )
15144b0fSOlivier Houchard                     && (   extractFloat128Frac0( a )
15144b0fSOlivier Houchard                          | extractFloat128Frac1( a ) )
15144b0fSOlivier Houchard                   ) {
15144b0fSOlivier Houchard                    return packFloat128( aSign, 0x3FFF, 0, 0 );
15144b0fSOlivier Houchard                }
15144b0fSOlivier Houchard                break;
15144b0fSOlivier Houchard	     case float_round_to_zero:
15144b0fSOlivier Houchard		break;
15144b0fSOlivier Houchard             case float_round_down:
15144b0fSOlivier Houchard                return
15144b0fSOlivier Houchard                      aSign ? packFloat128( 1, 0x3FFF, 0, 0 )
15144b0fSOlivier Houchard                    : packFloat128( 0, 0, 0, 0 );
15144b0fSOlivier Houchard             case float_round_up:
15144b0fSOlivier Houchard                return
15144b0fSOlivier Houchard                      aSign ? packFloat128( 1, 0, 0, 0 )
15144b0fSOlivier Houchard                    : packFloat128( 0, 0x3FFF, 0, 0 );
15144b0fSOlivier Houchard            }
15144b0fSOlivier Houchard            return packFloat128( aSign, 0, 0, 0 );
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        lastBitMask = 1;
15144b0fSOlivier Houchard        lastBitMask <<= 0x402F - aExp;
15144b0fSOlivier Houchard        roundBitsMask = lastBitMask - 1;
15144b0fSOlivier Houchard        z.low = 0;
15144b0fSOlivier Houchard        z.high = a.high;
15144b0fSOlivier Houchard        roundingMode = float_rounding_mode;
15144b0fSOlivier Houchard        if ( roundingMode == float_round_nearest_even ) {
15144b0fSOlivier Houchard            z.high += lastBitMask>>1;
15144b0fSOlivier Houchard            if ( ( ( z.high & roundBitsMask ) | a.low ) == 0 ) {
15144b0fSOlivier Houchard                z.high &= ~ lastBitMask;
15144b0fSOlivier Houchard            }
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        else if ( roundingMode != float_round_to_zero ) {
15144b0fSOlivier Houchard            if (   extractFloat128Sign( z )
15144b0fSOlivier Houchard                 ^ ( roundingMode == float_round_up ) ) {
15144b0fSOlivier Houchard                z.high |= ( a.low != 0 );
15144b0fSOlivier Houchard                z.high += roundBitsMask;
15144b0fSOlivier Houchard            }
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        z.high &= ~ roundBitsMask;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( ( z.low != a.low ) || ( z.high != a.high ) ) {
15144b0fSOlivier Houchard        float_exception_flags |= float_flag_inexact;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    return z;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns the result of adding the absolute values of the quadruple-precision
15144b0fSOlivier Houchardfloating-point values `a' and `b'.  If `zSign' is 1, the sum is negated
15144b0fSOlivier Houchardbefore being returned.  `zSign' is ignored if the result is a NaN.
15144b0fSOlivier HouchardThe addition is performed according to the IEC/IEEE Standard for Binary
15144b0fSOlivier HouchardFloating-Point Arithmetic.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardstatic float128 addFloat128Sigs( float128 a, float128 b, flag zSign )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    int32 aExp, bExp, zExp;
15144b0fSOlivier Houchard    bits64 aSig0, aSig1, bSig0, bSig1, zSig0, zSig1, zSig2;
15144b0fSOlivier Houchard    int32 expDiff;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    aSig1 = extractFloat128Frac1( a );
15144b0fSOlivier Houchard    aSig0 = extractFloat128Frac0( a );
15144b0fSOlivier Houchard    aExp = extractFloat128Exp( a );
15144b0fSOlivier Houchard    bSig1 = extractFloat128Frac1( b );
15144b0fSOlivier Houchard    bSig0 = extractFloat128Frac0( b );
15144b0fSOlivier Houchard    bExp = extractFloat128Exp( b );
15144b0fSOlivier Houchard    expDiff = aExp - bExp;
15144b0fSOlivier Houchard    if ( 0 < expDiff ) {
15144b0fSOlivier Houchard        if ( aExp == 0x7FFF ) {
15144b0fSOlivier Houchard            if ( aSig0 | aSig1 ) return propagateFloat128NaN( a, b );
15144b0fSOlivier Houchard            return a;
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        if ( bExp == 0 ) {
15144b0fSOlivier Houchard            --expDiff;
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        else {
15144b0fSOlivier Houchard            bSig0 |= LIT64( 0x0001000000000000 );
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        shift128ExtraRightJamming(
15144b0fSOlivier Houchard            bSig0, bSig1, 0, expDiff, &bSig0, &bSig1, &zSig2 );
15144b0fSOlivier Houchard        zExp = aExp;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    else if ( expDiff < 0 ) {
15144b0fSOlivier Houchard        if ( bExp == 0x7FFF ) {
15144b0fSOlivier Houchard            if ( bSig0 | bSig1 ) return propagateFloat128NaN( a, b );
15144b0fSOlivier Houchard            return packFloat128( zSign, 0x7FFF, 0, 0 );
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        if ( aExp == 0 ) {
15144b0fSOlivier Houchard            ++expDiff;
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        else {
15144b0fSOlivier Houchard            aSig0 |= LIT64( 0x0001000000000000 );
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        shift128ExtraRightJamming(
15144b0fSOlivier Houchard            aSig0, aSig1, 0, - expDiff, &aSig0, &aSig1, &zSig2 );
15144b0fSOlivier Houchard        zExp = bExp;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    else {
15144b0fSOlivier Houchard        if ( aExp == 0x7FFF ) {
15144b0fSOlivier Houchard            if ( aSig0 | aSig1 | bSig0 | bSig1 ) {
15144b0fSOlivier Houchard                return propagateFloat128NaN( a, b );
15144b0fSOlivier Houchard            }
15144b0fSOlivier Houchard            return a;
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        add128( aSig0, aSig1, bSig0, bSig1, &zSig0, &zSig1 );
15144b0fSOlivier Houchard        if ( aExp == 0 ) return packFloat128( zSign, 0, zSig0, zSig1 );
15144b0fSOlivier Houchard        zSig2 = 0;
15144b0fSOlivier Houchard        zSig0 |= LIT64( 0x0002000000000000 );
15144b0fSOlivier Houchard        zExp = aExp;
15144b0fSOlivier Houchard        goto shiftRight1;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    aSig0 |= LIT64( 0x0001000000000000 );
15144b0fSOlivier Houchard    add128( aSig0, aSig1, bSig0, bSig1, &zSig0, &zSig1 );
15144b0fSOlivier Houchard    --zExp;
15144b0fSOlivier Houchard    if ( zSig0 < LIT64( 0x0002000000000000 ) ) goto roundAndPack;
15144b0fSOlivier Houchard    ++zExp;
15144b0fSOlivier Houchard shiftRight1:
15144b0fSOlivier Houchard    shift128ExtraRightJamming(
15144b0fSOlivier Houchard        zSig0, zSig1, zSig2, 1, &zSig0, &zSig1, &zSig2 );
15144b0fSOlivier Houchard roundAndPack:
15144b0fSOlivier Houchard    return roundAndPackFloat128( zSign, zExp, zSig0, zSig1, zSig2 );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns the result of subtracting the absolute values of the quadruple-
15144b0fSOlivier Houchardprecision floating-point values `a' and `b'.  If `zSign' is 1, the
15144b0fSOlivier Houcharddifference is negated before being returned.  `zSign' is ignored if the
15144b0fSOlivier Houchardresult is a NaN.  The subtraction is performed according to the IEC/IEEE
15144b0fSOlivier HouchardStandard for Binary Floating-Point Arithmetic.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardstatic float128 subFloat128Sigs( float128 a, float128 b, flag zSign )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    int32 aExp, bExp, zExp;
15144b0fSOlivier Houchard    bits64 aSig0, aSig1, bSig0, bSig1, zSig0, zSig1;
15144b0fSOlivier Houchard    int32 expDiff;
15144b0fSOlivier Houchard    float128 z;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    aSig1 = extractFloat128Frac1( a );
15144b0fSOlivier Houchard    aSig0 = extractFloat128Frac0( a );
15144b0fSOlivier Houchard    aExp = extractFloat128Exp( a );
15144b0fSOlivier Houchard    bSig1 = extractFloat128Frac1( b );
15144b0fSOlivier Houchard    bSig0 = extractFloat128Frac0( b );
15144b0fSOlivier Houchard    bExp = extractFloat128Exp( b );
15144b0fSOlivier Houchard    expDiff = aExp - bExp;
15144b0fSOlivier Houchard    shortShift128Left( aSig0, aSig1, 14, &aSig0, &aSig1 );
15144b0fSOlivier Houchard    shortShift128Left( bSig0, bSig1, 14, &bSig0, &bSig1 );
15144b0fSOlivier Houchard    if ( 0 < expDiff ) goto aExpBigger;
15144b0fSOlivier Houchard    if ( expDiff < 0 ) goto bExpBigger;
15144b0fSOlivier Houchard    if ( aExp == 0x7FFF ) {
15144b0fSOlivier Houchard        if ( aSig0 | aSig1 | bSig0 | bSig1 ) {
15144b0fSOlivier Houchard            return propagateFloat128NaN( a, b );
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        float_raise( float_flag_invalid );
15144b0fSOlivier Houchard        z.low = float128_default_nan_low;
15144b0fSOlivier Houchard        z.high = float128_default_nan_high;
15144b0fSOlivier Houchard        return z;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( aExp == 0 ) {
15144b0fSOlivier Houchard        aExp = 1;
15144b0fSOlivier Houchard        bExp = 1;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( bSig0 < aSig0 ) goto aBigger;
15144b0fSOlivier Houchard    if ( aSig0 < bSig0 ) goto bBigger;
15144b0fSOlivier Houchard    if ( bSig1 < aSig1 ) goto aBigger;
15144b0fSOlivier Houchard    if ( aSig1 < bSig1 ) goto bBigger;
15144b0fSOlivier Houchard    return packFloat128( float_rounding_mode == float_round_down, 0, 0, 0 );
15144b0fSOlivier Houchard bExpBigger:
15144b0fSOlivier Houchard    if ( bExp == 0x7FFF ) {
15144b0fSOlivier Houchard        if ( bSig0 | bSig1 ) return propagateFloat128NaN( a, b );
15144b0fSOlivier Houchard        return packFloat128( zSign ^ 1, 0x7FFF, 0, 0 );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( aExp == 0 ) {
15144b0fSOlivier Houchard        ++expDiff;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    else {
15144b0fSOlivier Houchard        aSig0 |= LIT64( 0x4000000000000000 );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    shift128RightJamming( aSig0, aSig1, - expDiff, &aSig0, &aSig1 );
15144b0fSOlivier Houchard    bSig0 |= LIT64( 0x4000000000000000 );
15144b0fSOlivier Houchard bBigger:
15144b0fSOlivier Houchard    sub128( bSig0, bSig1, aSig0, aSig1, &zSig0, &zSig1 );
15144b0fSOlivier Houchard    zExp = bExp;
15144b0fSOlivier Houchard    zSign ^= 1;
15144b0fSOlivier Houchard    goto normalizeRoundAndPack;
15144b0fSOlivier Houchard aExpBigger:
15144b0fSOlivier Houchard    if ( aExp == 0x7FFF ) {
15144b0fSOlivier Houchard        if ( aSig0 | aSig1 ) return propagateFloat128NaN( a, b );
15144b0fSOlivier Houchard        return a;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( bExp == 0 ) {
15144b0fSOlivier Houchard        --expDiff;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    else {
15144b0fSOlivier Houchard        bSig0 |= LIT64( 0x4000000000000000 );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    shift128RightJamming( bSig0, bSig1, expDiff, &bSig0, &bSig1 );
15144b0fSOlivier Houchard    aSig0 |= LIT64( 0x4000000000000000 );
15144b0fSOlivier Houchard aBigger:
15144b0fSOlivier Houchard    sub128( aSig0, aSig1, bSig0, bSig1, &zSig0, &zSig1 );
15144b0fSOlivier Houchard    zExp = aExp;
15144b0fSOlivier Houchard normalizeRoundAndPack:
15144b0fSOlivier Houchard    --zExp;
15144b0fSOlivier Houchard    return normalizeRoundAndPackFloat128( zSign, zExp - 14, zSig0, zSig1 );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns the result of adding the quadruple-precision floating-point values
15144b0fSOlivier Houchard`a' and `b'.  The operation is performed according to the IEC/IEEE Standard
15144b0fSOlivier Houchardfor Binary Floating-Point Arithmetic.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardfloat128 float128_add( float128 a, float128 b )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    flag aSign, bSign;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    aSign = extractFloat128Sign( a );
15144b0fSOlivier Houchard    bSign = extractFloat128Sign( b );
15144b0fSOlivier Houchard    if ( aSign == bSign ) {
15144b0fSOlivier Houchard        return addFloat128Sigs( a, b, aSign );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    else {
15144b0fSOlivier Houchard        return subFloat128Sigs( a, b, aSign );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns the result of subtracting the quadruple-precision floating-point
15144b0fSOlivier Houchardvalues `a' and `b'.  The operation is performed according to the IEC/IEEE
15144b0fSOlivier HouchardStandard for Binary Floating-Point Arithmetic.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardfloat128 float128_sub( float128 a, float128 b )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    flag aSign, bSign;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    aSign = extractFloat128Sign( a );
15144b0fSOlivier Houchard    bSign = extractFloat128Sign( b );
15144b0fSOlivier Houchard    if ( aSign == bSign ) {
15144b0fSOlivier Houchard        return subFloat128Sigs( a, b, aSign );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    else {
15144b0fSOlivier Houchard        return addFloat128Sigs( a, b, aSign );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns the result of multiplying the quadruple-precision floating-point
15144b0fSOlivier Houchardvalues `a' and `b'.  The operation is performed according to the IEC/IEEE
15144b0fSOlivier HouchardStandard for Binary Floating-Point Arithmetic.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardfloat128 float128_mul( float128 a, float128 b )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    flag aSign, bSign, zSign;
15144b0fSOlivier Houchard    int32 aExp, bExp, zExp;
15144b0fSOlivier Houchard    bits64 aSig0, aSig1, bSig0, bSig1, zSig0, zSig1, zSig2, zSig3;
15144b0fSOlivier Houchard    float128 z;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    aSig1 = extractFloat128Frac1( a );
15144b0fSOlivier Houchard    aSig0 = extractFloat128Frac0( a );
15144b0fSOlivier Houchard    aExp = extractFloat128Exp( a );
15144b0fSOlivier Houchard    aSign = extractFloat128Sign( a );
15144b0fSOlivier Houchard    bSig1 = extractFloat128Frac1( b );
15144b0fSOlivier Houchard    bSig0 = extractFloat128Frac0( b );
15144b0fSOlivier Houchard    bExp = extractFloat128Exp( b );
15144b0fSOlivier Houchard    bSign = extractFloat128Sign( b );
15144b0fSOlivier Houchard    zSign = aSign ^ bSign;
15144b0fSOlivier Houchard    if ( aExp == 0x7FFF ) {
15144b0fSOlivier Houchard        if (    ( aSig0 | aSig1 )
15144b0fSOlivier Houchard             || ( ( bExp == 0x7FFF ) && ( bSig0 | bSig1 ) ) ) {
15144b0fSOlivier Houchard            return propagateFloat128NaN( a, b );
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        if ( ( bExp | bSig0 | bSig1 ) == 0 ) goto invalid;
15144b0fSOlivier Houchard        return packFloat128( zSign, 0x7FFF, 0, 0 );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( bExp == 0x7FFF ) {
15144b0fSOlivier Houchard        if ( bSig0 | bSig1 ) return propagateFloat128NaN( a, b );
15144b0fSOlivier Houchard        if ( ( aExp | aSig0 | aSig1 ) == 0 ) {
15144b0fSOlivier Houchard invalid:
15144b0fSOlivier Houchard            float_raise( float_flag_invalid );
15144b0fSOlivier Houchard            z.low = float128_default_nan_low;
15144b0fSOlivier Houchard            z.high = float128_default_nan_high;
15144b0fSOlivier Houchard            return z;
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        return packFloat128( zSign, 0x7FFF, 0, 0 );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( aExp == 0 ) {
15144b0fSOlivier Houchard        if ( ( aSig0 | aSig1 ) == 0 ) return packFloat128( zSign, 0, 0, 0 );
15144b0fSOlivier Houchard        normalizeFloat128Subnormal( aSig0, aSig1, &aExp, &aSig0, &aSig1 );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( bExp == 0 ) {
15144b0fSOlivier Houchard        if ( ( bSig0 | bSig1 ) == 0 ) return packFloat128( zSign, 0, 0, 0 );
15144b0fSOlivier Houchard        normalizeFloat128Subnormal( bSig0, bSig1, &bExp, &bSig0, &bSig1 );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    zExp = aExp + bExp - 0x4000;
15144b0fSOlivier Houchard    aSig0 |= LIT64( 0x0001000000000000 );
15144b0fSOlivier Houchard    shortShift128Left( bSig0, bSig1, 16, &bSig0, &bSig1 );
15144b0fSOlivier Houchard    mul128To256( aSig0, aSig1, bSig0, bSig1, &zSig0, &zSig1, &zSig2, &zSig3 );
15144b0fSOlivier Houchard    add128( zSig0, zSig1, aSig0, aSig1, &zSig0, &zSig1 );
15144b0fSOlivier Houchard    zSig2 |= ( zSig3 != 0 );
15144b0fSOlivier Houchard    if ( LIT64( 0x0002000000000000 ) <= zSig0 ) {
15144b0fSOlivier Houchard        shift128ExtraRightJamming(
15144b0fSOlivier Houchard            zSig0, zSig1, zSig2, 1, &zSig0, &zSig1, &zSig2 );
15144b0fSOlivier Houchard        ++zExp;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    return roundAndPackFloat128( zSign, zExp, zSig0, zSig1, zSig2 );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns the result of dividing the quadruple-precision floating-point value
15144b0fSOlivier Houchard`a' by the corresponding value `b'.  The operation is performed according to
15144b0fSOlivier Houchardthe IEC/IEEE Standard for Binary Floating-Point Arithmetic.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardfloat128 float128_div( float128 a, float128 b )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    flag aSign, bSign, zSign;
15144b0fSOlivier Houchard    int32 aExp, bExp, zExp;
15144b0fSOlivier Houchard    bits64 aSig0, aSig1, bSig0, bSig1, zSig0, zSig1, zSig2;
15144b0fSOlivier Houchard    bits64 rem0, rem1, rem2, rem3, term0, term1, term2, term3;
15144b0fSOlivier Houchard    float128 z;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    aSig1 = extractFloat128Frac1( a );
15144b0fSOlivier Houchard    aSig0 = extractFloat128Frac0( a );
15144b0fSOlivier Houchard    aExp = extractFloat128Exp( a );
15144b0fSOlivier Houchard    aSign = extractFloat128Sign( a );
15144b0fSOlivier Houchard    bSig1 = extractFloat128Frac1( b );
15144b0fSOlivier Houchard    bSig0 = extractFloat128Frac0( b );
15144b0fSOlivier Houchard    bExp = extractFloat128Exp( b );
15144b0fSOlivier Houchard    bSign = extractFloat128Sign( b );
15144b0fSOlivier Houchard    zSign = aSign ^ bSign;
15144b0fSOlivier Houchard    if ( aExp == 0x7FFF ) {
15144b0fSOlivier Houchard        if ( aSig0 | aSig1 ) return propagateFloat128NaN( a, b );
15144b0fSOlivier Houchard        if ( bExp == 0x7FFF ) {
15144b0fSOlivier Houchard            if ( bSig0 | bSig1 ) return propagateFloat128NaN( a, b );
15144b0fSOlivier Houchard            goto invalid;
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        return packFloat128( zSign, 0x7FFF, 0, 0 );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( bExp == 0x7FFF ) {
15144b0fSOlivier Houchard        if ( bSig0 | bSig1 ) return propagateFloat128NaN( a, b );
15144b0fSOlivier Houchard        return packFloat128( zSign, 0, 0, 0 );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( bExp == 0 ) {
15144b0fSOlivier Houchard        if ( ( bSig0 | bSig1 ) == 0 ) {
15144b0fSOlivier Houchard            if ( ( aExp | aSig0 | aSig1 ) == 0 ) {
15144b0fSOlivier Houchard invalid:
15144b0fSOlivier Houchard                float_raise( float_flag_invalid );
15144b0fSOlivier Houchard                z.low = float128_default_nan_low;
15144b0fSOlivier Houchard                z.high = float128_default_nan_high;
15144b0fSOlivier Houchard                return z;
15144b0fSOlivier Houchard            }
15144b0fSOlivier Houchard            float_raise( float_flag_divbyzero );
15144b0fSOlivier Houchard            return packFloat128( zSign, 0x7FFF, 0, 0 );
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        normalizeFloat128Subnormal( bSig0, bSig1, &bExp, &bSig0, &bSig1 );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( aExp == 0 ) {
15144b0fSOlivier Houchard        if ( ( aSig0 | aSig1 ) == 0 ) return packFloat128( zSign, 0, 0, 0 );
15144b0fSOlivier Houchard        normalizeFloat128Subnormal( aSig0, aSig1, &aExp, &aSig0, &aSig1 );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    zExp = aExp - bExp + 0x3FFD;
15144b0fSOlivier Houchard    shortShift128Left(
15144b0fSOlivier Houchard        aSig0 | LIT64( 0x0001000000000000 ), aSig1, 15, &aSig0, &aSig1 );
15144b0fSOlivier Houchard    shortShift128Left(
15144b0fSOlivier Houchard        bSig0 | LIT64( 0x0001000000000000 ), bSig1, 15, &bSig0, &bSig1 );
15144b0fSOlivier Houchard    if ( le128( bSig0, bSig1, aSig0, aSig1 ) ) {
15144b0fSOlivier Houchard        shift128Right( aSig0, aSig1, 1, &aSig0, &aSig1 );
15144b0fSOlivier Houchard        ++zExp;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    zSig0 = estimateDiv128To64( aSig0, aSig1, bSig0 );
15144b0fSOlivier Houchard    mul128By64To192( bSig0, bSig1, zSig0, &term0, &term1, &term2 );
15144b0fSOlivier Houchard    sub192( aSig0, aSig1, 0, term0, term1, term2, &rem0, &rem1, &rem2 );
15144b0fSOlivier Houchard    while ( (sbits64) rem0 < 0 ) {
15144b0fSOlivier Houchard        --zSig0;
15144b0fSOlivier Houchard        add192( rem0, rem1, rem2, 0, bSig0, bSig1, &rem0, &rem1, &rem2 );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    zSig1 = estimateDiv128To64( rem1, rem2, bSig0 );
15144b0fSOlivier Houchard    if ( ( zSig1 & 0x3FFF ) <= 4 ) {
15144b0fSOlivier Houchard        mul128By64To192( bSig0, bSig1, zSig1, &term1, &term2, &term3 );
15144b0fSOlivier Houchard        sub192( rem1, rem2, 0, term1, term2, term3, &rem1, &rem2, &rem3 );
15144b0fSOlivier Houchard        while ( (sbits64) rem1 < 0 ) {
15144b0fSOlivier Houchard            --zSig1;
15144b0fSOlivier Houchard            add192( rem1, rem2, rem3, 0, bSig0, bSig1, &rem1, &rem2, &rem3 );
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        zSig1 |= ( ( rem1 | rem2 | rem3 ) != 0 );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    shift128ExtraRightJamming( zSig0, zSig1, 0, 15, &zSig0, &zSig1, &zSig2 );
15144b0fSOlivier Houchard    return roundAndPackFloat128( zSign, zExp, zSig0, zSig1, zSig2 );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns the remainder of the quadruple-precision floating-point value `a'
15144b0fSOlivier Houchardwith respect to the corresponding value `b'.  The operation is performed
15144b0fSOlivier Houchardaccording to the IEC/IEEE Standard for Binary Floating-Point Arithmetic.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardfloat128 float128_rem( float128 a, float128 b )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    flag aSign, bSign, zSign;
15144b0fSOlivier Houchard    int32 aExp, bExp, expDiff;
15144b0fSOlivier Houchard    bits64 aSig0, aSig1, bSig0, bSig1, q, term0, term1, term2;
15144b0fSOlivier Houchard    bits64 allZero, alternateASig0, alternateASig1, sigMean1;
15144b0fSOlivier Houchard    sbits64 sigMean0;
15144b0fSOlivier Houchard    float128 z;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    aSig1 = extractFloat128Frac1( a );
15144b0fSOlivier Houchard    aSig0 = extractFloat128Frac0( a );
15144b0fSOlivier Houchard    aExp = extractFloat128Exp( a );
15144b0fSOlivier Houchard    aSign = extractFloat128Sign( a );
15144b0fSOlivier Houchard    bSig1 = extractFloat128Frac1( b );
15144b0fSOlivier Houchard    bSig0 = extractFloat128Frac0( b );
15144b0fSOlivier Houchard    bExp = extractFloat128Exp( b );
15144b0fSOlivier Houchard    bSign = extractFloat128Sign( b );
15144b0fSOlivier Houchard    if ( aExp == 0x7FFF ) {
15144b0fSOlivier Houchard        if (    ( aSig0 | aSig1 )
15144b0fSOlivier Houchard             || ( ( bExp == 0x7FFF ) && ( bSig0 | bSig1 ) ) ) {
15144b0fSOlivier Houchard            return propagateFloat128NaN( a, b );
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        goto invalid;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( bExp == 0x7FFF ) {
15144b0fSOlivier Houchard        if ( bSig0 | bSig1 ) return propagateFloat128NaN( a, b );
15144b0fSOlivier Houchard        return a;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( bExp == 0 ) {
15144b0fSOlivier Houchard        if ( ( bSig0 | bSig1 ) == 0 ) {
15144b0fSOlivier Houchard invalid:
15144b0fSOlivier Houchard            float_raise( float_flag_invalid );
15144b0fSOlivier Houchard            z.low = float128_default_nan_low;
15144b0fSOlivier Houchard            z.high = float128_default_nan_high;
15144b0fSOlivier Houchard            return z;
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        normalizeFloat128Subnormal( bSig0, bSig1, &bExp, &bSig0, &bSig1 );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( aExp == 0 ) {
15144b0fSOlivier Houchard        if ( ( aSig0 | aSig1 ) == 0 ) return a;
15144b0fSOlivier Houchard        normalizeFloat128Subnormal( aSig0, aSig1, &aExp, &aSig0, &aSig1 );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    expDiff = aExp - bExp;
15144b0fSOlivier Houchard    if ( expDiff < -1 ) return a;
15144b0fSOlivier Houchard    shortShift128Left(
15144b0fSOlivier Houchard        aSig0 | LIT64( 0x0001000000000000 ),
15144b0fSOlivier Houchard        aSig1,
15144b0fSOlivier Houchard        15 - ( expDiff < 0 ),
15144b0fSOlivier Houchard        &aSig0,
15144b0fSOlivier Houchard        &aSig1
15144b0fSOlivier Houchard    );
15144b0fSOlivier Houchard    shortShift128Left(
15144b0fSOlivier Houchard        bSig0 | LIT64( 0x0001000000000000 ), bSig1, 15, &bSig0, &bSig1 );
15144b0fSOlivier Houchard    q = le128( bSig0, bSig1, aSig0, aSig1 );
15144b0fSOlivier Houchard    if ( q ) sub128( aSig0, aSig1, bSig0, bSig1, &aSig0, &aSig1 );
15144b0fSOlivier Houchard    expDiff -= 64;
15144b0fSOlivier Houchard    while ( 0 < expDiff ) {
15144b0fSOlivier Houchard        q = estimateDiv128To64( aSig0, aSig1, bSig0 );
15144b0fSOlivier Houchard        q = ( 4 < q ) ? q - 4 : 0;
15144b0fSOlivier Houchard        mul128By64To192( bSig0, bSig1, q, &term0, &term1, &term2 );
15144b0fSOlivier Houchard        shortShift192Left( term0, term1, term2, 61, &term1, &term2, &allZero );
15144b0fSOlivier Houchard        shortShift128Left( aSig0, aSig1, 61, &aSig0, &allZero );
15144b0fSOlivier Houchard        sub128( aSig0, 0, term1, term2, &aSig0, &aSig1 );
15144b0fSOlivier Houchard        expDiff -= 61;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( -64 < expDiff ) {
15144b0fSOlivier Houchard        q = estimateDiv128To64( aSig0, aSig1, bSig0 );
15144b0fSOlivier Houchard        q = ( 4 < q ) ? q - 4 : 0;
15144b0fSOlivier Houchard        q >>= - expDiff;
15144b0fSOlivier Houchard        shift128Right( bSig0, bSig1, 12, &bSig0, &bSig1 );
15144b0fSOlivier Houchard        expDiff += 52;
15144b0fSOlivier Houchard        if ( expDiff < 0 ) {
15144b0fSOlivier Houchard            shift128Right( aSig0, aSig1, - expDiff, &aSig0, &aSig1 );
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        else {
15144b0fSOlivier Houchard            shortShift128Left( aSig0, aSig1, expDiff, &aSig0, &aSig1 );
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        mul128By64To192( bSig0, bSig1, q, &term0, &term1, &term2 );
15144b0fSOlivier Houchard        sub128( aSig0, aSig1, term1, term2, &aSig0, &aSig1 );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    else {
15144b0fSOlivier Houchard        shift128Right( aSig0, aSig1, 12, &aSig0, &aSig1 );
15144b0fSOlivier Houchard        shift128Right( bSig0, bSig1, 12, &bSig0, &bSig1 );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    do {
15144b0fSOlivier Houchard        alternateASig0 = aSig0;
15144b0fSOlivier Houchard        alternateASig1 = aSig1;
15144b0fSOlivier Houchard        ++q;
15144b0fSOlivier Houchard        sub128( aSig0, aSig1, bSig0, bSig1, &aSig0, &aSig1 );
15144b0fSOlivier Houchard    } while ( 0 <= (sbits64) aSig0 );
15144b0fSOlivier Houchard    add128(
c36abe0dSDavid Schultz        aSig0, aSig1, alternateASig0, alternateASig1, (bits64 *)&sigMean0, &sigMean1 );
15144b0fSOlivier Houchard    if (    ( sigMean0 < 0 )
15144b0fSOlivier Houchard         || ( ( ( sigMean0 | sigMean1 ) == 0 ) && ( q & 1 ) ) ) {
15144b0fSOlivier Houchard        aSig0 = alternateASig0;
15144b0fSOlivier Houchard        aSig1 = alternateASig1;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    zSign = ( (sbits64) aSig0 < 0 );
15144b0fSOlivier Houchard    if ( zSign ) sub128( 0, 0, aSig0, aSig1, &aSig0, &aSig1 );
15144b0fSOlivier Houchard    return
15144b0fSOlivier Houchard        normalizeRoundAndPackFloat128( aSign ^ zSign, bExp - 4, aSig0, aSig1 );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns the square root of the quadruple-precision floating-point value `a'.
15144b0fSOlivier HouchardThe operation is performed according to the IEC/IEEE Standard for Binary
15144b0fSOlivier HouchardFloating-Point Arithmetic.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardfloat128 float128_sqrt( float128 a )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    flag aSign;
15144b0fSOlivier Houchard    int32 aExp, zExp;
15144b0fSOlivier Houchard    bits64 aSig0, aSig1, zSig0, zSig1, zSig2, doubleZSig0;
15144b0fSOlivier Houchard    bits64 rem0, rem1, rem2, rem3, term0, term1, term2, term3;
15144b0fSOlivier Houchard    float128 z;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    aSig1 = extractFloat128Frac1( a );
15144b0fSOlivier Houchard    aSig0 = extractFloat128Frac0( a );
15144b0fSOlivier Houchard    aExp = extractFloat128Exp( a );
15144b0fSOlivier Houchard    aSign = extractFloat128Sign( a );
15144b0fSOlivier Houchard    if ( aExp == 0x7FFF ) {
15144b0fSOlivier Houchard        if ( aSig0 | aSig1 ) return propagateFloat128NaN( a, a );
15144b0fSOlivier Houchard        if ( ! aSign ) return a;
15144b0fSOlivier Houchard        goto invalid;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( aSign ) {
15144b0fSOlivier Houchard        if ( ( aExp | aSig0 | aSig1 ) == 0 ) return a;
15144b0fSOlivier Houchard invalid:
15144b0fSOlivier Houchard        float_raise( float_flag_invalid );
15144b0fSOlivier Houchard        z.low = float128_default_nan_low;
15144b0fSOlivier Houchard        z.high = float128_default_nan_high;
15144b0fSOlivier Houchard        return z;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( aExp == 0 ) {
15144b0fSOlivier Houchard        if ( ( aSig0 | aSig1 ) == 0 ) return packFloat128( 0, 0, 0, 0 );
15144b0fSOlivier Houchard        normalizeFloat128Subnormal( aSig0, aSig1, &aExp, &aSig0, &aSig1 );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    zExp = ( ( aExp - 0x3FFF )>>1 ) + 0x3FFE;
15144b0fSOlivier Houchard    aSig0 |= LIT64( 0x0001000000000000 );
15144b0fSOlivier Houchard    zSig0 = estimateSqrt32( aExp, aSig0>>17 );
15144b0fSOlivier Houchard    shortShift128Left( aSig0, aSig1, 13 - ( aExp & 1 ), &aSig0, &aSig1 );
15144b0fSOlivier Houchard    zSig0 = estimateDiv128To64( aSig0, aSig1, zSig0<<32 ) + ( zSig0<<30 );
15144b0fSOlivier Houchard    doubleZSig0 = zSig0<<1;
15144b0fSOlivier Houchard    mul64To128( zSig0, zSig0, &term0, &term1 );
15144b0fSOlivier Houchard    sub128( aSig0, aSig1, term0, term1, &rem0, &rem1 );
15144b0fSOlivier Houchard    while ( (sbits64) rem0 < 0 ) {
15144b0fSOlivier Houchard        --zSig0;
15144b0fSOlivier Houchard        doubleZSig0 -= 2;
15144b0fSOlivier Houchard        add128( rem0, rem1, zSig0>>63, doubleZSig0 | 1, &rem0, &rem1 );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    zSig1 = estimateDiv128To64( rem1, 0, doubleZSig0 );
15144b0fSOlivier Houchard    if ( ( zSig1 & 0x1FFF ) <= 5 ) {
15144b0fSOlivier Houchard        if ( zSig1 == 0 ) zSig1 = 1;
15144b0fSOlivier Houchard        mul64To128( doubleZSig0, zSig1, &term1, &term2 );
15144b0fSOlivier Houchard        sub128( rem1, 0, term1, term2, &rem1, &rem2 );
15144b0fSOlivier Houchard        mul64To128( zSig1, zSig1, &term2, &term3 );
15144b0fSOlivier Houchard        sub192( rem1, rem2, 0, 0, term2, term3, &rem1, &rem2, &rem3 );
15144b0fSOlivier Houchard        while ( (sbits64) rem1 < 0 ) {
15144b0fSOlivier Houchard            --zSig1;
15144b0fSOlivier Houchard            shortShift128Left( 0, zSig1, 1, &term2, &term3 );
15144b0fSOlivier Houchard            term3 |= 1;
15144b0fSOlivier Houchard            term2 |= doubleZSig0;
15144b0fSOlivier Houchard            add192( rem1, rem2, rem3, 0, term2, term3, &rem1, &rem2, &rem3 );
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        zSig1 |= ( ( rem1 | rem2 | rem3 ) != 0 );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    shift128ExtraRightJamming( zSig0, zSig1, 0, 14, &zSig0, &zSig1, &zSig2 );
15144b0fSOlivier Houchard    return roundAndPackFloat128( 0, zExp, zSig0, zSig1, zSig2 );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns 1 if the quadruple-precision floating-point value `a' is equal to
15144b0fSOlivier Houchardthe corresponding value `b', and 0 otherwise.  The comparison is performed
15144b0fSOlivier Houchardaccording to the IEC/IEEE Standard for Binary Floating-Point Arithmetic.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardflag float128_eq( float128 a, float128 b )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    if (    (    ( extractFloat128Exp( a ) == 0x7FFF )
15144b0fSOlivier Houchard              && ( extractFloat128Frac0( a ) | extractFloat128Frac1( a ) ) )
15144b0fSOlivier Houchard         || (    ( extractFloat128Exp( b ) == 0x7FFF )
15144b0fSOlivier Houchard              && ( extractFloat128Frac0( b ) | extractFloat128Frac1( b ) ) )
15144b0fSOlivier Houchard       ) {
15144b0fSOlivier Houchard        if (    float128_is_signaling_nan( a )
15144b0fSOlivier Houchard             || float128_is_signaling_nan( b ) ) {
15144b0fSOlivier Houchard            float_raise( float_flag_invalid );
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        return 0;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    return
15144b0fSOlivier Houchard           ( a.low == b.low )
15144b0fSOlivier Houchard        && (    ( a.high == b.high )
15144b0fSOlivier Houchard             || (    ( a.low == 0 )
15144b0fSOlivier Houchard                  && ( (bits64) ( ( a.high | b.high )<<1 ) == 0 ) )
15144b0fSOlivier Houchard           );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns 1 if the quadruple-precision floating-point value `a' is less than
15144b0fSOlivier Houchardor equal to the corresponding value `b', and 0 otherwise.  The comparison
15144b0fSOlivier Houchardis performed according to the IEC/IEEE Standard for Binary Floating-Point
15144b0fSOlivier HouchardArithmetic.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardflag float128_le( float128 a, float128 b )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    flag aSign, bSign;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    if (    (    ( extractFloat128Exp( a ) == 0x7FFF )
15144b0fSOlivier Houchard              && ( extractFloat128Frac0( a ) | extractFloat128Frac1( a ) ) )
15144b0fSOlivier Houchard         || (    ( extractFloat128Exp( b ) == 0x7FFF )
15144b0fSOlivier Houchard              && ( extractFloat128Frac0( b ) | extractFloat128Frac1( b ) ) )
15144b0fSOlivier Houchard       ) {
15144b0fSOlivier Houchard        float_raise( float_flag_invalid );
15144b0fSOlivier Houchard        return 0;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    aSign = extractFloat128Sign( a );
15144b0fSOlivier Houchard    bSign = extractFloat128Sign( b );
15144b0fSOlivier Houchard    if ( aSign != bSign ) {
15144b0fSOlivier Houchard        return
15144b0fSOlivier Houchard               aSign
15144b0fSOlivier Houchard            || (    ( ( (bits64) ( ( a.high | b.high )<<1 ) ) | a.low | b.low )
15144b0fSOlivier Houchard                 == 0 );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    return
15144b0fSOlivier Houchard          aSign ? le128( b.high, b.low, a.high, a.low )
15144b0fSOlivier Houchard        : le128( a.high, a.low, b.high, b.low );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns 1 if the quadruple-precision floating-point value `a' is less than
15144b0fSOlivier Houchardthe corresponding value `b', and 0 otherwise.  The comparison is performed
15144b0fSOlivier Houchardaccording to the IEC/IEEE Standard for Binary Floating-Point Arithmetic.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardflag float128_lt( float128 a, float128 b )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    flag aSign, bSign;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    if (    (    ( extractFloat128Exp( a ) == 0x7FFF )
15144b0fSOlivier Houchard              && ( extractFloat128Frac0( a ) | extractFloat128Frac1( a ) ) )
15144b0fSOlivier Houchard         || (    ( extractFloat128Exp( b ) == 0x7FFF )
15144b0fSOlivier Houchard              && ( extractFloat128Frac0( b ) | extractFloat128Frac1( b ) ) )
15144b0fSOlivier Houchard       ) {
15144b0fSOlivier Houchard        float_raise( float_flag_invalid );
15144b0fSOlivier Houchard        return 0;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    aSign = extractFloat128Sign( a );
15144b0fSOlivier Houchard    bSign = extractFloat128Sign( b );
15144b0fSOlivier Houchard    if ( aSign != bSign ) {
15144b0fSOlivier Houchard        return
15144b0fSOlivier Houchard               aSign
15144b0fSOlivier Houchard            && (    ( ( (bits64) ( ( a.high | b.high )<<1 ) ) | a.low | b.low )
15144b0fSOlivier Houchard                 != 0 );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    return
15144b0fSOlivier Houchard          aSign ? lt128( b.high, b.low, a.high, a.low )
15144b0fSOlivier Houchard        : lt128( a.high, a.low, b.high, b.low );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns 1 if the quadruple-precision floating-point value `a' is equal to
15144b0fSOlivier Houchardthe corresponding value `b', and 0 otherwise.  The invalid exception is
15144b0fSOlivier Houchardraised if either operand is a NaN.  Otherwise, the comparison is performed
15144b0fSOlivier Houchardaccording to the IEC/IEEE Standard for Binary Floating-Point Arithmetic.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardflag float128_eq_signaling( float128 a, float128 b )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    if (    (    ( extractFloat128Exp( a ) == 0x7FFF )
15144b0fSOlivier Houchard              && ( extractFloat128Frac0( a ) | extractFloat128Frac1( a ) ) )
15144b0fSOlivier Houchard         || (    ( extractFloat128Exp( b ) == 0x7FFF )
15144b0fSOlivier Houchard              && ( extractFloat128Frac0( b ) | extractFloat128Frac1( b ) ) )
15144b0fSOlivier Houchard       ) {
15144b0fSOlivier Houchard        float_raise( float_flag_invalid );
15144b0fSOlivier Houchard        return 0;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    return
15144b0fSOlivier Houchard           ( a.low == b.low )
15144b0fSOlivier Houchard        && (    ( a.high == b.high )
15144b0fSOlivier Houchard             || (    ( a.low == 0 )
15144b0fSOlivier Houchard                  && ( (bits64) ( ( a.high | b.high )<<1 ) == 0 ) )
15144b0fSOlivier Houchard           );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns 1 if the quadruple-precision floating-point value `a' is less than
15144b0fSOlivier Houchardor equal to the corresponding value `b', and 0 otherwise.  Quiet NaNs do not
15144b0fSOlivier Houchardcause an exception.  Otherwise, the comparison is performed according to the
15144b0fSOlivier HouchardIEC/IEEE Standard for Binary Floating-Point Arithmetic.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardflag float128_le_quiet( float128 a, float128 b )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    flag aSign, bSign;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    if (    (    ( extractFloat128Exp( a ) == 0x7FFF )
15144b0fSOlivier Houchard              && ( extractFloat128Frac0( a ) | extractFloat128Frac1( a ) ) )
15144b0fSOlivier Houchard         || (    ( extractFloat128Exp( b ) == 0x7FFF )
15144b0fSOlivier Houchard              && ( extractFloat128Frac0( b ) | extractFloat128Frac1( b ) ) )
15144b0fSOlivier Houchard       ) {
15144b0fSOlivier Houchard        if (    float128_is_signaling_nan( a )
15144b0fSOlivier Houchard             || float128_is_signaling_nan( b ) ) {
15144b0fSOlivier Houchard            float_raise( float_flag_invalid );
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        return 0;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    aSign = extractFloat128Sign( a );
15144b0fSOlivier Houchard    bSign = extractFloat128Sign( b );
15144b0fSOlivier Houchard    if ( aSign != bSign ) {
15144b0fSOlivier Houchard        return
15144b0fSOlivier Houchard               aSign
15144b0fSOlivier Houchard            || (    ( ( (bits64) ( ( a.high | b.high )<<1 ) ) | a.low | b.low )
15144b0fSOlivier Houchard                 == 0 );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    return
15144b0fSOlivier Houchard          aSign ? le128( b.high, b.low, a.high, a.low )
15144b0fSOlivier Houchard        : le128( a.high, a.low, b.high, b.low );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns 1 if the quadruple-precision floating-point value `a' is less than
15144b0fSOlivier Houchardthe corresponding value `b', and 0 otherwise.  Quiet NaNs do not cause an
15144b0fSOlivier Houchardexception.  Otherwise, the comparison is performed according to the IEC/IEEE
15144b0fSOlivier HouchardStandard for Binary Floating-Point Arithmetic.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houchardflag float128_lt_quiet( float128 a, float128 b )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    flag aSign, bSign;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    if (    (    ( extractFloat128Exp( a ) == 0x7FFF )
15144b0fSOlivier Houchard              && ( extractFloat128Frac0( a ) | extractFloat128Frac1( a ) ) )
15144b0fSOlivier Houchard         || (    ( extractFloat128Exp( b ) == 0x7FFF )
15144b0fSOlivier Houchard              && ( extractFloat128Frac0( b ) | extractFloat128Frac1( b ) ) )
15144b0fSOlivier Houchard       ) {
15144b0fSOlivier Houchard        if (    float128_is_signaling_nan( a )
15144b0fSOlivier Houchard             || float128_is_signaling_nan( b ) ) {
15144b0fSOlivier Houchard            float_raise( float_flag_invalid );
15144b0fSOlivier Houchard        }
15144b0fSOlivier Houchard        return 0;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    aSign = extractFloat128Sign( a );
15144b0fSOlivier Houchard    bSign = extractFloat128Sign( b );
15144b0fSOlivier Houchard    if ( aSign != bSign ) {
15144b0fSOlivier Houchard        return
15144b0fSOlivier Houchard               aSign
15144b0fSOlivier Houchard            && (    ( ( (bits64) ( ( a.high | b.high )<<1 ) ) | a.low | b.low )
15144b0fSOlivier Houchard                 != 0 );
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    return
15144b0fSOlivier Houchard          aSign ? lt128( b.high, b.low, a.high, a.low )
15144b0fSOlivier Houchard        : lt128( a.high, a.low, b.high, b.low );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard#endif
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard#if defined(SOFTFLOAT_FOR_GCC) && defined(SOFTFLOAT_NEED_FIXUNS)
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard * These two routines are not part of the original softfloat distribution.
15144b0fSOlivier Houchard *
15144b0fSOlivier Houchard * They are based on the corresponding conversions to integer but return
15144b0fSOlivier Houchard * unsigned numbers instead since these functions are required by GCC.
15144b0fSOlivier Houchard *
15144b0fSOlivier Houchard * Added by Mark Brinicombe <[email protected]>	27/09/97
15144b0fSOlivier Houchard *
15144b0fSOlivier Houchard * float64 version overhauled for SoftFloat 2a [bjh21 2000-07-15]
15144b0fSOlivier Houchard */
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns the result of converting the double-precision floating-point value
15144b0fSOlivier Houchard`a' to the 32-bit unsigned integer format.  The conversion is
15144b0fSOlivier Houchardperformed according to the IEC/IEEE Standard for Binary Floating-point
15144b0fSOlivier HouchardArithmetic, except that the conversion is always rounded toward zero.  If
15144b0fSOlivier Houchard`a' is a NaN, the largest positive integer is returned.  If the conversion
15144b0fSOlivier Houchardoverflows, the largest integer positive is returned.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houcharduint32 float64_to_uint32_round_to_zero( float64 a )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    flag aSign;
15144b0fSOlivier Houchard    int16 aExp, shiftCount;
15144b0fSOlivier Houchard    bits64 aSig, savedASig;
15144b0fSOlivier Houchard    uint32 z;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    aSig = extractFloat64Frac( a );
15144b0fSOlivier Houchard    aExp = extractFloat64Exp( a );
15144b0fSOlivier Houchard    aSign = extractFloat64Sign( a );
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    if (aSign) {
15144b0fSOlivier Houchard        float_raise( float_flag_invalid );
15144b0fSOlivier Houchard    	return(0);
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    if ( 0x41E < aExp ) {
15144b0fSOlivier Houchard        float_raise( float_flag_invalid );
15144b0fSOlivier Houchard        return 0xffffffff;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    else if ( aExp < 0x3FF ) {
15144b0fSOlivier Houchard        if ( aExp || aSig ) float_exception_flags |= float_flag_inexact;
15144b0fSOlivier Houchard        return 0;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    aSig |= LIT64( 0x0010000000000000 );
15144b0fSOlivier Houchard    shiftCount = 0x433 - aExp;
15144b0fSOlivier Houchard    savedASig = aSig;
15144b0fSOlivier Houchard    aSig >>= shiftCount;
15144b0fSOlivier Houchard    z = aSig;
15144b0fSOlivier Houchard    if ( ( aSig<<shiftCount ) != savedASig ) {
15144b0fSOlivier Houchard        float_exception_flags |= float_flag_inexact;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    return z;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard/*
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier HouchardReturns the result of converting the single-precision floating-point value
15144b0fSOlivier Houchard`a' to the 32-bit unsigned integer format.  The conversion is
15144b0fSOlivier Houchardperformed according to the IEC/IEEE Standard for Binary Floating-point
15144b0fSOlivier HouchardArithmetic, except that the conversion is always rounded toward zero.  If
15144b0fSOlivier Houchard`a' is a NaN, the largest positive integer is returned.  If the conversion
15144b0fSOlivier Houchardoverflows, the largest positive integer is returned.
15144b0fSOlivier Houchard-------------------------------------------------------------------------------
15144b0fSOlivier Houchard*/
15144b0fSOlivier Houcharduint32 float32_to_uint32_round_to_zero( float32 a )
15144b0fSOlivier Houchard{
15144b0fSOlivier Houchard    flag aSign;
15144b0fSOlivier Houchard    int16 aExp, shiftCount;
15144b0fSOlivier Houchard    bits32 aSig;
15144b0fSOlivier Houchard    uint32 z;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    aSig = extractFloat32Frac( a );
15144b0fSOlivier Houchard    aExp = extractFloat32Exp( a );
15144b0fSOlivier Houchard    aSign = extractFloat32Sign( a );
15144b0fSOlivier Houchard    shiftCount = aExp - 0x9E;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard    if (aSign) {
15144b0fSOlivier Houchard        float_raise( float_flag_invalid );
15144b0fSOlivier Houchard    	return(0);
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    if ( 0 < shiftCount ) {
15144b0fSOlivier Houchard        float_raise( float_flag_invalid );
15144b0fSOlivier Houchard        return 0xFFFFFFFF;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    else if ( aExp <= 0x7E ) {
15144b0fSOlivier Houchard        if ( aExp | aSig ) float_exception_flags |= float_flag_inexact;
15144b0fSOlivier Houchard        return 0;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    aSig = ( aSig | 0x800000 )<<8;
15144b0fSOlivier Houchard    z = aSig>>( - shiftCount );
15144b0fSOlivier Houchard    if ( aSig<<( shiftCount & 31 ) ) {
15144b0fSOlivier Houchard        float_exception_flags |= float_flag_inexact;
15144b0fSOlivier Houchard    }
15144b0fSOlivier Houchard    return z;
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard}
15144b0fSOlivier Houchard
15144b0fSOlivier Houchard#endif