lib/Support/ConvertUTF.cpp

d88c1a5aSDimitry Andric/*===--- ConvertUTF.c - Universal Character Names conversions ---------------===
d88c1a5aSDimitry Andric *
d88c1a5aSDimitry Andric *                     The LLVM Compiler Infrastructure
d88c1a5aSDimitry Andric *
d88c1a5aSDimitry Andric * This file is distributed under the University of Illinois Open Source
d88c1a5aSDimitry Andric * License. See LICENSE.TXT for details.
d88c1a5aSDimitry Andric *
d88c1a5aSDimitry Andric *===------------------------------------------------------------------------=*/
d88c1a5aSDimitry Andric/*
d88c1a5aSDimitry Andric * Copyright 2001-2004 Unicode, Inc.
d88c1a5aSDimitry Andric *
d88c1a5aSDimitry Andric * Disclaimer
d88c1a5aSDimitry Andric *
d88c1a5aSDimitry Andric * This source code is provided as is by Unicode, Inc. No claims are
d88c1a5aSDimitry Andric * made as to fitness for any particular purpose. No warranties of any
d88c1a5aSDimitry Andric * kind are expressed or implied. The recipient agrees to determine
d88c1a5aSDimitry Andric * applicability of information provided. If this file has been
d88c1a5aSDimitry Andric * purchased on magnetic or optical media from Unicode, Inc., the
d88c1a5aSDimitry Andric * sole remedy for any claim will be exchange of defective media
d88c1a5aSDimitry Andric * within 90 days of receipt.
d88c1a5aSDimitry Andric *
d88c1a5aSDimitry Andric * Limitations on Rights to Redistribute This Code
d88c1a5aSDimitry Andric *
d88c1a5aSDimitry Andric * Unicode, Inc. hereby grants the right to freely use the information
d88c1a5aSDimitry Andric * supplied in this file in the creation of products supporting the
d88c1a5aSDimitry Andric * Unicode Standard, and to make copies of this file in any form
d88c1a5aSDimitry Andric * for internal or external distribution as long as this notice
d88c1a5aSDimitry Andric * remains attached.
d88c1a5aSDimitry Andric */
d88c1a5aSDimitry Andric
d88c1a5aSDimitry Andric/* ---------------------------------------------------------------------
d88c1a5aSDimitry Andric
d88c1a5aSDimitry Andric    Conversions between UTF32, UTF-16, and UTF-8. Source code file.
d88c1a5aSDimitry Andric    Author: Mark E. Davis, 1994.
d88c1a5aSDimitry Andric    Rev History: Rick McGowan, fixes & updates May 2001.
d88c1a5aSDimitry Andric    Sept 2001: fixed const & error conditions per
d88c1a5aSDimitry Andric        mods suggested by S. Parent & A. Lillich.
d88c1a5aSDimitry Andric    June 2002: Tim Dodd added detection and handling of incomplete
d88c1a5aSDimitry Andric        source sequences, enhanced error detection, added casts
d88c1a5aSDimitry Andric        to eliminate compiler warnings.
d88c1a5aSDimitry Andric    July 2003: slight mods to back out aggressive FFFE detection.
d88c1a5aSDimitry Andric    Jan 2004: updated switches in from-UTF8 conversions.
d88c1a5aSDimitry Andric    Oct 2004: updated to use UNI_MAX_LEGAL_UTF32 in UTF-32 conversions.
d88c1a5aSDimitry Andric
d88c1a5aSDimitry Andric    See the header file "ConvertUTF.h" for complete documentation.
d88c1a5aSDimitry Andric
d88c1a5aSDimitry Andric------------------------------------------------------------------------ */
d88c1a5aSDimitry Andric
d88c1a5aSDimitry Andric#include "llvm/Support/ConvertUTF.h"
d88c1a5aSDimitry Andric#ifdef CVTUTF_DEBUG
d88c1a5aSDimitry Andric#include <stdio.h>
d88c1a5aSDimitry Andric#endif
d88c1a5aSDimitry Andric#include <assert.h>
d88c1a5aSDimitry Andric
302affcbSDimitry Andric/*
302affcbSDimitry Andric * This code extensively uses fall-through switches.
302affcbSDimitry Andric * Keep the compiler from warning about that.
302affcbSDimitry Andric */
302affcbSDimitry Andric#if defined(__clang__) && defined(__has_warning)
302affcbSDimitry Andric# if __has_warning("-Wimplicit-fallthrough")
302affcbSDimitry Andric#  define ConvertUTF_DISABLE_WARNINGS \
302affcbSDimitry Andric    _Pragma("clang diagnostic push")  \
302affcbSDimitry Andric    _Pragma("clang diagnostic ignored \"-Wimplicit-fallthrough\"")
302affcbSDimitry Andric#  define ConvertUTF_RESTORE_WARNINGS \
302affcbSDimitry Andric    _Pragma("clang diagnostic pop")
302affcbSDimitry Andric# endif
302affcbSDimitry Andric#elif defined(__GNUC__) && __GNUC__ > 6
302affcbSDimitry Andric# define ConvertUTF_DISABLE_WARNINGS \
302affcbSDimitry Andric   _Pragma("GCC diagnostic push")    \
302affcbSDimitry Andric   _Pragma("GCC diagnostic ignored \"-Wimplicit-fallthrough\"")
302affcbSDimitry Andric# define ConvertUTF_RESTORE_WARNINGS \
302affcbSDimitry Andric   _Pragma("GCC diagnostic pop")
302affcbSDimitry Andric#endif
302affcbSDimitry Andric#ifndef ConvertUTF_DISABLE_WARNINGS
302affcbSDimitry Andric# define ConvertUTF_DISABLE_WARNINGS
302affcbSDimitry Andric#endif
302affcbSDimitry Andric#ifndef ConvertUTF_RESTORE_WARNINGS
302affcbSDimitry Andric# define ConvertUTF_RESTORE_WARNINGS
302affcbSDimitry Andric#endif
302affcbSDimitry Andric
302affcbSDimitry AndricConvertUTF_DISABLE_WARNINGS
302affcbSDimitry Andric
d88c1a5aSDimitry Andricnamespace llvm {
d88c1a5aSDimitry Andric
d88c1a5aSDimitry Andricstatic const int halfShift  = 10; /* used for shifting by 10 bits */
d88c1a5aSDimitry Andric
d88c1a5aSDimitry Andricstatic const UTF32 halfBase = 0x0010000UL;
d88c1a5aSDimitry Andricstatic const UTF32 halfMask = 0x3FFUL;
d88c1a5aSDimitry Andric
d88c1a5aSDimitry Andric#define UNI_SUR_HIGH_START  (UTF32)0xD800
d88c1a5aSDimitry Andric#define UNI_SUR_HIGH_END    (UTF32)0xDBFF
d88c1a5aSDimitry Andric#define UNI_SUR_LOW_START   (UTF32)0xDC00
d88c1a5aSDimitry Andric#define UNI_SUR_LOW_END     (UTF32)0xDFFF
d88c1a5aSDimitry Andric
d88c1a5aSDimitry Andric/* --------------------------------------------------------------------- */
d88c1a5aSDimitry Andric
d88c1a5aSDimitry Andric/*
d88c1a5aSDimitry Andric * Index into the table below with the first byte of a UTF-8 sequence to
d88c1a5aSDimitry Andric * get the number of trailing bytes that are supposed to follow it.
d88c1a5aSDimitry Andric * Note that *legal* UTF-8 values can't have 4 or 5-bytes. The table is
d88c1a5aSDimitry Andric * left as-is for anyone who may want to do such conversion, which was
d88c1a5aSDimitry Andric * allowed in earlier algorithms.
d88c1a5aSDimitry Andric */
d88c1a5aSDimitry Andricstatic const char trailingBytesForUTF8[256] = {
d88c1a5aSDimitry Andric    0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0, 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
d88c1a5aSDimitry Andric    0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0, 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
d88c1a5aSDimitry Andric    0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0, 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
d88c1a5aSDimitry Andric    0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0, 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
d88c1a5aSDimitry Andric    0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0, 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
d88c1a5aSDimitry Andric    0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0, 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
d88c1a5aSDimitry Andric    1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1, 1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,
d88c1a5aSDimitry Andric    2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2, 3,3,3,3,3,3,3,3,4,4,4,4,5,5,5,5
d88c1a5aSDimitry Andric};
d88c1a5aSDimitry Andric
d88c1a5aSDimitry Andric/*
d88c1a5aSDimitry Andric * Magic values subtracted from a buffer value during UTF8 conversion.
d88c1a5aSDimitry Andric * This table contains as many values as there might be trailing bytes
d88c1a5aSDimitry Andric * in a UTF-8 sequence.
d88c1a5aSDimitry Andric */
d88c1a5aSDimitry Andricstatic const UTF32 offsetsFromUTF8[6] = { 0x00000000UL, 0x00003080UL, 0x000E2080UL,
d88c1a5aSDimitry Andric                     0x03C82080UL, 0xFA082080UL, 0x82082080UL };
d88c1a5aSDimitry Andric
d88c1a5aSDimitry Andric/*
d88c1a5aSDimitry Andric * Once the bits are split out into bytes of UTF-8, this is a mask OR-ed
d88c1a5aSDimitry Andric * into the first byte, depending on how many bytes follow.  There are
d88c1a5aSDimitry Andric * as many entries in this table as there are UTF-8 sequence types.
d88c1a5aSDimitry Andric * (I.e., one byte sequence, two byte... etc.). Remember that sequencs
d88c1a5aSDimitry Andric * for *legal* UTF-8 will be 4 or fewer bytes total.
d88c1a5aSDimitry Andric */
d88c1a5aSDimitry Andricstatic const UTF8 firstByteMark[7] = { 0x00, 0x00, 0xC0, 0xE0, 0xF0, 0xF8, 0xFC };
d88c1a5aSDimitry Andric
d88c1a5aSDimitry Andric/* --------------------------------------------------------------------- */
d88c1a5aSDimitry Andric
d88c1a5aSDimitry Andric/* The interface converts a whole buffer to avoid function-call overhead.
d88c1a5aSDimitry Andric * Constants have been gathered. Loops & conditionals have been removed as
d88c1a5aSDimitry Andric * much as possible for efficiency, in favor of drop-through switches.
d88c1a5aSDimitry Andric * (See "Note A" at the bottom of the file for equivalent code.)
d88c1a5aSDimitry Andric * If your compiler supports it, the "isLegalUTF8" call can be turned
d88c1a5aSDimitry Andric * into an inline function.
d88c1a5aSDimitry Andric */
d88c1a5aSDimitry Andric
d88c1a5aSDimitry Andric
d88c1a5aSDimitry Andric/* --------------------------------------------------------------------- */
d88c1a5aSDimitry Andric
d88c1a5aSDimitry AndricConversionResult ConvertUTF32toUTF16 (
d88c1a5aSDimitry Andric        const UTF32** sourceStart, const UTF32* sourceEnd,
d88c1a5aSDimitry Andric        UTF16** targetStart, UTF16* targetEnd, ConversionFlags flags) {
d88c1a5aSDimitry Andric    ConversionResult result = conversionOK;
d88c1a5aSDimitry Andric    const UTF32* source = *sourceStart;
d88c1a5aSDimitry Andric    UTF16* target = *targetStart;
d88c1a5aSDimitry Andric    while (source < sourceEnd) {
d88c1a5aSDimitry Andric        UTF32 ch;
d88c1a5aSDimitry Andric        if (target >= targetEnd) {
d88c1a5aSDimitry Andric            result = targetExhausted; break;
d88c1a5aSDimitry Andric        }
d88c1a5aSDimitry Andric        ch = *source++;
d88c1a5aSDimitry Andric        if (ch <= UNI_MAX_BMP) { /* Target is a character <= 0xFFFF */
d88c1a5aSDimitry Andric            /* UTF-16 surrogate values are illegal in UTF-32; 0xffff or 0xfffe are both reserved values */
d88c1a5aSDimitry Andric            if (ch >= UNI_SUR_HIGH_START && ch <= UNI_SUR_LOW_END) {
d88c1a5aSDimitry Andric                if (flags == strictConversion) {
d88c1a5aSDimitry Andric                    --source; /* return to the illegal value itself */
d88c1a5aSDimitry Andric                    result = sourceIllegal;
d88c1a5aSDimitry Andric                    break;
d88c1a5aSDimitry Andric                } else {
d88c1a5aSDimitry Andric                    *target++ = UNI_REPLACEMENT_CHAR;
d88c1a5aSDimitry Andric                }
d88c1a5aSDimitry Andric            } else {
d88c1a5aSDimitry Andric                *target++ = (UTF16)ch; /* normal case */
d88c1a5aSDimitry Andric            }
d88c1a5aSDimitry Andric        } else if (ch > UNI_MAX_LEGAL_UTF32) {
d88c1a5aSDimitry Andric            if (flags == strictConversion) {
d88c1a5aSDimitry Andric                result = sourceIllegal;
d88c1a5aSDimitry Andric            } else {
d88c1a5aSDimitry Andric                *target++ = UNI_REPLACEMENT_CHAR;
d88c1a5aSDimitry Andric            }
d88c1a5aSDimitry Andric        } else {
d88c1a5aSDimitry Andric            /* target is a character in range 0xFFFF - 0x10FFFF. */
d88c1a5aSDimitry Andric            if (target + 1 >= targetEnd) {
d88c1a5aSDimitry Andric                --source; /* Back up source pointer! */
d88c1a5aSDimitry Andric                result = targetExhausted; break;
d88c1a5aSDimitry Andric            }
d88c1a5aSDimitry Andric            ch -= halfBase;
d88c1a5aSDimitry Andric            *target++ = (UTF16)((ch >> halfShift) + UNI_SUR_HIGH_START);
d88c1a5aSDimitry Andric            *target++ = (UTF16)((ch & halfMask) + UNI_SUR_LOW_START);
d88c1a5aSDimitry Andric        }
d88c1a5aSDimitry Andric    }
d88c1a5aSDimitry Andric    *sourceStart = source;
d88c1a5aSDimitry Andric    *targetStart = target;
d88c1a5aSDimitry Andric    return result;
d88c1a5aSDimitry Andric}
d88c1a5aSDimitry Andric
d88c1a5aSDimitry Andric/* --------------------------------------------------------------------- */
d88c1a5aSDimitry Andric
d88c1a5aSDimitry AndricConversionResult ConvertUTF16toUTF32 (
d88c1a5aSDimitry Andric        const UTF16** sourceStart, const UTF16* sourceEnd,
d88c1a5aSDimitry Andric        UTF32** targetStart, UTF32* targetEnd, ConversionFlags flags) {
d88c1a5aSDimitry Andric    ConversionResult result = conversionOK;
d88c1a5aSDimitry Andric    const UTF16* source = *sourceStart;
d88c1a5aSDimitry Andric    UTF32* target = *targetStart;
d88c1a5aSDimitry Andric    UTF32 ch, ch2;
d88c1a5aSDimitry Andric    while (source < sourceEnd) {
d88c1a5aSDimitry Andric        const UTF16* oldSource = source; /*  In case we have to back up because of target overflow. */
d88c1a5aSDimitry Andric        ch = *source++;
d88c1a5aSDimitry Andric        /* If we have a surrogate pair, convert to UTF32 first. */
d88c1a5aSDimitry Andric        if (ch >= UNI_SUR_HIGH_START && ch <= UNI_SUR_HIGH_END) {
d88c1a5aSDimitry Andric            /* If the 16 bits following the high surrogate are in the source buffer... */
d88c1a5aSDimitry Andric            if (source < sourceEnd) {
d88c1a5aSDimitry Andric                ch2 = *source;
d88c1a5aSDimitry Andric                /* If it's a low surrogate, convert to UTF32. */
d88c1a5aSDimitry Andric                if (ch2 >= UNI_SUR_LOW_START && ch2 <= UNI_SUR_LOW_END) {
d88c1a5aSDimitry Andric                    ch = ((ch - UNI_SUR_HIGH_START) << halfShift)
d88c1a5aSDimitry Andric                        + (ch2 - UNI_SUR_LOW_START) + halfBase;
d88c1a5aSDimitry Andric                    ++source;
d88c1a5aSDimitry Andric                } else if (flags == strictConversion) { /* it's an unpaired high surrogate */
d88c1a5aSDimitry Andric                    --source; /* return to the illegal value itself */
d88c1a5aSDimitry Andric                    result = sourceIllegal;
d88c1a5aSDimitry Andric                    break;
d88c1a5aSDimitry Andric                }
d88c1a5aSDimitry Andric            } else { /* We don't have the 16 bits following the high surrogate. */
d88c1a5aSDimitry Andric                --source; /* return to the high surrogate */
d88c1a5aSDimitry Andric                result = sourceExhausted;
d88c1a5aSDimitry Andric                break;
d88c1a5aSDimitry Andric            }
d88c1a5aSDimitry Andric        } else if (flags == strictConversion) {
d88c1a5aSDimitry Andric            /* UTF-16 surrogate values are illegal in UTF-32 */
d88c1a5aSDimitry Andric            if (ch >= UNI_SUR_LOW_START && ch <= UNI_SUR_LOW_END) {
d88c1a5aSDimitry Andric                --source; /* return to the illegal value itself */
d88c1a5aSDimitry Andric                result = sourceIllegal;
d88c1a5aSDimitry Andric                break;
d88c1a5aSDimitry Andric            }
d88c1a5aSDimitry Andric        }
d88c1a5aSDimitry Andric        if (target >= targetEnd) {
d88c1a5aSDimitry Andric            source = oldSource; /* Back up source pointer! */
d88c1a5aSDimitry Andric            result = targetExhausted; break;
d88c1a5aSDimitry Andric        }
d88c1a5aSDimitry Andric        *target++ = ch;
d88c1a5aSDimitry Andric    }
d88c1a5aSDimitry Andric    *sourceStart = source;
d88c1a5aSDimitry Andric    *targetStart = target;
d88c1a5aSDimitry Andric#ifdef CVTUTF_DEBUG
d88c1a5aSDimitry Andricif (result == sourceIllegal) {
d88c1a5aSDimitry Andric    fprintf(stderr, "ConvertUTF16toUTF32 illegal seq 0x%04x,%04x\n", ch, ch2);
d88c1a5aSDimitry Andric    fflush(stderr);
d88c1a5aSDimitry Andric}
d88c1a5aSDimitry Andric#endif
d88c1a5aSDimitry Andric    return result;
d88c1a5aSDimitry Andric}
d88c1a5aSDimitry AndricConversionResult ConvertUTF16toUTF8 (
d88c1a5aSDimitry Andric        const UTF16** sourceStart, const UTF16* sourceEnd,
d88c1a5aSDimitry Andric        UTF8** targetStart, UTF8* targetEnd, ConversionFlags flags) {
d88c1a5aSDimitry Andric    ConversionResult result = conversionOK;
d88c1a5aSDimitry Andric    const UTF16* source = *sourceStart;
d88c1a5aSDimitry Andric    UTF8* target = *targetStart;
d88c1a5aSDimitry Andric    while (source < sourceEnd) {
d88c1a5aSDimitry Andric        UTF32 ch;
d88c1a5aSDimitry Andric        unsigned short bytesToWrite = 0;
d88c1a5aSDimitry Andric        const UTF32 byteMask = 0xBF;
d88c1a5aSDimitry Andric        const UTF32 byteMark = 0x80;
d88c1a5aSDimitry Andric        const UTF16* oldSource = source; /* In case we have to back up because of target overflow. */
d88c1a5aSDimitry Andric        ch = *source++;
d88c1a5aSDimitry Andric        /* If we have a surrogate pair, convert to UTF32 first. */
d88c1a5aSDimitry Andric        if (ch >= UNI_SUR_HIGH_START && ch <= UNI_SUR_HIGH_END) {
d88c1a5aSDimitry Andric            /* If the 16 bits following the high surrogate are in the source buffer... */
d88c1a5aSDimitry Andric            if (source < sourceEnd) {
d88c1a5aSDimitry Andric                UTF32 ch2 = *source;
d88c1a5aSDimitry Andric                /* If it's a low surrogate, convert to UTF32. */
d88c1a5aSDimitry Andric                if (ch2 >= UNI_SUR_LOW_START && ch2 <= UNI_SUR_LOW_END) {
d88c1a5aSDimitry Andric                    ch = ((ch - UNI_SUR_HIGH_START) << halfShift)
d88c1a5aSDimitry Andric                        + (ch2 - UNI_SUR_LOW_START) + halfBase;
d88c1a5aSDimitry Andric                    ++source;
d88c1a5aSDimitry Andric                } else if (flags == strictConversion) { /* it's an unpaired high surrogate */
d88c1a5aSDimitry Andric                    --source; /* return to the illegal value itself */
d88c1a5aSDimitry Andric                    result = sourceIllegal;
d88c1a5aSDimitry Andric                    break;
d88c1a5aSDimitry Andric                }
d88c1a5aSDimitry Andric            } else { /* We don't have the 16 bits following the high surrogate. */
d88c1a5aSDimitry Andric                --source; /* return to the high surrogate */
d88c1a5aSDimitry Andric                result = sourceExhausted;
d88c1a5aSDimitry Andric                break;
d88c1a5aSDimitry Andric            }
d88c1a5aSDimitry Andric        } else if (flags == strictConversion) {
d88c1a5aSDimitry Andric            /* UTF-16 surrogate values are illegal in UTF-32 */
d88c1a5aSDimitry Andric            if (ch >= UNI_SUR_LOW_START && ch <= UNI_SUR_LOW_END) {
d88c1a5aSDimitry Andric                --source; /* return to the illegal value itself */
d88c1a5aSDimitry Andric                result = sourceIllegal;
d88c1a5aSDimitry Andric                break;
d88c1a5aSDimitry Andric            }
d88c1a5aSDimitry Andric        }
d88c1a5aSDimitry Andric        /* Figure out how many bytes the result will require */
d88c1a5aSDimitry Andric        if (ch < (UTF32)0x80) {      bytesToWrite = 1;
d88c1a5aSDimitry Andric        } else if (ch < (UTF32)0x800) {     bytesToWrite = 2;
d88c1a5aSDimitry Andric        } else if (ch < (UTF32)0x10000) {   bytesToWrite = 3;
d88c1a5aSDimitry Andric        } else if (ch < (UTF32)0x110000) {  bytesToWrite = 4;
d88c1a5aSDimitry Andric        } else {                            bytesToWrite = 3;
d88c1a5aSDimitry Andric                                            ch = UNI_REPLACEMENT_CHAR;
d88c1a5aSDimitry Andric        }
d88c1a5aSDimitry Andric
d88c1a5aSDimitry Andric        target += bytesToWrite;
d88c1a5aSDimitry Andric        if (target > targetEnd) {
d88c1a5aSDimitry Andric            source = oldSource; /* Back up source pointer! */
d88c1a5aSDimitry Andric            target -= bytesToWrite; result = targetExhausted; break;
d88c1a5aSDimitry Andric        }
d88c1a5aSDimitry Andric        switch (bytesToWrite) { /* note: everything falls through. */
d88c1a5aSDimitry Andric            case 4: *--target = (UTF8)((ch | byteMark) & byteMask); ch >>= 6;
d88c1a5aSDimitry Andric            case 3: *--target = (UTF8)((ch | byteMark) & byteMask); ch >>= 6;
d88c1a5aSDimitry Andric            case 2: *--target = (UTF8)((ch | byteMark) & byteMask); ch >>= 6;
d88c1a5aSDimitry Andric            case 1: *--target =  (UTF8)(ch | firstByteMark[bytesToWrite]);
d88c1a5aSDimitry Andric        }
d88c1a5aSDimitry Andric        target += bytesToWrite;
d88c1a5aSDimitry Andric    }
d88c1a5aSDimitry Andric    *sourceStart = source;
d88c1a5aSDimitry Andric    *targetStart = target;
d88c1a5aSDimitry Andric    return result;
d88c1a5aSDimitry Andric}
d88c1a5aSDimitry Andric
d88c1a5aSDimitry Andric/* --------------------------------------------------------------------- */
d88c1a5aSDimitry Andric
d88c1a5aSDimitry AndricConversionResult ConvertUTF32toUTF8 (
d88c1a5aSDimitry Andric        const UTF32** sourceStart, const UTF32* sourceEnd,
d88c1a5aSDimitry Andric        UTF8** targetStart, UTF8* targetEnd, ConversionFlags flags) {
d88c1a5aSDimitry Andric    ConversionResult result = conversionOK;
d88c1a5aSDimitry Andric    const UTF32* source = *sourceStart;
d88c1a5aSDimitry Andric    UTF8* target = *targetStart;
d88c1a5aSDimitry Andric    while (source < sourceEnd) {
d88c1a5aSDimitry Andric        UTF32 ch;
d88c1a5aSDimitry Andric        unsigned short bytesToWrite = 0;
d88c1a5aSDimitry Andric        const UTF32 byteMask = 0xBF;
d88c1a5aSDimitry Andric        const UTF32 byteMark = 0x80;
d88c1a5aSDimitry Andric        ch = *source++;
d88c1a5aSDimitry Andric        if (flags == strictConversion ) {
d88c1a5aSDimitry Andric            /* UTF-16 surrogate values are illegal in UTF-32 */
d88c1a5aSDimitry Andric            if (ch >= UNI_SUR_HIGH_START && ch <= UNI_SUR_LOW_END) {
d88c1a5aSDimitry Andric                --source; /* return to the illegal value itself */
d88c1a5aSDimitry Andric                result = sourceIllegal;
d88c1a5aSDimitry Andric                break;
d88c1a5aSDimitry Andric            }
d88c1a5aSDimitry Andric        }
d88c1a5aSDimitry Andric        /*
d88c1a5aSDimitry Andric         * Figure out how many bytes the result will require. Turn any
d88c1a5aSDimitry Andric         * illegally large UTF32 things (> Plane 17) into replacement chars.
d88c1a5aSDimitry Andric         */
d88c1a5aSDimitry Andric        if (ch < (UTF32)0x80) {      bytesToWrite = 1;
d88c1a5aSDimitry Andric        } else if (ch < (UTF32)0x800) {     bytesToWrite = 2;
d88c1a5aSDimitry Andric        } else if (ch < (UTF32)0x10000) {   bytesToWrite = 3;
d88c1a5aSDimitry Andric        } else if (ch <= UNI_MAX_LEGAL_UTF32) {  bytesToWrite = 4;
d88c1a5aSDimitry Andric        } else {                            bytesToWrite = 3;
d88c1a5aSDimitry Andric                                            ch = UNI_REPLACEMENT_CHAR;
d88c1a5aSDimitry Andric                                            result = sourceIllegal;
d88c1a5aSDimitry Andric        }
d88c1a5aSDimitry Andric
d88c1a5aSDimitry Andric        target += bytesToWrite;
d88c1a5aSDimitry Andric        if (target > targetEnd) {
d88c1a5aSDimitry Andric            --source; /* Back up source pointer! */
d88c1a5aSDimitry Andric            target -= bytesToWrite; result = targetExhausted; break;
d88c1a5aSDimitry Andric        }
d88c1a5aSDimitry Andric        switch (bytesToWrite) { /* note: everything falls through. */
d88c1a5aSDimitry Andric            case 4: *--target = (UTF8)((ch | byteMark) & byteMask); ch >>= 6;
d88c1a5aSDimitry Andric            case 3: *--target = (UTF8)((ch | byteMark) & byteMask); ch >>= 6;
d88c1a5aSDimitry Andric            case 2: *--target = (UTF8)((ch | byteMark) & byteMask); ch >>= 6;
d88c1a5aSDimitry Andric            case 1: *--target = (UTF8) (ch | firstByteMark[bytesToWrite]);
d88c1a5aSDimitry Andric        }
d88c1a5aSDimitry Andric        target += bytesToWrite;
d88c1a5aSDimitry Andric    }
d88c1a5aSDimitry Andric    *sourceStart = source;
d88c1a5aSDimitry Andric    *targetStart = target;
d88c1a5aSDimitry Andric    return result;
d88c1a5aSDimitry Andric}
d88c1a5aSDimitry Andric
d88c1a5aSDimitry Andric/* --------------------------------------------------------------------- */
d88c1a5aSDimitry Andric
d88c1a5aSDimitry Andric/*
d88c1a5aSDimitry Andric * Utility routine to tell whether a sequence of bytes is legal UTF-8.
d88c1a5aSDimitry Andric * This must be called with the length pre-determined by the first byte.
d88c1a5aSDimitry Andric * If not calling this from ConvertUTF8to*, then the length can be set by:
d88c1a5aSDimitry Andric *  length = trailingBytesForUTF8[*source]+1;
d88c1a5aSDimitry Andric * and the sequence is illegal right away if there aren't that many bytes
d88c1a5aSDimitry Andric * available.
d88c1a5aSDimitry Andric * If presented with a length > 4, this returns false.  The Unicode
d88c1a5aSDimitry Andric * definition of UTF-8 goes up to 4-byte sequences.
d88c1a5aSDimitry Andric */
d88c1a5aSDimitry Andric
d88c1a5aSDimitry Andricstatic Boolean isLegalUTF8(const UTF8 *source, int length) {
d88c1a5aSDimitry Andric    UTF8 a;
d88c1a5aSDimitry Andric    const UTF8 *srcptr = source+length;
d88c1a5aSDimitry Andric    switch (length) {
d88c1a5aSDimitry Andric    default: return false;
d88c1a5aSDimitry Andric        /* Everything else falls through when "true"... */
d88c1a5aSDimitry Andric    case 4: if ((a = (*--srcptr)) < 0x80 || a > 0xBF) return false;
d88c1a5aSDimitry Andric    case 3: if ((a = (*--srcptr)) < 0x80 || a > 0xBF) return false;
d88c1a5aSDimitry Andric    case 2: if ((a = (*--srcptr)) < 0x80 || a > 0xBF) return false;
d88c1a5aSDimitry Andric
d88c1a5aSDimitry Andric        switch (*source) {
d88c1a5aSDimitry Andric            /* no fall-through in this inner switch */
d88c1a5aSDimitry Andric            case 0xE0: if (a < 0xA0) return false; break;
d88c1a5aSDimitry Andric            case 0xED: if (a > 0x9F) return false; break;
d88c1a5aSDimitry Andric            case 0xF0: if (a < 0x90) return false; break;
d88c1a5aSDimitry Andric            case 0xF4: if (a > 0x8F) return false; break;
d88c1a5aSDimitry Andric            default:   if (a < 0x80) return false;
d88c1a5aSDimitry Andric        }
d88c1a5aSDimitry Andric
d88c1a5aSDimitry Andric    case 1: if (*source >= 0x80 && *source < 0xC2) return false;
d88c1a5aSDimitry Andric    }
d88c1a5aSDimitry Andric    if (*source > 0xF4) return false;
d88c1a5aSDimitry Andric    return true;
d88c1a5aSDimitry Andric}
d88c1a5aSDimitry Andric
d88c1a5aSDimitry Andric/* --------------------------------------------------------------------- */
d88c1a5aSDimitry Andric
d88c1a5aSDimitry Andric/*
d88c1a5aSDimitry Andric * Exported function to return whether a UTF-8 sequence is legal or not.
d88c1a5aSDimitry Andric * This is not used here; it's just exported.
d88c1a5aSDimitry Andric */
d88c1a5aSDimitry AndricBoolean isLegalUTF8Sequence(const UTF8 *source, const UTF8 *sourceEnd) {
d88c1a5aSDimitry Andric    int length = trailingBytesForUTF8[*source]+1;
d88c1a5aSDimitry Andric    if (length > sourceEnd - source) {
d88c1a5aSDimitry Andric        return false;
d88c1a5aSDimitry Andric    }
d88c1a5aSDimitry Andric    return isLegalUTF8(source, length);
d88c1a5aSDimitry Andric}
d88c1a5aSDimitry Andric
d88c1a5aSDimitry Andric/* --------------------------------------------------------------------- */
d88c1a5aSDimitry Andric
d88c1a5aSDimitry Andricstatic unsigned
d88c1a5aSDimitry AndricfindMaximalSubpartOfIllFormedUTF8Sequence(const UTF8 *source,
d88c1a5aSDimitry Andric                                          const UTF8 *sourceEnd) {
d88c1a5aSDimitry Andric  UTF8 b1, b2, b3;
d88c1a5aSDimitry Andric
d88c1a5aSDimitry Andric  assert(!isLegalUTF8Sequence(source, sourceEnd));
d88c1a5aSDimitry Andric
d88c1a5aSDimitry Andric  /*
d88c1a5aSDimitry Andric   * Unicode 6.3.0, D93b:
d88c1a5aSDimitry Andric   *
d88c1a5aSDimitry Andric   *   Maximal subpart of an ill-formed subsequence: The longest code unit
d88c1a5aSDimitry Andric   *   subsequence starting at an unconvertible offset that is either:
d88c1a5aSDimitry Andric   *   a. the initial subsequence of a well-formed code unit sequence, or
d88c1a5aSDimitry Andric   *   b. a subsequence of length one.
d88c1a5aSDimitry Andric   */
d88c1a5aSDimitry Andric
d88c1a5aSDimitry Andric  if (source == sourceEnd)
d88c1a5aSDimitry Andric    return 0;
d88c1a5aSDimitry Andric
d88c1a5aSDimitry Andric  /*
d88c1a5aSDimitry Andric   * Perform case analysis.  See Unicode 6.3.0, Table 3-7. Well-Formed UTF-8
d88c1a5aSDimitry Andric   * Byte Sequences.
d88c1a5aSDimitry Andric   */
d88c1a5aSDimitry Andric
d88c1a5aSDimitry Andric  b1 = *source;
d88c1a5aSDimitry Andric  ++source;
d88c1a5aSDimitry Andric  if (b1 >= 0xC2 && b1 <= 0xDF) {
d88c1a5aSDimitry Andric    /*
d88c1a5aSDimitry Andric     * First byte is valid, but we know that this code unit sequence is
d88c1a5aSDimitry Andric     * invalid, so the maximal subpart has to end after the first byte.
d88c1a5aSDimitry Andric     */
d88c1a5aSDimitry Andric    return 1;
d88c1a5aSDimitry Andric  }
d88c1a5aSDimitry Andric
d88c1a5aSDimitry Andric  if (source == sourceEnd)
d88c1a5aSDimitry Andric    return 1;
d88c1a5aSDimitry Andric
d88c1a5aSDimitry Andric  b2 = *source;
d88c1a5aSDimitry Andric  ++source;
d88c1a5aSDimitry Andric
d88c1a5aSDimitry Andric  if (b1 == 0xE0) {
d88c1a5aSDimitry Andric    return (b2 >= 0xA0 && b2 <= 0xBF) ? 2 : 1;
d88c1a5aSDimitry Andric  }
d88c1a5aSDimitry Andric  if (b1 >= 0xE1 && b1 <= 0xEC) {
d88c1a5aSDimitry Andric    return (b2 >= 0x80 && b2 <= 0xBF) ? 2 : 1;
d88c1a5aSDimitry Andric  }
d88c1a5aSDimitry Andric  if (b1 == 0xED) {
d88c1a5aSDimitry Andric    return (b2 >= 0x80 && b2 <= 0x9F) ? 2 : 1;
d88c1a5aSDimitry Andric  }
d88c1a5aSDimitry Andric  if (b1 >= 0xEE && b1 <= 0xEF) {
d88c1a5aSDimitry Andric    return (b2 >= 0x80 && b2 <= 0xBF) ? 2 : 1;
d88c1a5aSDimitry Andric  }
d88c1a5aSDimitry Andric  if (b1 == 0xF0) {
d88c1a5aSDimitry Andric    if (b2 >= 0x90 && b2 <= 0xBF) {
d88c1a5aSDimitry Andric      if (source == sourceEnd)
d88c1a5aSDimitry Andric        return 2;
d88c1a5aSDimitry Andric
d88c1a5aSDimitry Andric      b3 = *source;
d88c1a5aSDimitry Andric      return (b3 >= 0x80 && b3 <= 0xBF) ? 3 : 2;
d88c1a5aSDimitry Andric    }
d88c1a5aSDimitry Andric    return 1;
d88c1a5aSDimitry Andric  }
d88c1a5aSDimitry Andric  if (b1 >= 0xF1 && b1 <= 0xF3) {
d88c1a5aSDimitry Andric    if (b2 >= 0x80 && b2 <= 0xBF) {
d88c1a5aSDimitry Andric      if (source == sourceEnd)
d88c1a5aSDimitry Andric        return 2;
d88c1a5aSDimitry Andric
d88c1a5aSDimitry Andric      b3 = *source;
d88c1a5aSDimitry Andric      return (b3 >= 0x80 && b3 <= 0xBF) ? 3 : 2;
d88c1a5aSDimitry Andric    }
d88c1a5aSDimitry Andric    return 1;
d88c1a5aSDimitry Andric  }
d88c1a5aSDimitry Andric  if (b1 == 0xF4) {
d88c1a5aSDimitry Andric    if (b2 >= 0x80 && b2 <= 0x8F) {
d88c1a5aSDimitry Andric      if (source == sourceEnd)
d88c1a5aSDimitry Andric        return 2;
d88c1a5aSDimitry Andric
d88c1a5aSDimitry Andric      b3 = *source;
d88c1a5aSDimitry Andric      return (b3 >= 0x80 && b3 <= 0xBF) ? 3 : 2;
d88c1a5aSDimitry Andric    }
d88c1a5aSDimitry Andric    return 1;
d88c1a5aSDimitry Andric  }
d88c1a5aSDimitry Andric
d88c1a5aSDimitry Andric  assert((b1 >= 0x80 && b1 <= 0xC1) || b1 >= 0xF5);
d88c1a5aSDimitry Andric  /*
d88c1a5aSDimitry Andric   * There are no valid sequences that start with these bytes.  Maximal subpart
d88c1a5aSDimitry Andric   * is defined to have length 1 in these cases.
d88c1a5aSDimitry Andric   */
d88c1a5aSDimitry Andric  return 1;
d88c1a5aSDimitry Andric}
d88c1a5aSDimitry Andric
d88c1a5aSDimitry Andric/* --------------------------------------------------------------------- */
d88c1a5aSDimitry Andric
d88c1a5aSDimitry Andric/*
d88c1a5aSDimitry Andric * Exported function to return the total number of bytes in a codepoint
d88c1a5aSDimitry Andric * represented in UTF-8, given the value of the first byte.
d88c1a5aSDimitry Andric */
d88c1a5aSDimitry Andricunsigned getNumBytesForUTF8(UTF8 first) {
d88c1a5aSDimitry Andric  return trailingBytesForUTF8[first] + 1;
d88c1a5aSDimitry Andric}
d88c1a5aSDimitry Andric
d88c1a5aSDimitry Andric/* --------------------------------------------------------------------- */
d88c1a5aSDimitry Andric
d88c1a5aSDimitry Andric/*
d88c1a5aSDimitry Andric * Exported function to return whether a UTF-8 string is legal or not.
d88c1a5aSDimitry Andric * This is not used here; it's just exported.
d88c1a5aSDimitry Andric */
d88c1a5aSDimitry AndricBoolean isLegalUTF8String(const UTF8 **source, const UTF8 *sourceEnd) {
d88c1a5aSDimitry Andric    while (*source != sourceEnd) {
d88c1a5aSDimitry Andric        int length = trailingBytesForUTF8[**source] + 1;
d88c1a5aSDimitry Andric        if (length > sourceEnd - *source || !isLegalUTF8(*source, length))
d88c1a5aSDimitry Andric            return false;
d88c1a5aSDimitry Andric        *source += length;
d88c1a5aSDimitry Andric    }
d88c1a5aSDimitry Andric    return true;
d88c1a5aSDimitry Andric}
d88c1a5aSDimitry Andric
d88c1a5aSDimitry Andric/* --------------------------------------------------------------------- */
d88c1a5aSDimitry Andric
d88c1a5aSDimitry AndricConversionResult ConvertUTF8toUTF16 (
d88c1a5aSDimitry Andric        const UTF8** sourceStart, const UTF8* sourceEnd,
d88c1a5aSDimitry Andric        UTF16** targetStart, UTF16* targetEnd, ConversionFlags flags) {
d88c1a5aSDimitry Andric    ConversionResult result = conversionOK;
d88c1a5aSDimitry Andric    const UTF8* source = *sourceStart;
d88c1a5aSDimitry Andric    UTF16* target = *targetStart;
d88c1a5aSDimitry Andric    while (source < sourceEnd) {
d88c1a5aSDimitry Andric        UTF32 ch = 0;
d88c1a5aSDimitry Andric        unsigned short extraBytesToRead = trailingBytesForUTF8[*source];
d88c1a5aSDimitry Andric        if (extraBytesToRead >= sourceEnd - source) {
d88c1a5aSDimitry Andric            result = sourceExhausted; break;
d88c1a5aSDimitry Andric        }
d88c1a5aSDimitry Andric        /* Do this check whether lenient or strict */
d88c1a5aSDimitry Andric        if (!isLegalUTF8(source, extraBytesToRead+1)) {
d88c1a5aSDimitry Andric            result = sourceIllegal;
d88c1a5aSDimitry Andric            break;
d88c1a5aSDimitry Andric        }
d88c1a5aSDimitry Andric        /*
d88c1a5aSDimitry Andric         * The cases all fall through. See "Note A" below.
d88c1a5aSDimitry Andric         */
d88c1a5aSDimitry Andric        switch (extraBytesToRead) {
d88c1a5aSDimitry Andric            case 5: ch += *source++; ch <<= 6; /* remember, illegal UTF-8 */
d88c1a5aSDimitry Andric            case 4: ch += *source++; ch <<= 6; /* remember, illegal UTF-8 */
d88c1a5aSDimitry Andric            case 3: ch += *source++; ch <<= 6;
d88c1a5aSDimitry Andric            case 2: ch += *source++; ch <<= 6;
d88c1a5aSDimitry Andric            case 1: ch += *source++; ch <<= 6;
d88c1a5aSDimitry Andric            case 0: ch += *source++;
d88c1a5aSDimitry Andric        }
d88c1a5aSDimitry Andric        ch -= offsetsFromUTF8[extraBytesToRead];
d88c1a5aSDimitry Andric
d88c1a5aSDimitry Andric        if (target >= targetEnd) {
d88c1a5aSDimitry Andric            source -= (extraBytesToRead+1); /* Back up source pointer! */
d88c1a5aSDimitry Andric            result = targetExhausted; break;
d88c1a5aSDimitry Andric        }
d88c1a5aSDimitry Andric        if (ch <= UNI_MAX_BMP) { /* Target is a character <= 0xFFFF */
d88c1a5aSDimitry Andric            /* UTF-16 surrogate values are illegal in UTF-32 */
d88c1a5aSDimitry Andric            if (ch >= UNI_SUR_HIGH_START && ch <= UNI_SUR_LOW_END) {
d88c1a5aSDimitry Andric                if (flags == strictConversion) {
d88c1a5aSDimitry Andric                    source -= (extraBytesToRead+1); /* return to the illegal value itself */
d88c1a5aSDimitry Andric                    result = sourceIllegal;
d88c1a5aSDimitry Andric                    break;
d88c1a5aSDimitry Andric                } else {
d88c1a5aSDimitry Andric                    *target++ = UNI_REPLACEMENT_CHAR;
d88c1a5aSDimitry Andric                }
d88c1a5aSDimitry Andric            } else {
d88c1a5aSDimitry Andric                *target++ = (UTF16)ch; /* normal case */
d88c1a5aSDimitry Andric            }
d88c1a5aSDimitry Andric        } else if (ch > UNI_MAX_UTF16) {
d88c1a5aSDimitry Andric            if (flags == strictConversion) {
d88c1a5aSDimitry Andric                result = sourceIllegal;
d88c1a5aSDimitry Andric                source -= (extraBytesToRead+1); /* return to the start */
d88c1a5aSDimitry Andric                break; /* Bail out; shouldn't continue */
d88c1a5aSDimitry Andric            } else {
d88c1a5aSDimitry Andric                *target++ = UNI_REPLACEMENT_CHAR;
d88c1a5aSDimitry Andric            }
d88c1a5aSDimitry Andric        } else {
d88c1a5aSDimitry Andric            /* target is a character in range 0xFFFF - 0x10FFFF. */
d88c1a5aSDimitry Andric            if (target + 1 >= targetEnd) {
d88c1a5aSDimitry Andric                source -= (extraBytesToRead+1); /* Back up source pointer! */
d88c1a5aSDimitry Andric                result = targetExhausted; break;
d88c1a5aSDimitry Andric            }
d88c1a5aSDimitry Andric            ch -= halfBase;
d88c1a5aSDimitry Andric            *target++ = (UTF16)((ch >> halfShift) + UNI_SUR_HIGH_START);
d88c1a5aSDimitry Andric            *target++ = (UTF16)((ch & halfMask) + UNI_SUR_LOW_START);
d88c1a5aSDimitry Andric        }
d88c1a5aSDimitry Andric    }
d88c1a5aSDimitry Andric    *sourceStart = source;
d88c1a5aSDimitry Andric    *targetStart = target;
d88c1a5aSDimitry Andric    return result;
d88c1a5aSDimitry Andric}
d88c1a5aSDimitry Andric
d88c1a5aSDimitry Andric/* --------------------------------------------------------------------- */
d88c1a5aSDimitry Andric
d88c1a5aSDimitry Andricstatic ConversionResult ConvertUTF8toUTF32Impl(
d88c1a5aSDimitry Andric        const UTF8** sourceStart, const UTF8* sourceEnd,
d88c1a5aSDimitry Andric        UTF32** targetStart, UTF32* targetEnd, ConversionFlags flags,
d88c1a5aSDimitry Andric        Boolean InputIsPartial) {
d88c1a5aSDimitry Andric    ConversionResult result = conversionOK;
d88c1a5aSDimitry Andric    const UTF8* source = *sourceStart;
d88c1a5aSDimitry Andric    UTF32* target = *targetStart;
d88c1a5aSDimitry Andric    while (source < sourceEnd) {
d88c1a5aSDimitry Andric        UTF32 ch = 0;
d88c1a5aSDimitry Andric        unsigned short extraBytesToRead = trailingBytesForUTF8[*source];
d88c1a5aSDimitry Andric        if (extraBytesToRead >= sourceEnd - source) {
d88c1a5aSDimitry Andric            if (flags == strictConversion || InputIsPartial) {
d88c1a5aSDimitry Andric                result = sourceExhausted;
d88c1a5aSDimitry Andric                break;
d88c1a5aSDimitry Andric            } else {
d88c1a5aSDimitry Andric                result = sourceIllegal;
d88c1a5aSDimitry Andric
d88c1a5aSDimitry Andric                /*
d88c1a5aSDimitry Andric                 * Replace the maximal subpart of ill-formed sequence with
d88c1a5aSDimitry Andric                 * replacement character.
d88c1a5aSDimitry Andric                 */
d88c1a5aSDimitry Andric                source += findMaximalSubpartOfIllFormedUTF8Sequence(source,
d88c1a5aSDimitry Andric                                                                    sourceEnd);
d88c1a5aSDimitry Andric                *target++ = UNI_REPLACEMENT_CHAR;
d88c1a5aSDimitry Andric                continue;
d88c1a5aSDimitry Andric            }
d88c1a5aSDimitry Andric        }
d88c1a5aSDimitry Andric        if (target >= targetEnd) {
d88c1a5aSDimitry Andric            result = targetExhausted; break;
d88c1a5aSDimitry Andric        }
d88c1a5aSDimitry Andric
d88c1a5aSDimitry Andric        /* Do this check whether lenient or strict */
d88c1a5aSDimitry Andric        if (!isLegalUTF8(source, extraBytesToRead+1)) {
d88c1a5aSDimitry Andric            result = sourceIllegal;
d88c1a5aSDimitry Andric            if (flags == strictConversion) {
d88c1a5aSDimitry Andric                /* Abort conversion. */
d88c1a5aSDimitry Andric                break;
d88c1a5aSDimitry Andric            } else {
d88c1a5aSDimitry Andric                /*
d88c1a5aSDimitry Andric                 * Replace the maximal subpart of ill-formed sequence with
d88c1a5aSDimitry Andric                 * replacement character.
d88c1a5aSDimitry Andric                 */
d88c1a5aSDimitry Andric                source += findMaximalSubpartOfIllFormedUTF8Sequence(source,
d88c1a5aSDimitry Andric                                                                    sourceEnd);
d88c1a5aSDimitry Andric                *target++ = UNI_REPLACEMENT_CHAR;
d88c1a5aSDimitry Andric                continue;
d88c1a5aSDimitry Andric            }
d88c1a5aSDimitry Andric        }
d88c1a5aSDimitry Andric        /*
d88c1a5aSDimitry Andric         * The cases all fall through. See "Note A" below.
d88c1a5aSDimitry Andric         */
d88c1a5aSDimitry Andric        switch (extraBytesToRead) {
d88c1a5aSDimitry Andric            case 5: ch += *source++; ch <<= 6;
d88c1a5aSDimitry Andric            case 4: ch += *source++; ch <<= 6;
d88c1a5aSDimitry Andric            case 3: ch += *source++; ch <<= 6;
d88c1a5aSDimitry Andric            case 2: ch += *source++; ch <<= 6;
d88c1a5aSDimitry Andric            case 1: ch += *source++; ch <<= 6;
d88c1a5aSDimitry Andric            case 0: ch += *source++;
d88c1a5aSDimitry Andric        }
d88c1a5aSDimitry Andric        ch -= offsetsFromUTF8[extraBytesToRead];
d88c1a5aSDimitry Andric
d88c1a5aSDimitry Andric        if (ch <= UNI_MAX_LEGAL_UTF32) {
d88c1a5aSDimitry Andric            /*
d88c1a5aSDimitry Andric             * UTF-16 surrogate values are illegal in UTF-32, and anything
d88c1a5aSDimitry Andric             * over Plane 17 (> 0x10FFFF) is illegal.
d88c1a5aSDimitry Andric             */
d88c1a5aSDimitry Andric            if (ch >= UNI_SUR_HIGH_START && ch <= UNI_SUR_LOW_END) {
d88c1a5aSDimitry Andric                if (flags == strictConversion) {
d88c1a5aSDimitry Andric                    source -= (extraBytesToRead+1); /* return to the illegal value itself */
d88c1a5aSDimitry Andric                    result = sourceIllegal;
d88c1a5aSDimitry Andric                    break;
d88c1a5aSDimitry Andric                } else {
d88c1a5aSDimitry Andric                    *target++ = UNI_REPLACEMENT_CHAR;
d88c1a5aSDimitry Andric                }
d88c1a5aSDimitry Andric            } else {
d88c1a5aSDimitry Andric                *target++ = ch;
d88c1a5aSDimitry Andric            }
d88c1a5aSDimitry Andric        } else { /* i.e., ch > UNI_MAX_LEGAL_UTF32 */
d88c1a5aSDimitry Andric            result = sourceIllegal;
d88c1a5aSDimitry Andric            *target++ = UNI_REPLACEMENT_CHAR;
d88c1a5aSDimitry Andric        }
d88c1a5aSDimitry Andric    }
d88c1a5aSDimitry Andric    *sourceStart = source;
d88c1a5aSDimitry Andric    *targetStart = target;
d88c1a5aSDimitry Andric    return result;
d88c1a5aSDimitry Andric}
d88c1a5aSDimitry Andric
d88c1a5aSDimitry AndricConversionResult ConvertUTF8toUTF32Partial(const UTF8 **sourceStart,
d88c1a5aSDimitry Andric                                           const UTF8 *sourceEnd,
d88c1a5aSDimitry Andric                                           UTF32 **targetStart,
d88c1a5aSDimitry Andric                                           UTF32 *targetEnd,
d88c1a5aSDimitry Andric                                           ConversionFlags flags) {
d88c1a5aSDimitry Andric  return ConvertUTF8toUTF32Impl(sourceStart, sourceEnd, targetStart, targetEnd,
d88c1a5aSDimitry Andric                                flags, /*InputIsPartial=*/true);
d88c1a5aSDimitry Andric}
d88c1a5aSDimitry Andric
d88c1a5aSDimitry AndricConversionResult ConvertUTF8toUTF32(const UTF8 **sourceStart,
d88c1a5aSDimitry Andric                                    const UTF8 *sourceEnd, UTF32 **targetStart,
d88c1a5aSDimitry Andric                                    UTF32 *targetEnd, ConversionFlags flags) {
d88c1a5aSDimitry Andric  return ConvertUTF8toUTF32Impl(sourceStart, sourceEnd, targetStart, targetEnd,
d88c1a5aSDimitry Andric                                flags, /*InputIsPartial=*/false);
d88c1a5aSDimitry Andric}
d88c1a5aSDimitry Andric
d88c1a5aSDimitry Andric/* ---------------------------------------------------------------------
d88c1a5aSDimitry Andric
d88c1a5aSDimitry Andric    Note A.
d88c1a5aSDimitry Andric    The fall-through switches in UTF-8 reading code save a
d88c1a5aSDimitry Andric    temp variable, some decrements & conditionals.  The switches
d88c1a5aSDimitry Andric    are equivalent to the following loop:
d88c1a5aSDimitry Andric        {
d88c1a5aSDimitry Andric            int tmpBytesToRead = extraBytesToRead+1;
d88c1a5aSDimitry Andric            do {
d88c1a5aSDimitry Andric                ch += *source++;
d88c1a5aSDimitry Andric                --tmpBytesToRead;
d88c1a5aSDimitry Andric                if (tmpBytesToRead) ch <<= 6;
d88c1a5aSDimitry Andric            } while (tmpBytesToRead > 0);
d88c1a5aSDimitry Andric        }
d88c1a5aSDimitry Andric    In UTF-8 writing code, the switches on "bytesToWrite" are
d88c1a5aSDimitry Andric    similarly unrolled loops.
d88c1a5aSDimitry Andric
d88c1a5aSDimitry Andric   --------------------------------------------------------------------- */
d88c1a5aSDimitry Andric
d88c1a5aSDimitry Andric} // namespace llvm
302affcbSDimitry Andric
302affcbSDimitry AndricConvertUTF_RESTORE_WARNINGS