projects/ldc: tango/lib/compiler/llvmdc/util/utf.d annotate

annotate tango/lib/compiler/llvmdc/util/utf.d @ 132:1700239cab2e trunk

[svn r136] MAJOR UNSTABLE UPDATE!!! Initial commit after moving to Tango instead of Phobos. Lots of bugfixes... This build is not suitable for most things.

author	lindquist
date	Fri, 11 Jan 2008 17:57:40 +0100
parents
children

rev	line source
132 1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	1 // utf.d
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	2
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	3 /*
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	4 * Copyright (C) 2003-2004 by Digital Mars, www.digitalmars.com
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	5 * Written by Walter Bright
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	6 *
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	7 * This software is provided 'as-is', without any express or implied
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	8 * warranty. In no event will the authors be held liable for any damages
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	9 * arising from the use of this software.
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	10 *
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	11 * Permission is granted to anyone to use this software for any purpose,
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	12 * including commercial applications, and to alter it and redistribute it
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	13 * freely, subject to the following restrictions:
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	14 *
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	15 * o The origin of this software must not be misrepresented; you must not
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	16 * claim that you wrote the original software. If you use this software
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	17 * in a product, an acknowledgment in the product documentation would be
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	18 * appreciated but is not required.
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	19 * o Altered source versions must be plainly marked as such, and must not
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	20 * be misrepresented as being the original software.
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	21 * o This notice may not be removed or altered from any source
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	22 * distribution.
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	23 */
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	24
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	25 // Description of UTF-8 at:
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	26 // http://www.cl.cam.ac.uk/~mgk25/unicode.html#utf-8
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	27 // http://anubis.dkuug.dk/JTC1/SC2/WG2/docs/n1335
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	28
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	29
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	30 module util.utf;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	31
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	32
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	33 extern (C) void onUnicodeError( char[] msg, size_t idx );
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	34
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	35
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	36 bool isValidDchar(dchar c)
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	37 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	38 /* Note: FFFE and FFFF are specifically permitted by the
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	39 * Unicode standard for application internal use, but are not
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	40 * allowed for interchange.
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	41 * (thanks to Arcane Jill)
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	42 */
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	43
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	44 return c < 0xD800 \|\|
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	45 (c > 0xDFFF && c <= 0x10FFFF /&& c != 0xFFFE && c != 0xFFFF/);
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	46 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	47
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	48 unittest
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	49 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	50 debug(utf) printf("utf.isValidDchar.unittest\n");
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	51 assert(isValidDchar(cast(dchar)'a') == true);
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	52 assert(isValidDchar(cast(dchar)0x1FFFFF) == false);
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	53 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	54
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	55
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	56 /* This array gives the length of a UTF-8 sequence indexed by the value
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	57 * of the leading byte. An FF represents an illegal starting value of
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	58 * a UTF-8 sequence.
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	59 * FF is used instead of 0 to avoid having loops hang.
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	60 */
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	61
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	62 ubyte[256] UTF8stride =
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	63 [
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	64 1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	65 1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	66 1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	67 1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	68 1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	69 1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	70 1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	71 1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	72 0xFF,0xFF,0xFF,0xFF,0xFF,0xFF,0xFF,0xFF,0xFF,0xFF,0xFF,0xFF,0xFF,0xFF,0xFF,0xFF,
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	73 0xFF,0xFF,0xFF,0xFF,0xFF,0xFF,0xFF,0xFF,0xFF,0xFF,0xFF,0xFF,0xFF,0xFF,0xFF,0xFF,
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	74 0xFF,0xFF,0xFF,0xFF,0xFF,0xFF,0xFF,0xFF,0xFF,0xFF,0xFF,0xFF,0xFF,0xFF,0xFF,0xFF,
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	75 0xFF,0xFF,0xFF,0xFF,0xFF,0xFF,0xFF,0xFF,0xFF,0xFF,0xFF,0xFF,0xFF,0xFF,0xFF,0xFF,
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	76 2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	77 2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	78 3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	79 4,4,4,4,4,4,4,4,5,5,5,5,6,6,0xFF,0xFF,
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	80 ];
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	81
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	82 uint stride(char[] s, size_t i)
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	83 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	84 return UTF8stride[s[i]];
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	85 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	86
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	87 uint stride(wchar[] s, size_t i)
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	88 { uint u = s[i];
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	89 return 1 + (u >= 0xD800 && u <= 0xDBFF);
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	90 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	91
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	92 uint stride(dchar[] s, size_t i)
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	93 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	94 return 1;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	95 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	96
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	97 /*******************************************
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	98 * Given an index into an array of char's,
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	99 * and assuming that index is at the start of a UTF character,
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	100 * determine the number of UCS characters up to that index.
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	101 */
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	102
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	103 size_t toUCSindex(char[] s, size_t i)
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	104 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	105 size_t n;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	106 size_t j;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	107 size_t stride;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	108
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	109 for (j = 0; j < i; j += stride)
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	110 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	111 stride = UTF8stride[s[j]];
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	112 if (stride == 0xFF)
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	113 goto Lerr;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	114 n++;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	115 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	116 if (j > i)
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	117 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	118 Lerr:
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	119 onUnicodeError("invalid UTF-8 sequence", j);
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	120 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	121 return n;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	122 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	123
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	124 size_t toUCSindex(wchar[] s, size_t i)
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	125 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	126 size_t n;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	127 size_t j;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	128
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	129 for (j = 0; j < i; )
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	130 { uint u = s[j];
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	131
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	132 j += 1 + (u >= 0xD800 && u <= 0xDBFF);
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	133 n++;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	134 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	135 if (j > i)
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	136 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	137 Lerr:
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	138 onUnicodeError("invalid UTF-16 sequence", j);
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	139 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	140 return n;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	141 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	142
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	143 size_t toUCSindex(dchar[] s, size_t i)
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	144 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	145 return i;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	146 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	147
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	148 /******************************************
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	149 * Given a UCS index into an array of characters, return the UTF index.
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	150 */
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	151
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	152 size_t toUTFindex(char[] s, size_t n)
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	153 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	154 size_t i;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	155
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	156 while (n--)
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	157 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	158 uint j = UTF8stride[s[i]];
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	159 if (j == 0xFF)
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	160 onUnicodeError("invalid UTF-8 sequence", i);
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	161 i += j;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	162 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	163 return i;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	164 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	165
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	166 size_t toUTFindex(wchar[] s, size_t n)
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	167 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	168 size_t i;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	169
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	170 while (n--)
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	171 { wchar u = s[i];
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	172
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	173 i += 1 + (u >= 0xD800 && u <= 0xDBFF);
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	174 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	175 return i;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	176 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	177
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	178 size_t toUTFindex(dchar[] s, size_t n)
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	179 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	180 return n;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	181 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	182
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	183 /* =================== Decode ======================= */
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	184
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	185 dchar decode(char[] s, inout size_t idx)
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	186 in
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	187 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	188 assert(idx >= 0 && idx < s.length);
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	189 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	190 out (result)
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	191 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	192 assert(isValidDchar(result));
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	193 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	194 body
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	195 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	196 size_t len = s.length;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	197 dchar V;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	198 size_t i = idx;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	199 char u = s[i];
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	200
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	201 if (u & 0x80)
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	202 { uint n;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	203 char u2;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	204
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	205 /* The following encodings are valid, except for the 5 and 6 byte
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	206 * combinations:
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	207 * 0xxxxxxx
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	208 * 110xxxxx 10xxxxxx
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	209 * 1110xxxx 10xxxxxx 10xxxxxx
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	210 * 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	211 * 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	212 * 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	213 */
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	214 for (n = 1; ; n++)
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	215 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	216 if (n > 4)
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	217 goto Lerr; // only do the first 4 of 6 encodings
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	218 if (((u << n) & 0x80) == 0)
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	219 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	220 if (n == 1)
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	221 goto Lerr;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	222 break;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	223 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	224 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	225
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	226 // Pick off (7 - n) significant bits of B from first byte of octet
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	227 V = cast(dchar)(u & ((1 << (7 - n)) - 1));
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	228
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	229 if (i + (n - 1) >= len)
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	230 goto Lerr; // off end of string
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	231
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	232 /* The following combinations are overlong, and illegal:
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	233 * 1100000x (10xxxxxx)
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	234 * 11100000 100xxxxx (10xxxxxx)
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	235 * 11110000 1000xxxx (10xxxxxx 10xxxxxx)
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	236 * 11111000 10000xxx (10xxxxxx 10xxxxxx 10xxxxxx)
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	237 * 11111100 100000xx (10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx)
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	238 */
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	239 u2 = s[i + 1];
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	240 if ((u & 0xFE) == 0xC0 \|\|
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	241 (u == 0xE0 && (u2 & 0xE0) == 0x80) \|\|
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	242 (u == 0xF0 && (u2 & 0xF0) == 0x80) \|\|
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	243 (u == 0xF8 && (u2 & 0xF8) == 0x80) \|\|
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	244 (u == 0xFC && (u2 & 0xFC) == 0x80))
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	245 goto Lerr; // overlong combination
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	246
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	247 for (uint j = 1; j != n; j++)
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	248 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	249 u = s[i + j];
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	250 if ((u & 0xC0) != 0x80)
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	251 goto Lerr; // trailing bytes are 10xxxxxx
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	252 V = (V << 6) \| (u & 0x3F);
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	253 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	254 if (!isValidDchar(V))
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	255 goto Lerr;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	256 i += n;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	257 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	258 else
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	259 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	260 V = cast(dchar) u;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	261 i++;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	262 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	263
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	264 idx = i;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	265 return V;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	266
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	267 Lerr:
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	268 onUnicodeError("invalid UTF-8 sequence", i);
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	269 return V; // dummy return
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	270 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	271
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	272 unittest
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	273 { size_t i;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	274 dchar c;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	275
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	276 debug(utf) printf("utf.decode.unittest\n");
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	277
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	278 static char[] s1 = "abcd";
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	279 i = 0;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	280 c = decode(s1, i);
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	281 assert(c == cast(dchar)'a');
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	282 assert(i == 1);
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	283 c = decode(s1, i);
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	284 assert(c == cast(dchar)'b');
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	285 assert(i == 2);
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	286
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	287 static char[] s2 = "\xC2\xA9";
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	288 i = 0;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	289 c = decode(s2, i);
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	290 assert(c == cast(dchar)'\u00A9');
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	291 assert(i == 2);
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	292
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	293 static char[] s3 = "\xE2\x89\xA0";
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	294 i = 0;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	295 c = decode(s3, i);
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	296 assert(c == cast(dchar)'\u2260');
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	297 assert(i == 3);
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	298
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	299 static char[][] s4 =
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	300 [ "\xE2\x89", // too short
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	301 "\xC0\x8A",
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	302 "\xE0\x80\x8A",
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	303 "\xF0\x80\x80\x8A",
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	304 "\xF8\x80\x80\x80\x8A",
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	305 "\xFC\x80\x80\x80\x80\x8A",
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	306 ];
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	307
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	308 for (int j = 0; j < s4.length; j++)
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	309 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	310 try
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	311 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	312 i = 0;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	313 c = decode(s4[j], i);
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	314 assert(0);
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	315 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	316 catch (Object o)
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	317 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	318 i = 23;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	319 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	320 assert(i == 23);
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	321 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	322 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	323
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	324 /********************************************************/
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	325
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	326 dchar decode(wchar[] s, inout size_t idx)
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	327 in
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	328 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	329 assert(idx >= 0 && idx < s.length);
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	330 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	331 out (result)
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	332 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	333 assert(isValidDchar(result));
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	334 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	335 body
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	336 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	337 char[] msg;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	338 dchar V;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	339 size_t i = idx;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	340 uint u = s[i];
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	341
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	342 if (u & ~0x7F)
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	343 { if (u >= 0xD800 && u <= 0xDBFF)
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	344 { uint u2;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	345
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	346 if (i + 1 == s.length)
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	347 { msg = "surrogate UTF-16 high value past end of string";
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	348 goto Lerr;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	349 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	350 u2 = s[i + 1];
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	351 if (u2 < 0xDC00 \|\| u2 > 0xDFFF)
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	352 { msg = "surrogate UTF-16 low value out of range";
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	353 goto Lerr;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	354 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	355 u = ((u - 0xD7C0) << 10) + (u2 - 0xDC00);
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	356 i += 2;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	357 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	358 else if (u >= 0xDC00 && u <= 0xDFFF)
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	359 { msg = "unpaired surrogate UTF-16 value";
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	360 goto Lerr;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	361 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	362 else if (u == 0xFFFE \|\| u == 0xFFFF)
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	363 { msg = "illegal UTF-16 value";
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	364 goto Lerr;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	365 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	366 else
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	367 i++;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	368 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	369 else
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	370 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	371 i++;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	372 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	373
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	374 idx = i;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	375 return cast(dchar)u;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	376
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	377 Lerr:
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	378 onUnicodeError(msg, i);
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	379 return cast(dchar)u; // dummy return
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	380 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	381
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	382 /********************************************************/
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	383
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	384 dchar decode(dchar[] s, inout size_t idx)
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	385 in
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	386 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	387 assert(idx >= 0 && idx < s.length);
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	388 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	389 body
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	390 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	391 size_t i = idx;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	392 dchar c = s[i];
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	393
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	394 if (!isValidDchar(c))
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	395 goto Lerr;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	396 idx = i + 1;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	397 return c;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	398
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	399 Lerr:
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	400 onUnicodeError("invalid UTF-32 value", i);
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	401 return c; // dummy return
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	402 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	403
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	404
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	405 /* =================== Encode ======================= */
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	406
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	407 void encode(inout char[] s, dchar c)
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	408 in
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	409 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	410 assert(isValidDchar(c));
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	411 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	412 body
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	413 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	414 char[] r = s;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	415
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	416 if (c <= 0x7F)
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	417 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	418 r ~= cast(char) c;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	419 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	420 else
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	421 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	422 char[4] buf;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	423 uint L;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	424
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	425 if (c <= 0x7FF)
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	426 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	427 buf[0] = cast(char)(0xC0 \| (c >> 6));
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	428 buf[1] = cast(char)(0x80 \| (c & 0x3F));
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	429 L = 2;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	430 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	431 else if (c <= 0xFFFF)
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	432 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	433 buf[0] = cast(char)(0xE0 \| (c >> 12));
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	434 buf[1] = cast(char)(0x80 \| ((c >> 6) & 0x3F));
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	435 buf[2] = cast(char)(0x80 \| (c & 0x3F));
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	436 L = 3;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	437 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	438 else if (c <= 0x10FFFF)
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	439 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	440 buf[0] = cast(char)(0xF0 \| (c >> 18));
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	441 buf[1] = cast(char)(0x80 \| ((c >> 12) & 0x3F));
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	442 buf[2] = cast(char)(0x80 \| ((c >> 6) & 0x3F));
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	443 buf[3] = cast(char)(0x80 \| (c & 0x3F));
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	444 L = 4;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	445 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	446 else
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	447 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	448 assert(0);
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	449 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	450 r ~= buf[0 .. L];
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	451 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	452 s = r;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	453 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	454
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	455 unittest
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	456 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	457 debug(utf) printf("utf.encode.unittest\n");
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	458
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	459 char[] s = "abcd";
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	460 encode(s, cast(dchar)'a');
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	461 assert(s.length == 5);
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	462 assert(s == "abcda");
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	463
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	464 encode(s, cast(dchar)'\u00A9');
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	465 assert(s.length == 7);
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	466 assert(s == "abcda\xC2\xA9");
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	467 //assert(s == "abcda\u00A9"); // BUG: fix compiler
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	468
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	469 encode(s, cast(dchar)'\u2260');
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	470 assert(s.length == 10);
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	471 assert(s == "abcda\xC2\xA9\xE2\x89\xA0");
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	472 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	473
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	474 /********************************************************/
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	475
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	476 void encode(inout wchar[] s, dchar c)
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	477 in
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	478 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	479 assert(isValidDchar(c));
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	480 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	481 body
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	482 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	483 wchar[] r = s;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	484
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	485 if (c <= 0xFFFF)
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	486 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	487 r ~= cast(wchar) c;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	488 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	489 else
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	490 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	491 wchar[2] buf;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	492
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	493 buf[0] = cast(wchar) ((((c - 0x10000) >> 10) & 0x3FF) + 0xD800);
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	494 buf[1] = cast(wchar) (((c - 0x10000) & 0x3FF) + 0xDC00);
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	495 r ~= buf;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	496 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	497 s = r;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	498 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	499
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	500 void encode(inout dchar[] s, dchar c)
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	501 in
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	502 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	503 assert(isValidDchar(c));
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	504 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	505 body
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	506 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	507 s ~= c;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	508 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	509
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	510 /* =================== Validation ======================= */
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	511
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	512 void validate(char[] s)
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	513 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	514 size_t len = s.length;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	515 size_t i;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	516
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	517 for (i = 0; i < len; )
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	518 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	519 decode(s, i);
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	520 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	521 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	522
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	523 void validate(wchar[] s)
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	524 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	525 size_t len = s.length;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	526 size_t i;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	527
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	528 for (i = 0; i < len; )
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	529 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	530 decode(s, i);
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	531 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	532 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	533
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	534 void validate(dchar[] s)
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	535 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	536 size_t len = s.length;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	537 size_t i;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	538
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	539 for (i = 0; i < len; )
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	540 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	541 decode(s, i);
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	542 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	543 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	544
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	545 /* =================== Conversion to UTF8 ======================= */
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	546
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	547 char[] toUTF8(char[4] buf, dchar c)
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	548 in
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	549 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	550 assert(isValidDchar(c));
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	551 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	552 body
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	553 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	554 if (c <= 0x7F)
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	555 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	556 buf[0] = cast(char) c;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	557 return buf[0 .. 1];
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	558 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	559 else if (c <= 0x7FF)
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	560 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	561 buf[0] = cast(char)(0xC0 \| (c >> 6));
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	562 buf[1] = cast(char)(0x80 \| (c & 0x3F));
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	563 return buf[0 .. 2];
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	564 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	565 else if (c <= 0xFFFF)
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	566 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	567 buf[0] = cast(char)(0xE0 \| (c >> 12));
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	568 buf[1] = cast(char)(0x80 \| ((c >> 6) & 0x3F));
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	569 buf[2] = cast(char)(0x80 \| (c & 0x3F));
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	570 return buf[0 .. 3];
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	571 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	572 else if (c <= 0x10FFFF)
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	573 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	574 buf[0] = cast(char)(0xF0 \| (c >> 18));
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	575 buf[1] = cast(char)(0x80 \| ((c >> 12) & 0x3F));
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	576 buf[2] = cast(char)(0x80 \| ((c >> 6) & 0x3F));
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	577 buf[3] = cast(char)(0x80 \| (c & 0x3F));
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	578 return buf[0 .. 4];
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	579 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	580 assert(0);
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	581 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	582
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	583 char[] toUTF8(char[] s)
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	584 in
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	585 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	586 validate(s);
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	587 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	588 body
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	589 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	590 return s;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	591 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	592
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	593 char[] toUTF8(wchar[] s)
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	594 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	595 char[] r;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	596 size_t i;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	597 size_t slen = s.length;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	598
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	599 r.length = slen;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	600
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	601 for (i = 0; i < slen; i++)
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	602 { wchar c = s[i];
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	603
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	604 if (c <= 0x7F)
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	605 r[i] = cast(char)c; // fast path for ascii
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	606 else
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	607 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	608 r.length = i;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	609 foreach (dchar c; s[i .. slen])
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	610 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	611 encode(r, c);
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	612 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	613 break;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	614 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	615 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	616 return r;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	617 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	618
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	619 char[] toUTF8(dchar[] s)
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	620 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	621 char[] r;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	622 size_t i;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	623 size_t slen = s.length;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	624
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	625 r.length = slen;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	626
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	627 for (i = 0; i < slen; i++)
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	628 { dchar c = s[i];
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	629
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	630 if (c <= 0x7F)
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	631 r[i] = cast(char)c; // fast path for ascii
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	632 else
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	633 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	634 r.length = i;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	635 foreach (dchar d; s[i .. slen])
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	636 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	637 encode(r, d);
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	638 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	639 break;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	640 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	641 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	642 return r;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	643 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	644
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	645 /* =================== Conversion to UTF16 ======================= */
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	646
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	647 wchar[] toUTF16(wchar[2] buf, dchar c)
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	648 in
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	649 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	650 assert(isValidDchar(c));
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	651 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	652 body
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	653 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	654 if (c <= 0xFFFF)
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	655 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	656 buf[0] = cast(wchar) c;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	657 return buf[0 .. 1];
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	658 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	659 else
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	660 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	661 buf[0] = cast(wchar) ((((c - 0x10000) >> 10) & 0x3FF) + 0xD800);
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	662 buf[1] = cast(wchar) (((c - 0x10000) & 0x3FF) + 0xDC00);
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	663 return buf[0 .. 2];
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	664 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	665 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	666
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	667 wchar[] toUTF16(char[] s)
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	668 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	669 wchar[] r;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	670 size_t slen = s.length;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	671
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	672 r.length = slen;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	673 r.length = 0;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	674 for (size_t i = 0; i < slen; )
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	675 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	676 dchar c = s[i];
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	677 if (c <= 0x7F)
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	678 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	679 i++;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	680 r ~= cast(wchar)c;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	681 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	682 else
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	683 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	684 c = decode(s, i);
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	685 encode(r, c);
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	686 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	687 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	688 return r;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	689 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	690
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	691 wchar* toUTF16z(char[] s)
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	692 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	693 wchar[] r;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	694 size_t slen = s.length;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	695
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	696 r.length = slen + 1;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	697 r.length = 0;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	698 for (size_t i = 0; i < slen; )
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	699 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	700 dchar c = s[i];
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	701 if (c <= 0x7F)
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	702 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	703 i++;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	704 r ~= cast(wchar)c;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	705 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	706 else
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	707 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	708 c = decode(s, i);
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	709 encode(r, c);
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	710 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	711 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	712 r ~= "\000";
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	713 return r.ptr;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	714 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	715
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	716 wchar[] toUTF16(wchar[] s)
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	717 in
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	718 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	719 validate(s);
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	720 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	721 body
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	722 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	723 return s;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	724 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	725
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	726 wchar[] toUTF16(dchar[] s)
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	727 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	728 wchar[] r;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	729 size_t slen = s.length;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	730
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	731 r.length = slen;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	732 r.length = 0;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	733 for (size_t i = 0; i < slen; i++)
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	734 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	735 encode(r, s[i]);
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	736 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	737 return r;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	738 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	739
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	740 /* =================== Conversion to UTF32 ======================= */
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	741
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	742 dchar[] toUTF32(char[] s)
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	743 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	744 dchar[] r;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	745 size_t slen = s.length;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	746 size_t j = 0;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	747
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	748 r.length = slen; // r[] will never be longer than s[]
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	749 for (size_t i = 0; i < slen; )
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	750 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	751 dchar c = s[i];
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	752 if (c >= 0x80)
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	753 c = decode(s, i);
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	754 else
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	755 i++; // c is ascii, no need for decode
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	756 r[j++] = c;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	757 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	758 return r[0 .. j];
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	759 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	760
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	761 dchar[] toUTF32(wchar[] s)
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	762 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	763 dchar[] r;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	764 size_t slen = s.length;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	765 size_t j = 0;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	766
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	767 r.length = slen; // r[] will never be longer than s[]
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	768 for (size_t i = 0; i < slen; )
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	769 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	770 dchar c = s[i];
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	771 if (c >= 0x80)
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	772 c = decode(s, i);
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	773 else
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	774 i++; // c is ascii, no need for decode
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	775 r[j++] = c;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	776 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	777 return r[0 .. j];
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	778 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	779
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	780 dchar[] toUTF32(dchar[] s)
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	781 in
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	782 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	783 validate(s);
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	784 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	785 body
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	786 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	787 return s;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	788 }
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	789
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	790 /* ================================ tests ================================== */
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	791
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	792 unittest
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	793 {
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	794 debug(utf) printf("utf.toUTF.unittest\n");
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	795
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	796 char[] c;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	797 wchar[] w;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	798 dchar[] d;
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	799
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	800 c = "hello";
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	801 w = toUTF16(c);
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	802 assert(w == "hello");
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	803 d = toUTF32(c);
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	804 assert(d == "hello");
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	805
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	806 c = toUTF8(w);
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	807 assert(c == "hello");
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	808 d = toUTF32(w);
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	809 assert(d == "hello");
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	810
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	811 c = toUTF8(d);
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	812 assert(c == "hello");
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	813 w = toUTF16(d);
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	814 assert(w == "hello");
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	815
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	816
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	817 c = "hel\u1234o";
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	818 w = toUTF16(c);
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	819 assert(w == "hel\u1234o");
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	820 d = toUTF32(c);
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	821 assert(d == "hel\u1234o");
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	822
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	823 c = toUTF8(w);
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	824 assert(c == "hel\u1234o");
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	825 d = toUTF32(w);
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	826 assert(d == "hel\u1234o");
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	827
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	828 c = toUTF8(d);
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	829 assert(c == "hel\u1234o");
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	830 w = toUTF16(d);
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	831 assert(w == "hel\u1234o");
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	832
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	833
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	834 c = "he\U0010AAAAllo";
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	835 w = toUTF16(c);
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	836 //foreach (wchar c; w) printf("c = x%x\n", c);
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	837 //foreach (wchar c; cast(wchar[])"he\U0010AAAAllo") printf("c = x%x\n", c);
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	838 assert(w == "he\U0010AAAAllo");
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	839 d = toUTF32(c);
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	840 assert(d == "he\U0010AAAAllo");
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	841
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	842 c = toUTF8(w);
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	843 assert(c == "he\U0010AAAAllo");
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	844 d = toUTF32(w);
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	845 assert(d == "he\U0010AAAAllo");
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	846
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	847 c = toUTF8(d);
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	848 assert(c == "he\U0010AAAAllo");
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	849 w = toUTF16(d);
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	850 assert(w == "he\U0010AAAAllo");
1700239cab2e [svn r136] MAJOR UNSTABLE UPDATE!!! lindquist parents: diff changeset	851 }

Mercurial > projects > ldc

annotate tango/lib/compiler/llvmdc/util/utf.d @ 132:1700239cab2e trunk