projects/dwt-addons: dwtx/dwtxhelper/mangoicu/UNormalize.d annotate

annotate dwtx/dwtxhelper/mangoicu/UNormalize.d @ 200:eb3414669eb0 default tip

fix for dmd 1.041 and tango 0.99.8

author	Frank Benoit <benoit@tionex.de>
date	Sat, 28 Mar 2009 03:09:57 +0100
parents	f05207c07a98
children

rev	line source
92 f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	1 /*******************************************************************************
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	2
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	3 @file UNormalize.d
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	4
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	5 Copyright (c) 2004 Kris Bell
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	6
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	7 This software is provided 'as-is', without any express or implied
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	8 warranty. In no event will the authors be held liable for damages
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	9 of any kind arising from the use of this software.
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	10
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	11 Permission is hereby granted to anyone to use this software for any
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	12 purpose, including commercial applications, and to alter it and/or
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	13 redistribute it freely, subject to the following restrictions:
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	14
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	15 1. The origin of this software must not be misrepresented; you must
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	16 not claim that you wrote the original software. If you use this
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	17 software in a product, an acknowledgment within documentation of
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	18 said product would be appreciated but is not required.
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	19
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	20 2. Altered source versions must be plainly marked as such, and must
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	21 not be misrepresented as being the original software.
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	22
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	23 3. This notice may not be removed or altered from any distribution
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	24 of the source.
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	25
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	26 4. Derivative works are permitted, but they must carry this notice
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	27 in full and credit the original source.
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	28
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	29
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	30 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	31
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	32
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	33 @version Initial version, October 2004
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	34 @author Kris
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	35
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	36 Note that this package and documentation is built around the ICU
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	37 project (http://oss.software.ibm.com/icu/). Below is the license
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	38 statement as specified by that software:
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	39
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	40
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	41 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	42
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	43
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	44 ICU License - ICU 1.8.1 and later
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	45
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	46 COPYRIGHT AND PERMISSION NOTICE
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	47
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	48 Copyright (c) 1995-2003 International Business Machines Corporation and
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	49 others.
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	50
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	51 All rights reserved.
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	52
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	53 Permission is hereby granted, free of charge, to any person obtaining a
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	54 copy of this software and associated documentation files (the
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	55 "Software"), to deal in the Software without restriction, including
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	56 without limitation the rights to use, copy, modify, merge, publish,
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	57 distribute, and/or sell copies of the Software, and to permit persons
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	58 to whom the Software is furnished to do so, provided that the above
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	59 copyright notice(s) and this permission notice appear in all copies of
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	60 the Software and that both the above copyright notice(s) and this
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	61 permission notice appear in supporting documentation.
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	62
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	63 THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	64 OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	65 MERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	66 OF THIRD PARTY RIGHTS. IN NO EVENT SHALL THE COPYRIGHT HOLDER OR
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	67 HOLDERS INCLUDED IN THIS NOTICE BE LIABLE FOR ANY CLAIM, OR ANY SPECIAL
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	68 INDIRECT OR CONSEQUENTIAL DAMAGES, OR ANY DAMAGES WHATSOEVER RESULTING
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	69 FROM LOSS OF USE, DATA OR PROFITS, WHETHER IN AN ACTION OF CONTRACT,
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	70 NEGLIGENCE OR OTHER TORTIOUS ACTION, ARISING OUT OF OR IN CONNECTION
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	71 WITH THE USE OR PERFORMANCE OF THIS SOFTWARE.
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	72
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	73 Except as contained in this notice, the name of a copyright holder
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	74 shall not be used in advertising or otherwise to promote the sale, use
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	75 or other dealings in this Software without prior written authorization
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	76 of the copyright holder.
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	77
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	78 ----------------------------------------------------------------------
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	79
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	80 All trademarks and registered trademarks mentioned herein are the
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	81 property of their respective owners.
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	82
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	83 *******************************************************************************/
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	84
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	85 module dwtx.dwtxhelper.mangoicu.UNormalize;
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	86
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	87 private import dwtx.dwtxhelper.mangoicu.ICU,
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	88 dwtx.dwtxhelper.mangoicu.UString,
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	89 dwtx.dwtxhelper.mangoicu.ULocale;
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	90
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	91 /*******************************************************************************
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	92
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	93 transforms Unicode text into an equivalent composed or
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	94 decomposed form, allowing for easier sorting and searching
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	95 of text. UNormalize supports the standard normalization forms
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	96 described in http://www.unicode.org/unicode/reports/tr15/
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	97
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	98 Characters with accents or other adornments can be encoded
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	99 in several different ways in Unicode. For example, take the
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	100 character A-acute. In Unicode, this can be encoded as a single
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	101 character (the "composed" form):
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	102
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	103 00C1 LATIN CAPITAL LETTER A WITH ACUTE
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	104
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	105 or as two separate characters (the "decomposed" form):
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	106
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	107 0041 LATIN CAPITAL LETTER A 0301 COMBINING ACUTE ACCENT
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	108
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	109 To a user of your program, however, both of these sequences
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	110 should be treated as the same "user-level" character "A with
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	111 acute accent". When you are searching or comparing text, you
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	112 must ensure that these two sequences are treated equivalently.
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	113 In addition, you must handle characters with more than one
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	114 accent. Sometimes the order of a character's combining accents
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	115 is significant, while in other cases accent sequences in different
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	116 orders are really equivalent.
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	117
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	118 Similarly, the string "ffi" can be encoded as three separate
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	119 letters:
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	120
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	121 0066 LATIN SMALL LETTER F 0066 LATIN SMALL LETTER F
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	122 0069 LATIN SMALL LETTER I
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	123
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	124 or as the single character
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	125
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	126 FB03 LATIN SMALL LIGATURE FFI
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	127
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	128 The ffi ligature is not a distinct semantic character, and strictly
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	129 speaking it shouldn't be in Unicode at all, but it was included for
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	130 compatibility with existing character sets that already provided it.
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	131 The Unicode standard identifies such characters by giving them
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	132 "compatibility" decompositions into the corresponding semantic
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	133 characters. When sorting and searching, you will often want to use
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	134 these mappings.
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	135
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	136 unorm_normalize helps solve these problems by transforming text into
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	137 the canonical composed and decomposed forms as shown in the first
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	138 example above. In addition, you can have it perform compatibility
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	139 decompositions so that you can treat compatibility characters the
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	140 same as their equivalents. Finally, UNormalize rearranges
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	141 accents into the proper canonical order, so that you do not have
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	142 to worry about accent rearrangement on your own.
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	143
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	144 Form FCD, "Fast C or D", is also designed for collation. It allows
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	145 to work on strings that are not necessarily normalized with an
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	146 algorithm (like in collation) that works under "canonical closure",
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	147 i.e., it treats precomposed characters and their decomposed
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	148 equivalents the same.
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	149
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	150 It is not a normalization form because it does not provide for
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	151 uniqueness of representation. Multiple strings may be canonically
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	152 equivalent (their NFDs are identical) and may all conform to FCD
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	153 without being identical themselves.
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	154
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	155 The form is defined such that the "raw decomposition", the
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	156 recursive canonical decomposition of each character, results
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	157 in a string that is canonically ordered. This means that
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	158 precomposed characters are allowed for as long as their
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	159 decompositions do not need canonical reordering.
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	160
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	161 Its advantage for a process like collation is that all NFD
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	162 and most NFC texts - and many unnormalized texts - already
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	163 conform to FCD and do not need to be normalized (NFD) for
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	164 such a process. The FCD quick check will return UNORM_YES
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	165 for most strings in practice.
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	166
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	167 For more details on FCD see the collation design document:
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	168 http://oss.software.ibm.com/cvs/icu/~checkout~/icuhtml/design/collation/ICU_collation_design.htm
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	169
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	170 ICU collation performs either NFD or FCD normalization
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	171 automatically if normalization is turned on for the collator
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	172 object. Beyond collation and string search, normalized strings
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	173 may be useful for string equivalence comparisons, transliteration/
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	174 transcription, unique representations, etc.
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	175
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	176 The W3C generally recommends to exchange texts in NFC. Note also
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	177 that most legacy character encodings use only precomposed forms
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	178 and often do not encode any combining marks by themselves. For
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	179 conversion to such character encodings the Unicode text needs to
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	180 be normalized to NFC. For more usage examples, see the Unicode
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	181 Standard Annex.
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	182
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	183 See <A HREF="http://oss.software.ibm.com/icu/apiref/unorm_8h.html">
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	184 this page</A> for full details.
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	185
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	186
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	187 *******************************************************************************/
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	188
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	189 class UNormalize : ICU
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	190 {
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	191 enum Mode
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	192 {
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	193 None = 1,
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	194 NFD = 2,
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	195 NFKD = 3,
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	196 NFC = 4,
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	197 Default = NFC,
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	198 NFKC = 5,
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	199 FCD = 6,
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	200 Count
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	201 }
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	202
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	203 enum Check
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	204 {
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	205 No,
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	206 Yes,
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	207 Maybe
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	208 }
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	209
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	210 enum Options
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	211 {
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	212 None = 0x00,
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	213 Unicode32 = 0x20
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	214 }
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	215
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	216 /***********************************************************************
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	217
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	218 Normalize a string. The string will be normalized according
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	219 the specified normalization mode and options
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	220
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	221 ***********************************************************************/
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	222
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	223 static void normalize (UStringView src, UString dst, Mode mode, Options o = Options.None)
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	224 {
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	225 uint fmt (wchar* dst, uint len, inout UErrorCode e)
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	226 {
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	227 return unorm_normalize (src.get.ptr, src.len, mode, o, dst, len, e);
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	228 }
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	229
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	230 dst.format (&fmt, "failed to normalize");
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	231 }
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	232
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	233 /***********************************************************************
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	234
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	235 Performing quick check on a string, to quickly determine
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	236 if the string is in a particular normalization format.
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	237
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	238 Three types of result can be returned: Yes, No or Maybe.
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	239 Result Yes indicates that the argument string is in the
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	240 desired normalized format, No determines that argument
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	241 string is not in the desired normalized format. A Maybe
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	242 result indicates that a more thorough check is required,
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	243 the user may have to put the string in its normalized
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	244 form and compare the results.
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	245
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	246 ***********************************************************************/
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	247
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	248 static Check check (UStringView t, Mode mode, Options o = Options.None)
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	249 {
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	250 UErrorCode e;
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	251
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	252 Check c = cast(Check) unorm_quickCheckWithOptions (t.get.ptr, t.len, mode, o, e);
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	253 testError (e, "failed to perform normalization check");
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	254 return c;
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	255 }
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	256
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	257 /***********************************************************************
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	258
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	259 Test if a string is in a given normalization form.
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	260
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	261 Unlike check(), this function returns a definitive result,
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	262 never a "maybe". For NFD, NFKD, and FCD, both functions
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	263 work exactly the same. For NFC and NFKC where quickCheck
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	264 may return "maybe", this function will perform further
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	265 tests to arrive at a TRUE/FALSE result.
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	266
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	267 ***********************************************************************/
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	268
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	269 static bool isNormalized (UStringView t, Mode mode, Options o = Options.None)
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	270 {
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	271 UErrorCode e;
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	272
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	273 byte b = unorm_isNormalizedWithOptions (t.get.ptr, t.len, mode, o, e);
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	274 testError (e, "failed to perform normalization test");
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	275 return b != 0;
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	276 }
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	277
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	278 /***********************************************************************
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	279
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	280 Concatenate normalized strings, making sure that the result
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	281 is normalized as well. If both the left and the right strings
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	282 are in the normalization form according to "mode/options",
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	283 then the result will be
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	284
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	285 dest=normalize(left+right, mode, options)
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	286
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	287 With the input strings already being normalized, this function
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	288 will use unorm_next() and unorm_previous() to find the adjacent
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	289 end pieces of the input strings. Only the concatenation of these
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	290 end pieces will be normalized and then concatenated with the
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	291 remaining parts of the input strings.
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	292
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	293 It is allowed to have dst==left to avoid copying the entire
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	294 left string.
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	295
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	296 ***********************************************************************/
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	297
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	298 static void concatenate (UStringView left, UStringView right, UString dst, Mode mode, Options o = Options.None)
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	299 {
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	300 uint fmt (wchar* p, uint len, inout UErrorCode e)
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	301 {
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	302 return unorm_concatenate (left.get.ptr, left.len, right.get.ptr, right.len, p, len, mode, o, e);
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	303 }
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	304
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	305 dst.format (&fmt, "failed to concatenate");
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	306 }
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	307
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	308 /***********************************************************************
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	309
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	310 Compare two strings for canonical equivalence. Further
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	311 options include case-insensitive comparison and code
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	312 point order (as opposed to code unit order).
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	313
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	314 Canonical equivalence between two strings is defined as
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	315 their normalized forms (NFD or NFC) being identical.
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	316 This function compares strings incrementally instead of
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	317 normalizing (and optionally case-folding) both strings
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	318 entirely, improving performance significantly.
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	319
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	320 Bulk normalization is only necessary if the strings do
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	321 not fulfill the FCD conditions. Only in this case, and
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	322 only if the strings are relatively long, is memory
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	323 allocated temporarily. For FCD strings and short non-FCD
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	324 strings there is no memory allocation.
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	325
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	326 ***********************************************************************/
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	327
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	328 static int compare (UStringView left, UStringView right, Options o = Options.None)
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	329 {
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	330 UErrorCode e;
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	331
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	332 int i = unorm_compare (left.get.ptr, left.len, right.get.ptr, right.len, o, e);
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	333 testError (e, "failed to compare");
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	334 return i;
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	335 }
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	336
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	337
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	338 /***********************************************************************
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	339
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	340 Bind the ICU functions from a shared library. This is
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	341 complicated by the issues regarding D and DLLs on the
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	342 Windows platform
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	343
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	344 ***********************************************************************/
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	345
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	346 private static void* library;
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	347
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	348 /***********************************************************************
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	349
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	350 ***********************************************************************/
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	351
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	352 private static extern (C)
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	353 {
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	354 uint function (wchar, uint, uint, uint, wchar, uint, inout UErrorCode) unorm_normalize;
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	355 uint function (wchar*, uint, uint, uint, inout UErrorCode) unorm_quickCheckWithOptions;
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	356 byte function (wchar*, uint, uint, uint, inout UErrorCode) unorm_isNormalizedWithOptions;
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	357 uint function (wchar, uint, wchar, uint, wchar*, uint, uint, uint, inout UErrorCode) unorm_concatenate;
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	358 uint function (wchar, uint, wchar, uint, uint, inout UErrorCode) unorm_compare;
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	359 }
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	360
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	361 /***********************************************************************
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	362
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	363 ***********************************************************************/
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	364
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	365 static FunctionLoader.Bind[] targets =
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	366 [
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	367 {cast(void**) &unorm_normalize, "unorm_normalize"},
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	368 {cast(void**) &unorm_quickCheckWithOptions, "unorm_quickCheckWithOptions"},
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	369 {cast(void**) &unorm_isNormalizedWithOptions, "unorm_isNormalizedWithOptions"},
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	370 {cast(void**) &unorm_concatenate, "unorm_concatenate"},
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	371 {cast(void**) &unorm_compare, "unorm_compare"},
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	372 ];
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	373
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	374 /***********************************************************************
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	375
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	376 ***********************************************************************/
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	377
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	378 static this ()
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	379 {
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	380 library = FunctionLoader.bind (icuuc, targets);
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	381 }
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	382
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	383 /***********************************************************************
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	384
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	385 ***********************************************************************/
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	386
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	387 static ~this ()
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	388 {
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	389 FunctionLoader.unbind (library);
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	390 }
f05207c07a98 changed filetype to unix Frank Benoit <benoit@tionex.de> parents: 91 diff changeset	391 }

Mercurial > projects > dwt-addons

annotate dwtx/dwtxhelper/mangoicu/UNormalize.d @ 200:eb3414669eb0 default tip