pylucene 3.5.0-3
[pylucene.git] / lucene-java-3.5.0 / lucene / contrib / icu / src / data / utr30 / DiacriticFolding.txt
1 # Copyright 2001-2010 Unicode, Inc.
2
3 # Disclaimer
4
5 # This source code is provided as is by Unicode, Inc. No claims are
6 # made as to fitness for any particular purpose. No warranties of any
7 # kind are expressed or implied. The recipient agrees to determine
8 # applicability of information provided. If this file has been
9 # purchased on magnetic or optical media from Unicode, Inc., the
10 # sole remedy for any claim will be exchange of defective media
11 # within 90 days of receipt.
12
13 # Limitations on Rights to Redistribute This Code
14
15 # Unicode, Inc. hereby grants the right to freely use the information
16 # supplied in this file in the creation of products supporting the
17 # Unicode Standard, and to make copies of this file in any form
18 # for internal or external distribution as long as this notice
19 # remains attached.
20
21 ### Custom Normalization mappings for UTR#30 
22 ### (http://www.unicode.org/reports/tr30/tr30-4.html)
23 ###
24 ### Created from Unicode 5.2 UCD
25 ###
26
27 # Removes diacritics, as defined by [:Diacritic:]
28 # These may or may not be combining marks
29 005E>
30 0060>
31 00B7>
32 02B9..02D7>
33 02DE>
34 02DF>
35 02E5..033F>
36 0342>
37 0346..034E>
38 0350..0357>
39 035D..0362>
40 0375>
41 0483..0487>
42 0559>
43 0591..05A1>
44 05A3..05BD>
45 05BF>
46 05C1>
47 05C2>
48 05C4>
49 064B..0652>
50 0657>
51 0658>
52 06DF>
53 06E0>
54 06E5>
55 06E6>
56 06EA..06EC>
57 0730..074A>
58 07A6..07B0>
59 07EB..07F5>
60 0818>
61 0819>
62 093C>
63 094D>
64 0951..0954>
65 0971>
66 09BC>
67 09CD>
68 0A3C>
69 0A4D>
70 0ABC>
71 0ACD>
72 0B3C>
73 0B4D>
74 0BCD>
75 0C4D>
76 0CBC>
77 0CCD>
78 0D4D>
79 0DCA>
80 0E47..0E4C>
81 0E4E>
82 0EC8..0ECC>
83 0F18>
84 0F19>
85 0F35>
86 0F37>
87 0F39>
88 0F3E>
89 0F3F>
90 0F82..0F84>
91 0F86>
92 0F87>
93 0FC6>
94 1037>
95 1039>
96 103A>
97 1087..108D>
98 108F>
99 109A>
100 109B>
101 17C9..17D3>
102 17DD>
103 1939..193B>
104 1A75..1A7C>
105 1A7F>
106 1B34>
107 1B44>
108 1B6B..1B73>
109 1BAA>
110 1C36>
111 1C37>
112 1C78..1C7D>
113 1CD0..1CE8>
114 1CED>
115 1D2F>
116 1D3B>
117 1D4E>
118 1DC4..1DCF>
119 1DFD..1DFF>
120 2CEF..2CF1>
121 2E2F>
122 302A..302F>
123 3099>
124 309A>
125 30FC>
126 A66F>
127 A67C>
128 A67D>
129 A67F>
130 A6F0>
131 A6F1>
132 A717..A721>
133 A788>
134 A8C4>
135 A8E0..A8F1>
136 A92B..A92E>
137 A953>
138 A9B3>
139 A9C0>
140 AA7B>
141 AABF..AAC2>
142 ABEC>
143 ABED>
144 FB1E>
145 FE20..FE26>
146 110B9>
147 110BA>
148 1D167..1D169>
149 1D16D..1D172>
150 1D17B..1D182>
151 1D185..1D18B>
152 1D1AA..1D1AD>
153
154 # Latin script "composed" that do not further decompose, so decompose here
155 # These are from AsciiFoldingFilter
156 00E6>0061 0065
157 00F0>0064
158 00F8>006F
159 00FE>0074 0068
160 0111>0064
161 0127>0068
162 0131>0069
163 0138>0071
164 0142>006C
165 014B>006E
166 0153>006F 0065
167 0167>0074
168 0180>0062
169 0183>0062
170 0185>0062
171 0188>0063
172 018C>0064
173 018D>0064
174 0192>0066
175 0195>0068 0076
176 0199>006B
177 019A>006C
178 #019B>
179 019E>006E
180 #01A3>
181 01A5>0070
182 #01A8>
183 #01AA>
184 01AB>0074
185 01AD>0074
186 01B4>0079
187 01B6>007A
188 #01B9>
189 #01BA>
190 01BB>0032
191 01BD>0035
192 #01BE>
193 01BF>0077
194 01C0>007C
195 01C1>007C 007C
196 #01C2>
197 01C3>0021
198 01DD>0065
199 01E5>0047
200 021D>007A
201 0221>0064
202 0223>006F 0075
203 0225>007A
204 0234>006C
205 0235>006E
206 0236>0074
207 0237>006A
208 0238>0064 0062
209 0239>0071 0070
210 023C>0063
211 023F>0073
212 0240>007A
213 #0242>
214 0247>0065
215 0249>006A
216 024B>0071
217 024D>0072
218 024F>0079
219 0250>0061
220 0251>0061
221 0252>0061
222 0253>0062
223 0254>006F
224 0255>0063
225 0256>0064
226 0257>0064
227 0258>0065
228 0259>0061
229 025A>0061
230 025B>0065
231 025C>0065
232 025D>0065
233 025E>0065
234 025F>006A
235 0260>0067
236 0261>0067
237 0262>0047
238 #0263>
239 #0264>
240 0265>0068
241 0266>0068
242 #0267>
243 0268>0069
244 0269>0069
245 026A>0049
246 026B>006C
247 026C>006C
248 026D>006C
249 #026E>
250 026F>006D
251 0270>006D
252 0271>006D
253 0272>006E
254 0273>006E
255 0274>004E
256 0275>006F
257 0276>004F 0045
258 #0277>
259 #0278>
260 #0279>
261 #027A>
262 #027B>
263 027C>0072
264 027D>0072
265 027E>0072
266 027F>0072
267 0280>0052
268 0281>0052
269 0282>0073
270 #0283>
271 0284>006A
272 #0285>
273 #0286>
274 0287>0074
275 0288>0074
276 0289>0075
277 #028A>
278 028B>0076
279 028C>0076
280 028D>0077
281 028E>0079
282 028F>0059
283 0290>007A
284 0291>007A
285 #0292>
286 #0293>
287 #0294>
288 #0295>
289 #0296>
290 0297>0043
291 0298>006F
292 0299>0042
293 029A>0065
294 029B>0047
295 029C>0048
296 029D>006A
297 029E>006B
298 029F>004C
299 02A0>0071
300 #02A1>
301 #02A2>
302 02A3>0064 007A
303 #02A4>
304 02A5>0064 007A
305 02A6>0074 0073
306 #02A7>
307 02A8>0074 0063
308 02A9>0066 006E
309 02AA>006C 0073
310 02AB>006C 007A
311 02AC>0077 0077
312 #02AD>
313 02AE>0068
314 02AF>0068
315 1D00>0041
316 1D01>0041 0045
317 1D02>0061 0065
318 1D03>0042
319 1D04>0043
320 1D05>0044
321 1D06>0044
322 1D07>0045
323 1D08>0065
324 1D09>0069
325 1D0A>004A
326 1D0B>004B
327 1D0C>004C
328 1D0D>004D
329 1D0E>004E
330 1D0F>004F
331 1D10>004F
332 1D11>006F
333 #1D12>
334 1D13>006F
335 1D14>006F 0065
336 1D15>004F 0055
337 1D16>006F
338 1D17>006F
339 1D18>0050
340 1D19>0052
341 1D1A>0052
342 1D1B>0054
343 1D1C>0055
344 1D1D>0075
345 1D1E>0075
346 1D1F>006D
347 1D20>0056
348 1D21>0057
349 1D22>005A
350 #1D23>
351 #1D24>
352 #1D25>
353 1D6B>0075 0065
354 1D6C>0062
355 1D6D>0064
356 1D6E>0066
357 1D6F>006D
358 1D70>006E
359 1D71>0070
360 1D72>0072
361 1D73>0072
362 1D74>0073
363 1D75>0074
364 1D76>007A
365 1D77>0067
366 1D79>0067
367 1D7A>0074 0068
368 1D7B>0049
369 1D7C>0069
370 1D7D>0070
371 1D7E>0055
372 #1D7F>
373 1D80>0062
374 1D81>0064
375 1D82>0066
376 1D83>0067
377 1D84>006B
378 1D85>006C
379 1D86>006D
380 1D87>006E
381 1D88>0070
382 1D89>0072
383 1D8A>0073
384 #1D8B>
385 1D8C>0076
386 1D8D>0078
387 1D8E>007A
388 1D8F>0061
389 1D90>0061
390 1D91>0064
391 1D92>0065
392 1D93>0065
393 1D94>0065
394 1D95>0061
395 1D96>0069
396 1D97>006F
397 #1D98>
398 1D99>0075
399 #1D9A>
400 1E9C>0073
401 1E9D>0073
402 1E9F>0064
403 1EFB>006C 006C
404 1EFD>0076
405 1EFF>0079
406 214E>0066
407 #2180>
408 #2181>
409 #2182>
410 2184>0063
411 #2185>
412 #2186>
413 #2187>
414 #2188>
415 2C61>006C
416 2C65>0061
417 2C66>0074
418 2C68>0068
419 2C6A>006B
420 2C6C>007A
421 2C71>0076
422 2C73>0077
423 2C74>0076
424 2C76>0068
425 #2C77>
426 2C78>0065
427 #2C79>
428 2C7A>006F
429 2C7B>0045
430 #A723>
431 #A725>
432 #A727>
433 A729>0074 007A
434 #A72B>
435 #A72D>
436 #A72F>
437 A730>0046
438 A731>0053
439 A733>0061 0061
440 A735>0061 006F
441 A737>0061 0075
442 A739>0061 0076
443 A73B>0061 0076
444 A73D>0061 0079
445 A73F>0063
446 A741>006B
447 A743>006B
448 A745>006B
449 A747>006C
450 A749>006C
451 A74B>006F
452 A74D>006F
453 A74F>006F 006F
454 A751>0070
455 A753>0070
456 A755>0070
457 A757>0071
458 A759>0071
459 A75B>0072
460 #A75D>
461 A75F>0076
462 A761>0076 0079
463 A763>007A
464 A765>0074 0068
465 A767>0074 0068
466 A769>0076 
467 #A76B>
468 #A76D>
469 #A76F>
470 #A771>
471 #A772>
472 #A773>
473 #A774>
474 #A775>
475 #A776>
476 #A777>
477 #A778>
478 A77A>0064
479 A77C>0066
480 A77F>0067
481 A781>006C
482 A783>0072
483 A785>0053
484 A787>0074
485 A78C>0027
486 A7FB>0046
487 A7FC>0070
488 A7FD>004D
489 A7FE>0049
490 A7FF>004D
491
492 # Cyrillic script "composed" that do not further decompose, so decompose here
493 # These are from UTR#30 DiacriticFolding.txt
494
495 047D>0461
496 048B>0439
497 048F>0440
498 0491>0433
499 0493>0433
500 0495>0433
501 0497>0436
502 0499>0437
503 049B>043A
504 049D>043A
505 049F>043A
506 04A3>043D
507 04A7>043F
508 04AB>0441
509 04AD>0442
510 04B1>04AF
511 04B3>0425
512 04B7>04BC
513 04B9>0447
514 04BF>04BC
515 04C4>043A
516 04C6>043B
517 04C8>043D
518 04CA>043D
519 04CC>04BC
520 04CE>043C
521
522 # Additional signs and diacritic, from examination of [:Mark:]&[:Lm:]
523 0358..035C>
524 05A2>
525 05C5>
526 05C7>
527 0610..061A>
528 0640>
529 06D6..06DE>
530 06E1..06E4>
531 06E7..06E9>
532 06ED>
533 0653..0656>
534 0659..065F>
535 0670>
536 0711>
537 07FA>
538 0816..0817>
539 081B..0823>
540 0825..0827>
541 0829>
542 082A..082D>
543 0900>0901
544 1714>
545 1734>
546 1DC0..1DC3>
547 1DD0..1DE6>
548 20D0..20F0>
549 2DE0..2DFF>
550 A670..A672>
551 A802>
552 10A3F>
553 11046>
554 1D165..1D166>
555 1D242..1D244>
556
557 # Additional Arabic/Hebrew decompositions
558 05F3>0027
559 05F4>0022
560 0629>0647
561 0649>064A
562 06A9>0643
563 06CC>064A