lucene-java-3.5.0/lucene/src/test/org/apache/lucene/analysis/TestUAX29URLEmailTokenizer.java

   1 package org.apache.lucene.analysis;
   2
   3 import org.apache.lucene.analysis.standard.StandardAnalyzer;
   4 import org.apache.lucene.analysis.standard.UAX29URLEmailTokenizer;
   5 import org.apache.lucene.analysis.tokenattributes.TypeAttribute;
   6 import org.apache.lucene.util.Version;
   7
   8 import java.io.BufferedReader;
   9 import java.io.IOException;
  10 import java.io.InputStreamReader;
  11 import java.io.Reader;
  12 import java.io.StringReader;
  13 import java.util.ArrayList;
  14 import java.util.Arrays;
  15 import java.util.List;
  16
  17 /**
  18  * Licensed to the Apache Software Foundation (ASF) under one or more
  19  * contributor license agreements.  See the NOTICE file distributed with
  20  * this work for additional information regarding copyright ownership.
  21  * The ASF licenses this file to You under the Apache License, Version 2.0
  22  * (the "License"); you may not use this file except in compliance with
  23  * the License.  You may obtain a copy of the License at
  24  *
  25  *     http://www.apache.org/licenses/LICENSE-2.0
  26  *
  27  * Unless required by applicable law or agreed to in writing, software
  28  * distributed under the License is distributed on an "AS IS" BASIS,
  29  * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
  30  * See the License for the specific language governing permissions and
  31  * limitations under the License.
  32  */
  33
  34 public class TestUAX29URLEmailTokenizer extends BaseTokenStreamTestCase {
  35
  36   public void testHugeDoc() throws IOException {
  37     StringBuilder sb = new StringBuilder();
  38     char whitespace[] = new char[4094];
  39     Arrays.fill(whitespace, ' ');
  40     sb.append(whitespace);
  41     sb.append("testing 1234");
  42     String input = sb.toString();
  43     UAX29URLEmailTokenizer tokenizer = new UAX29URLEmailTokenizer(TEST_VERSION_CURRENT, new StringReader(input));
  44     BaseTokenStreamTestCase.assertTokenStreamContents(tokenizer, new String[] { "testing", "1234" });
  45   }
  46
  47   private Analyzer a = new ReusableAnalyzerBase() {
  48     @Override
  49     protected TokenStreamComponents createComponents
  50       (String fieldName, Reader reader) {
  51
  52       Tokenizer tokenizer = new UAX29URLEmailTokenizer(TEST_VERSION_CURRENT, reader);
  53       return new TokenStreamComponents(tokenizer);
  54     }
  55   };
  56
  57
  58   /** Passes through tokens with type "<URL>" and blocks all other types. */
  59   private class URLFilter extends TokenFilter {
  60     private final TypeAttribute typeAtt = addAttribute(TypeAttribute.class);
  61     public URLFilter(TokenStream in) {
  62       super(in);
  63     }
  64     @Override
  65     public final boolean incrementToken() throws java.io.IOException {
  66       boolean isTokenAvailable = false;
  67       while (input.incrementToken()) {
  68         if (typeAtt.type() == UAX29URLEmailTokenizer.TOKEN_TYPES[UAX29URLEmailTokenizer.URL]) {
  69           isTokenAvailable = true;
  70           break;
  71         }
  72       }
  73       return isTokenAvailable;
  74     }
  75   }
  76
  77   /** Passes through tokens with type "<EMAIL>" and blocks all other types. */
  78   private class EmailFilter extends TokenFilter {
  79     private final TypeAttribute typeAtt = addAttribute(TypeAttribute.class);
  80     public EmailFilter(TokenStream in) {
  81       super(in);
  82     }
  83     @Override
  84     public final boolean incrementToken() throws java.io.IOException {
  85       boolean isTokenAvailable = false;
  86       while (input.incrementToken()) {
  87         if (typeAtt.type() == UAX29URLEmailTokenizer.TOKEN_TYPES[UAX29URLEmailTokenizer.EMAIL]) {
  88           isTokenAvailable = true;
  89           break;
  90         }
  91       }
  92       return isTokenAvailable;
  93     }
  94   }
  95
  96   private Analyzer urlAnalyzer = new ReusableAnalyzerBase() {
  97     @Override
  98     protected TokenStreamComponents createComponents(String fieldName, Reader reader) {
  99       UAX29URLEmailTokenizer tokenizer = new UAX29URLEmailTokenizer(TEST_VERSION_CURRENT, reader);
 100       tokenizer.setMaxTokenLength(Integer.MAX_VALUE);  // Tokenize arbitrary length URLs
 101       TokenFilter filter = new URLFilter(tokenizer);
 102       return new TokenStreamComponents(tokenizer, filter);
 103     }
 104   };
 105
 106   private Analyzer emailAnalyzer = new ReusableAnalyzerBase() {
 107     @Override
 108     protected TokenStreamComponents createComponents(String fieldName, Reader reader) {
 109       UAX29URLEmailTokenizer tokenizer = new UAX29URLEmailTokenizer(TEST_VERSION_CURRENT, reader);
 110       TokenFilter filter = new EmailFilter(tokenizer);
 111       return new TokenStreamComponents(tokenizer, filter);
 112     }
 113   };
 114
 115
 116   public void testArmenian() throws Exception {
 117     BaseTokenStreamTestCase.assertAnalyzesTo(a, "Վիքիպեդիայի 13 միլիոն հոդվածները (4,600` հայերեն վիքիպեդիայում) գրվել են կամավորների կողմից ու համարյա բոլոր հոդվածները կարող է խմբագրել ցանկաց մարդ ով կարող է բացել Վիքիպեդիայի կայքը։",
 118         new String[] { "Վիքիպեդիայի", "13", "միլիոն", "հոդվածները", "4,600", "հայերեն", "վիքիպեդիայում", "գրվել", "են", "կամավորների", "կողմից",
 119         "ու", "համարյա", "բոլոր", "հոդվածները", "կարող", "է", "խմբագրել", "ցանկաց", "մարդ", "ով", "կարող", "է", "բացել", "Վիքիպեդիայի", "կայքը" } );
 120   }
 121
 122   public void testAmharic() throws Exception {
 123     BaseTokenStreamTestCase.assertAnalyzesTo(a, "ዊኪፔድያ የባለ ብዙ ቋንቋ የተሟላ ትክክለኛና ነጻ መዝገበ ዕውቀት (ኢንሳይክሎፒዲያ) ነው። ማንኛውም",
 124         new String[] { "ዊኪፔድያ", "የባለ", "ብዙ", "ቋንቋ", "የተሟላ", "ትክክለኛና", "ነጻ", "መዝገበ", "ዕውቀት", "ኢንሳይክሎፒዲያ", "ነው", "ማንኛውም" } );
 125   }
 126
 127   public void testArabic() throws Exception {
 128     BaseTokenStreamTestCase.assertAnalyzesTo(a, "الفيلم الوثائقي الأول عن ويكيبيديا يسمى \"الحقيقة بالأرقام: قصة ويكيبيديا\" (بالإنجليزية: Truth in Numbers: The Wikipedia Story)، سيتم إطلاقه في 2008.",
 129         new String[] { "الفيلم", "الوثائقي", "الأول", "عن", "ويكيبيديا", "يسمى", "الحقيقة", "بالأرقام", "قصة", "ويكيبيديا",
 130         "بالإنجليزية", "Truth", "in", "Numbers", "The", "Wikipedia", "Story", "سيتم", "إطلاقه", "في", "2008" } );
 131   }
 132
 133   public void testAramaic() throws Exception {
 134     BaseTokenStreamTestCase.assertAnalyzesTo(a, "ܘܝܩܝܦܕܝܐ (ܐܢܓܠܝܐ: Wikipedia) ܗܘ ܐܝܢܣܩܠܘܦܕܝܐ ܚܐܪܬܐ ܕܐܢܛܪܢܛ ܒܠܫܢ̈ܐ ܣܓܝܐ̈ܐ܂ ܫܡܗ ܐܬܐ ܡܢ ܡ̈ܠܬܐ ܕ\"ܘܝܩܝ\" ܘ\"ܐܝܢܣܩܠܘܦܕܝܐ\"܀",
 135         new String[] { "ܘܝܩܝܦܕܝܐ", "ܐܢܓܠܝܐ", "Wikipedia", "ܗܘ", "ܐܝܢܣܩܠܘܦܕܝܐ", "ܚܐܪܬܐ", "ܕܐܢܛܪܢܛ", "ܒܠܫܢ̈ܐ", "ܣܓܝܐ̈ܐ", "ܫܡܗ",
 136         "ܐܬܐ", "ܡܢ", "ܡ̈ܠܬܐ", "ܕ", "ܘܝܩܝ", "ܘ", "ܐܝܢܣܩܠܘܦܕܝܐ"});
 137   }
 138
 139   public void testBengali() throws Exception {
 140     BaseTokenStreamTestCase.assertAnalyzesTo(a, "এই বিশ্বকোষ পরিচালনা করে উইকিমিডিয়া ফাউন্ডেশন (একটি অলাভজনক সংস্থা)। উইকিপিডিয়ার শুরু ১৫ জানুয়ারি, ২০০১ সালে। এখন পর্যন্ত ২০০টিরও বেশী ভাষায় উইকিপিডিয়া রয়েছে।",
 141         new String[] { "এই", "বিশ্বকোষ", "পরিচালনা", "করে", "উইকিমিডিয়া", "ফাউন্ডেশন", "একটি", "অলাভজনক", "সংস্থা", "উইকিপিডিয়ার",
 142         "শুরু", "১৫", "জানুয়ারি", "২০০১", "সালে", "এখন", "পর্যন্ত", "২০০টিরও", "বেশী", "ভাষায়", "উইকিপিডিয়া", "রয়েছে" });
 143   }
 144
 145   public void testFarsi() throws Exception {
 146     BaseTokenStreamTestCase.assertAnalyzesTo(a, "ویکی پدیای انگلیسی در تاریخ ۲۵ دی ۱۳۷۹ به صورت مکملی برای دانشنامهٔ تخصصی نوپدیا نوشته شد.",
 147         new String[] { "ویکی", "پدیای", "انگلیسی", "در", "تاریخ", "۲۵", "دی", "۱۳۷۹", "به", "صورت", "مکملی",
 148         "برای", "دانشنامهٔ", "تخصصی", "نوپدیا", "نوشته", "شد" });
 149   }
 150
 151   public void testGreek() throws Exception {
 152     BaseTokenStreamTestCase.assertAnalyzesTo(a, "Γράφεται σε συνεργασία από εθελοντές με το λογισμικό wiki, κάτι που σημαίνει ότι άρθρα μπορεί να προστεθούν ή να αλλάξουν από τον καθένα.",
 153         new String[] { "Γράφεται", "σε", "συνεργασία", "από", "εθελοντές", "με", "το", "λογισμικό", "wiki", "κάτι", "που",
 154         "σημαίνει", "ότι", "άρθρα", "μπορεί", "να", "προστεθούν", "ή", "να", "αλλάξουν", "από", "τον", "καθένα" });
 155   }
 156
 157   public void testThai() throws Exception {
 158     BaseTokenStreamTestCase.assertAnalyzesTo(a, "การที่ได้ต้องแสดงว่างานดี. แล้วเธอจะไปไหน? ๑๒๓๔",
 159         new String[] { "การที่ได้ต้องแสดงว่างานดี", "แล้วเธอจะไปไหน", "๑๒๓๔" });
 160   }
 161
 162   public void testLao() throws Exception {
 163     BaseTokenStreamTestCase.assertAnalyzesTo(a, "ສາທາລະນະລັດ ປະຊາທິປະໄຕ ປະຊາຊົນລາວ",
 164         new String[] { "ສາທາລະນະລັດ", "ປະຊາທິປະໄຕ", "ປະຊາຊົນລາວ" });
 165   }
 166
 167   public void testTibetan() throws Exception {
 168     BaseTokenStreamTestCase.assertAnalyzesTo(a, "སྣོན་མཛོད་དང་ལས་འདིས་བོད་ཡིག་མི་ཉམས་གོང་འཕེལ་དུ་གཏོང་བར་ཧ་ཅང་དགེ་མཚན་མཆིས་སོ། །",
 169                      new String[] { "སྣོན", "མཛོད", "དང", "ལས", "འདིས", "བོད", "ཡིག",
 170                                     "མི", "ཉམས", "གོང", "འཕེལ", "དུ", "གཏོང", "བར",
 171                                     "ཧ", "ཅང", "དགེ", "མཚན", "མཆིས", "སོ" });
 172   }
 173
 174   /*
 175    * For chinese, tokenize as char (these can later form bigrams or whatever)
 176    */
 177   public void testChinese() throws Exception {
 178     BaseTokenStreamTestCase.assertAnalyzesTo(a, "我是中国人。 １２３４ Ｔｅｓｔｓ ",
 179         new String[] { "我", "是", "中", "国", "人", "１２３４", "Ｔｅｓｔｓ"});
 180   }
 181
 182   public void testEmpty() throws Exception {
 183     BaseTokenStreamTestCase.assertAnalyzesTo(a, "", new String[] {});
 184     BaseTokenStreamTestCase.assertAnalyzesTo(a, ".", new String[] {});
 185     BaseTokenStreamTestCase.assertAnalyzesTo(a, " ", new String[] {});
 186   }
 187
 188   /* test various jira issues this analyzer is related to */
 189
 190   public void testLUCENE1545() throws Exception {
 191     /*
 192      * Standard analyzer does not correctly tokenize combining character U+0364 COMBINING LATIN SMALL LETTRE E.
 193      * The word "moͤchte" is incorrectly tokenized into "mo" "chte", the combining character is lost.
 194      * Expected result is only on token "moͤchte".
 195      */
 196     BaseTokenStreamTestCase.assertAnalyzesTo(a, "moͤchte", new String[] { "moͤchte" });
 197   }
 198
 199   /* Tests from StandardAnalyzer, just to show behavior is similar */
 200   public void testAlphanumericSA() throws Exception {
 201     // alphanumeric tokens
 202     BaseTokenStreamTestCase.assertAnalyzesTo(a, "B2B", new String[]{"B2B"});
 203     BaseTokenStreamTestCase.assertAnalyzesTo(a, "2B", new String[]{"2B"});
 204   }
 205
 206   public void testDelimitersSA() throws Exception {
 207     // other delimiters: "-", "/", ","
 208     BaseTokenStreamTestCase.assertAnalyzesTo(a, "some-dashed-phrase", new String[]{"some", "dashed", "phrase"});
 209     BaseTokenStreamTestCase.assertAnalyzesTo(a, "dogs,chase,cats", new String[]{"dogs", "chase", "cats"});
 210     BaseTokenStreamTestCase.assertAnalyzesTo(a, "ac/dc", new String[]{"ac", "dc"});
 211   }
 212
 213   public void testApostrophesSA() throws Exception {
 214     // internal apostrophes: O'Reilly, you're, O'Reilly's
 215     BaseTokenStreamTestCase.assertAnalyzesTo(a, "O'Reilly", new String[]{"O'Reilly"});
 216     BaseTokenStreamTestCase.assertAnalyzesTo(a, "you're", new String[]{"you're"});
 217     BaseTokenStreamTestCase.assertAnalyzesTo(a, "she's", new String[]{"she's"});
 218     BaseTokenStreamTestCase.assertAnalyzesTo(a, "Jim's", new String[]{"Jim's"});
 219     BaseTokenStreamTestCase.assertAnalyzesTo(a, "don't", new String[]{"don't"});
 220     BaseTokenStreamTestCase.assertAnalyzesTo(a, "O'Reilly's", new String[]{"O'Reilly's"});
 221   }
 222
 223   public void testNumericSA() throws Exception {
 224     // floating point, serial, model numbers, ip addresses, etc.
 225     BaseTokenStreamTestCase.assertAnalyzesTo(a, "21.35", new String[]{"21.35"});
 226     BaseTokenStreamTestCase.assertAnalyzesTo(a, "R2D2 C3PO", new String[]{"R2D2", "C3PO"});
 227     BaseTokenStreamTestCase.assertAnalyzesTo(a, "216.239.63.104", new String[]{"216.239.63.104"});
 228   }
 229
 230   public void testTextWithNumbersSA() throws Exception {
 231     // numbers
 232     BaseTokenStreamTestCase.assertAnalyzesTo(a, "David has 5000 bones", new String[]{"David", "has", "5000", "bones"});
 233   }
 234
 235   public void testVariousTextSA() throws Exception {
 236     // various
 237     BaseTokenStreamTestCase.assertAnalyzesTo(a, "C embedded developers wanted", new String[]{"C", "embedded", "developers", "wanted"});
 238     BaseTokenStreamTestCase.assertAnalyzesTo(a, "foo bar FOO BAR", new String[]{"foo", "bar", "FOO", "BAR"});
 239     BaseTokenStreamTestCase.assertAnalyzesTo(a, "foo      bar .  FOO <> BAR", new String[]{"foo", "bar", "FOO", "BAR"});
 240     BaseTokenStreamTestCase.assertAnalyzesTo(a, "\"QUOTED\" word", new String[]{"QUOTED", "word"});
 241   }
 242
 243   public void testKoreanSA() throws Exception {
 244     // Korean words
 245     BaseTokenStreamTestCase.assertAnalyzesTo(a, "안녕하세요 한글입니다", new String[]{"안녕하세요", "한글입니다"});
 246   }
 247
 248   public void testOffsets() throws Exception {
 249     BaseTokenStreamTestCase.assertAnalyzesTo(a, "David has 5000 bones",
 250         new String[] {"David", "has", "5000", "bones"},
 251         new int[] {0, 6, 10, 15},
 252         new int[] {5, 9, 14, 20});
 253   }
 254
 255   public void testTypes() throws Exception {
 256     BaseTokenStreamTestCase.assertAnalyzesTo(a, "David has 5000 bones",
 257         new String[] {"David", "has", "5000", "bones"},
 258         new String[] { "<ALPHANUM>", "<ALPHANUM>", "<NUM>", "<ALPHANUM>" });
 259   }
 260
 261   public void testWikiURLs() throws Exception {
 262     Reader reader = null;
 263     String luceneResourcesWikiPage;
 264     try {
 265       reader = new InputStreamReader(getClass().getResourceAsStream
 266         ("LuceneResourcesWikiPage.html"), "UTF-8");
 267       StringBuilder builder = new StringBuilder();
 268       char[] buffer = new char[1024];
 269       int numCharsRead;
 270       while (-1 != (numCharsRead = reader.read(buffer))) {
 271         builder.append(buffer, 0, numCharsRead);
 272       }
 273       luceneResourcesWikiPage = builder.toString();
 274     } finally {
 275       if (null != reader) {
 276         reader.close();
 277       }
 278     }
 279     assertTrue(null != luceneResourcesWikiPage
 280                && luceneResourcesWikiPage.length() > 0);
 281     BufferedReader bufferedReader = null;
 282     String[] urls;
 283     try {
 284       List<String> urlList = new ArrayList<String>();
 285       bufferedReader = new BufferedReader(new InputStreamReader
 286         (getClass().getResourceAsStream("LuceneResourcesWikiPageURLs.txt"), "UTF-8"));
 287       String line;
 288       while (null != (line = bufferedReader.readLine())) {
 289         line = line.trim();
 290         if (line.length() > 0) {
 291           urlList.add(line);
 292         }
 293       }
 294       urls = urlList.toArray(new String[urlList.size()]);
 295     } finally {
 296       if (null != bufferedReader) {
 297         bufferedReader.close();
 298       }
 299     }
 300     assertTrue(null != urls && urls.length > 0);
 301     BaseTokenStreamTestCase.assertAnalyzesTo
 302       (urlAnalyzer, luceneResourcesWikiPage, urls);
 303   }
 304
 305   public void testEmails() throws Exception {
 306     Reader reader = null;
 307     String randomTextWithEmails;
 308     try {
 309       reader = new InputStreamReader(getClass().getResourceAsStream
 310         ("random.text.with.email.addresses.txt"), "UTF-8");
 311       StringBuilder builder = new StringBuilder();
 312       char[] buffer = new char[1024];
 313       int numCharsRead;
 314       while (-1 != (numCharsRead = reader.read(buffer))) {
 315         builder.append(buffer, 0, numCharsRead);
 316       }
 317       randomTextWithEmails = builder.toString();
 318     } finally {
 319       if (null != reader) {
 320         reader.close();
 321       }
 322     }
 323     assertTrue(null != randomTextWithEmails
 324                && randomTextWithEmails.length() > 0);
 325     BufferedReader bufferedReader = null;
 326     String[] emails;
 327     try {
 328       List<String> emailList = new ArrayList<String>();
 329       bufferedReader = new BufferedReader(new InputStreamReader
 330         (getClass().getResourceAsStream
 331           ("email.addresses.from.random.text.with.email.addresses.txt"), "UTF-8"));
 332       String line;
 333       while (null != (line = bufferedReader.readLine())) {
 334         line = line.trim();
 335         if (line.length() > 0) {
 336           emailList.add(line);
 337         }
 338       }
 339       emails = emailList.toArray(new String[emailList.size()]);
 340     } finally {
 341       if (null != bufferedReader) {
 342         bufferedReader.close();
 343       }
 344     }
 345     assertTrue(null != emails && emails.length > 0);
 346     BaseTokenStreamTestCase.assertAnalyzesTo
 347       (emailAnalyzer, randomTextWithEmails, emails);
 348   }
 349
 350   public void testURLs() throws Exception {
 351     Reader reader = null;
 352     String randomTextWithURLs;
 353     try {
 354       reader = new InputStreamReader(getClass().getResourceAsStream
 355         ("random.text.with.urls.txt"), "UTF-8");
 356       StringBuilder builder = new StringBuilder();
 357       char[] buffer = new char[1024];
 358       int numCharsRead;
 359       while (-1 != (numCharsRead = reader.read(buffer))) {
 360         builder.append(buffer, 0, numCharsRead);
 361       }
 362       randomTextWithURLs = builder.toString();
 363     } finally {
 364       if (null != reader) {
 365         reader.close();
 366       }
 367     }
 368     assertTrue(null != randomTextWithURLs
 369                && randomTextWithURLs.length() > 0);
 370     BufferedReader bufferedReader = null;
 371     String[] urls;
 372     try {
 373       List<String> urlList = new ArrayList<String>();
 374       bufferedReader = new BufferedReader(new InputStreamReader
 375         (getClass().getResourceAsStream
 376           ("urls.from.random.text.with.urls.txt"), "UTF-8"));
 377       String line;
 378       while (null != (line = bufferedReader.readLine())) {
 379         line = line.trim();
 380         if (line.length() > 0) {
 381           urlList.add(line);
 382         }
 383       }
 384       urls = urlList.toArray(new String[urlList.size()]);
 385     } finally {
 386       if (null != bufferedReader) {
 387         bufferedReader.close();
 388       }
 389     }
 390     assertTrue(null != urls && urls.length > 0);
 391     BaseTokenStreamTestCase.assertAnalyzesTo
 392       (urlAnalyzer, randomTextWithURLs, urls);
 393   }
 394
 395   public void testUnicodeWordBreaks() throws Exception {
 396     WordBreakTestUnicode_6_0_0 wordBreakTest = new WordBreakTestUnicode_6_0_0();
 397     wordBreakTest.test(a);
 398   }
 399
 400   public void testSupplementary() throws Exception {
 401     BaseTokenStreamTestCase.assertAnalyzesTo(a, "𩬅艱鍟䇹愯瀛",
 402         new String[] {"𩬅", "艱", "鍟", "䇹", "愯", "瀛"},
 403         new String[] { "<IDEOGRAPHIC>", "<IDEOGRAPHIC>", "<IDEOGRAPHIC>", "<IDEOGRAPHIC>", "<IDEOGRAPHIC>", "<IDEOGRAPHIC>" });
 404   }
 405
 406   public void testKorean() throws Exception {
 407     BaseTokenStreamTestCase.assertAnalyzesTo(a, "훈민정음",
 408         new String[] { "훈민정음" },
 409         new String[] { "<HANGUL>" });
 410   }
 411
 412   public void testJapanese() throws Exception {
 413     BaseTokenStreamTestCase.assertAnalyzesTo(a, "仮名遣い カタカナ",
 414         new String[] { "仮", "名", "遣", "い", "カタカナ" },
 415         new String[] { "<IDEOGRAPHIC>", "<IDEOGRAPHIC>", "<IDEOGRAPHIC>", "<HIRAGANA>", "<KATAKANA>" });
 416   }
 417
 418   public void testCombiningMarks() throws Exception {
 419     checkOneTerm(a, "ざ", "ざ"); // hiragana
 420     checkOneTerm(a, "ザ", "ザ"); // katakana
 421     checkOneTerm(a, "壹゙", "壹゙"); // ideographic
 422     checkOneTerm(a, "아゙",  "아゙"); // hangul
 423   }
 424
 425   /** @deprecated remove this and sophisticated backwards layer in 5.0 */
 426   @Deprecated
 427   public void testCombiningMarksBackwards() throws Exception {
 428     Analyzer a = new ReusableAnalyzerBase() {
 429       @Override
 430       protected TokenStreamComponents createComponents
 431         (String fieldName, Reader reader) {
 432
 433         Tokenizer tokenizer = new UAX29URLEmailTokenizer(reader);
 434         return new TokenStreamComponents(tokenizer);
 435       }
 436     };
 437     checkOneTerm(a, "ざ", "さ"); // hiragana Bug
 438     checkOneTerm(a, "ザ", "ザ"); // katakana Works
 439     checkOneTerm(a, "壹゙", "壹"); // ideographic Bug
 440     checkOneTerm(a, "아゙",  "아゙"); // hangul Works
 441   }
 442
 443   /** blast some random strings through the analyzer */
 444   public void testRandomStrings() throws Exception {
 445     checkRandomData(random, a, 10000*RANDOM_MULTIPLIER);
 446   }
 447 }