lucene-java-3.4.0/lucene/backwards/src/test/org/apache/lucene/analysis/TestUAX29URLEmailTokenizer.java

   1 package org.apache.lucene.analysis;
   2
   3 import org.apache.lucene.analysis.standard.UAX29URLEmailTokenizer;
   4 import org.apache.lucene.analysis.tokenattributes.TypeAttribute;
   5
   6 import java.io.BufferedReader;
   7 import java.io.IOException;
   8 import java.io.InputStreamReader;
   9 import java.io.Reader;
  10 import java.io.StringReader;
  11 import java.util.ArrayList;
  12 import java.util.Arrays;
  13 import java.util.List;
  14
  15 /**
  16  * Licensed to the Apache Software Foundation (ASF) under one or more
  17  * contributor license agreements.  See the NOTICE file distributed with
  18  * this work for additional information regarding copyright ownership.
  19  * The ASF licenses this file to You under the Apache License, Version 2.0
  20  * (the "License"); you may not use this file except in compliance with
  21  * the License.  You may obtain a copy of the License at
  22  *
  23  *     http://www.apache.org/licenses/LICENSE-2.0
  24  *
  25  * Unless required by applicable law or agreed to in writing, software
  26  * distributed under the License is distributed on an "AS IS" BASIS,
  27  * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
  28  * See the License for the specific language governing permissions and
  29  * limitations under the License.
  30  */
  31
  32 public class TestUAX29URLEmailTokenizer extends BaseTokenStreamTestCase {
  33
  34   public void testHugeDoc() throws IOException {
  35     StringBuilder sb = new StringBuilder();
  36     char whitespace[] = new char[4094];
  37     Arrays.fill(whitespace, ' ');
  38     sb.append(whitespace);
  39     sb.append("testing 1234");
  40     String input = sb.toString();
  41     UAX29URLEmailTokenizer tokenizer = new UAX29URLEmailTokenizer(new StringReader(input));
  42     BaseTokenStreamTestCase.assertTokenStreamContents(tokenizer, new String[] { "testing", "1234" });
  43   }
  44
  45   private Analyzer a = new ReusableAnalyzerBase() {
  46     @Override
  47     protected TokenStreamComponents createComponents
  48       (String fieldName, Reader reader) {
  49
  50       Tokenizer tokenizer = new UAX29URLEmailTokenizer(reader);
  51       return new TokenStreamComponents(tokenizer);
  52     }
  53   };
  54
  55
  56   /** Passes through tokens with type "<URL>" and blocks all other types. */
  57   private class URLFilter extends TokenFilter {
  58     private final TypeAttribute typeAtt = addAttribute(TypeAttribute.class);
  59     public URLFilter(TokenStream in) {
  60       super(in);
  61     }
  62     @Override
  63     public final boolean incrementToken() throws java.io.IOException {
  64       boolean isTokenAvailable = false;
  65       while (input.incrementToken()) {
  66         if (typeAtt.type() == UAX29URLEmailTokenizer.URL_TYPE) {
  67           isTokenAvailable = true;
  68           break;
  69         }
  70       }
  71       return isTokenAvailable;
  72     }
  73   }
  74
  75   /** Passes through tokens with type "<EMAIL>" and blocks all other types. */
  76   private class EmailFilter extends TokenFilter {
  77     private final TypeAttribute typeAtt = addAttribute(TypeAttribute.class);
  78     public EmailFilter(TokenStream in) {
  79       super(in);
  80     }
  81     @Override
  82     public final boolean incrementToken() throws java.io.IOException {
  83       boolean isTokenAvailable = false;
  84       while (input.incrementToken()) {
  85         if (typeAtt.type() == UAX29URLEmailTokenizer.EMAIL_TYPE) {
  86           isTokenAvailable = true;
  87           break;
  88         }
  89       }
  90       return isTokenAvailable;
  91     }
  92   }
  93
  94   private Analyzer urlAnalyzer = new ReusableAnalyzerBase() {
  95     @Override
  96     protected TokenStreamComponents createComponents(String fieldName, Reader reader) {
  97       UAX29URLEmailTokenizer tokenizer = new UAX29URLEmailTokenizer(reader);
  98       tokenizer.setMaxTokenLength(Integer.MAX_VALUE);  // Tokenize arbitrary length URLs
  99       TokenFilter filter = new URLFilter(tokenizer);
 100       return new TokenStreamComponents(tokenizer, filter);
 101     }
 102   };
 103
 104   private Analyzer emailAnalyzer = new ReusableAnalyzerBase() {
 105     @Override
 106     protected TokenStreamComponents createComponents(String fieldName, Reader reader) {
 107       UAX29URLEmailTokenizer tokenizer = new UAX29URLEmailTokenizer(reader);
 108       TokenFilter filter = new EmailFilter(tokenizer);
 109       return new TokenStreamComponents(tokenizer, filter);
 110     }
 111   };
 112
 113
 114   public void testArmenian() throws Exception {
 115     BaseTokenStreamTestCase.assertAnalyzesTo(a, "Վիքիպեդիայի 13 միլիոն հոդվածները (4,600` հայերեն վիքիպեդիայում) գրվել են կամավորների կողմից ու համարյա բոլոր հոդվածները կարող է խմբագրել ցանկաց մարդ ով կարող է բացել Վիքիպեդիայի կայքը։",
 116         new String[] { "Վիքիպեդիայի", "13", "միլիոն", "հոդվածները", "4,600", "հայերեն", "վիքիպեդիայում", "գրվել", "են", "կամավորների", "կողմից",
 117         "ու", "համարյա", "բոլոր", "հոդվածները", "կարող", "է", "խմբագրել", "ցանկաց", "մարդ", "ով", "կարող", "է", "բացել", "Վիքիպեդիայի", "կայքը" } );
 118   }
 119
 120   public void testAmharic() throws Exception {
 121     BaseTokenStreamTestCase.assertAnalyzesTo(a, "ዊኪፔድያ የባለ ብዙ ቋንቋ የተሟላ ትክክለኛና ነጻ መዝገበ ዕውቀት (ኢንሳይክሎፒዲያ) ነው። ማንኛውም",
 122         new String[] { "ዊኪፔድያ", "የባለ", "ብዙ", "ቋንቋ", "የተሟላ", "ትክክለኛና", "ነጻ", "መዝገበ", "ዕውቀት", "ኢንሳይክሎፒዲያ", "ነው", "ማንኛውም" } );
 123   }
 124
 125   public void testArabic() throws Exception {
 126     BaseTokenStreamTestCase.assertAnalyzesTo(a, "الفيلم الوثائقي الأول عن ويكيبيديا يسمى \"الحقيقة بالأرقام: قصة ويكيبيديا\" (بالإنجليزية: Truth in Numbers: The Wikipedia Story)، سيتم إطلاقه في 2008.",
 127         new String[] { "الفيلم", "الوثائقي", "الأول", "عن", "ويكيبيديا", "يسمى", "الحقيقة", "بالأرقام", "قصة", "ويكيبيديا",
 128         "بالإنجليزية", "Truth", "in", "Numbers", "The", "Wikipedia", "Story", "سيتم", "إطلاقه", "في", "2008" } );
 129   }
 130
 131   public void testAramaic() throws Exception {
 132     BaseTokenStreamTestCase.assertAnalyzesTo(a, "ܘܝܩܝܦܕܝܐ (ܐܢܓܠܝܐ: Wikipedia) ܗܘ ܐܝܢܣܩܠܘܦܕܝܐ ܚܐܪܬܐ ܕܐܢܛܪܢܛ ܒܠܫܢ̈ܐ ܣܓܝܐ̈ܐ܂ ܫܡܗ ܐܬܐ ܡܢ ܡ̈ܠܬܐ ܕ\"ܘܝܩܝ\" ܘ\"ܐܝܢܣܩܠܘܦܕܝܐ\"܀",
 133         new String[] { "ܘܝܩܝܦܕܝܐ", "ܐܢܓܠܝܐ", "Wikipedia", "ܗܘ", "ܐܝܢܣܩܠܘܦܕܝܐ", "ܚܐܪܬܐ", "ܕܐܢܛܪܢܛ", "ܒܠܫܢ̈ܐ", "ܣܓܝܐ̈ܐ", "ܫܡܗ",
 134         "ܐܬܐ", "ܡܢ", "ܡ̈ܠܬܐ", "ܕ", "ܘܝܩܝ", "ܘ", "ܐܝܢܣܩܠܘܦܕܝܐ"});
 135   }
 136
 137   public void testBengali() throws Exception {
 138     BaseTokenStreamTestCase.assertAnalyzesTo(a, "এই বিশ্বকোষ পরিচালনা করে উইকিমিডিয়া ফাউন্ডেশন (একটি অলাভজনক সংস্থা)। উইকিপিডিয়ার শুরু ১৫ জানুয়ারি, ২০০১ সালে। এখন পর্যন্ত ২০০টিরও বেশী ভাষায় উইকিপিডিয়া রয়েছে।",
 139         new String[] { "এই", "বিশ্বকোষ", "পরিচালনা", "করে", "উইকিমিডিয়া", "ফাউন্ডেশন", "একটি", "অলাভজনক", "সংস্থা", "উইকিপিডিয়ার",
 140         "শুরু", "১৫", "জানুয়ারি", "২০০১", "সালে", "এখন", "পর্যন্ত", "২০০টিরও", "বেশী", "ভাষায়", "উইকিপিডিয়া", "রয়েছে" });
 141   }
 142
 143   public void testFarsi() throws Exception {
 144     BaseTokenStreamTestCase.assertAnalyzesTo(a, "ویکی پدیای انگلیسی در تاریخ ۲۵ دی ۱۳۷۹ به صورت مکملی برای دانشنامهٔ تخصصی نوپدیا نوشته شد.",
 145         new String[] { "ویکی", "پدیای", "انگلیسی", "در", "تاریخ", "۲۵", "دی", "۱۳۷۹", "به", "صورت", "مکملی",
 146         "برای", "دانشنامهٔ", "تخصصی", "نوپدیا", "نوشته", "شد" });
 147   }
 148
 149   public void testGreek() throws Exception {
 150     BaseTokenStreamTestCase.assertAnalyzesTo(a, "Γράφεται σε συνεργασία από εθελοντές με το λογισμικό wiki, κάτι που σημαίνει ότι άρθρα μπορεί να προστεθούν ή να αλλάξουν από τον καθένα.",
 151         new String[] { "Γράφεται", "σε", "συνεργασία", "από", "εθελοντές", "με", "το", "λογισμικό", "wiki", "κάτι", "που",
 152         "σημαίνει", "ότι", "άρθρα", "μπορεί", "να", "προστεθούν", "ή", "να", "αλλάξουν", "από", "τον", "καθένα" });
 153   }
 154
 155   public void testThai() throws Exception {
 156     BaseTokenStreamTestCase.assertAnalyzesTo(a, "การที่ได้ต้องแสดงว่างานดี. แล้วเธอจะไปไหน? ๑๒๓๔",
 157         new String[] { "การที่ได้ต้องแสดงว่างานดี", "แล้วเธอจะไปไหน", "๑๒๓๔" });
 158   }
 159
 160   public void testLao() throws Exception {
 161     BaseTokenStreamTestCase.assertAnalyzesTo(a, "ສາທາລະນະລັດ ປະຊາທິປະໄຕ ປະຊາຊົນລາວ",
 162         new String[] { "ສາທາລະນະລັດ", "ປະຊາທິປະໄຕ", "ປະຊາຊົນລາວ" });
 163   }
 164
 165   public void testTibetan() throws Exception {
 166     BaseTokenStreamTestCase.assertAnalyzesTo(a, "སྣོན་མཛོད་དང་ལས་འདིས་བོད་ཡིག་མི་ཉམས་གོང་འཕེལ་དུ་གཏོང་བར་ཧ་ཅང་དགེ་མཚན་མཆིས་སོ། །",
 167                      new String[] { "སྣོན", "མཛོད", "དང", "ལས", "འདིས", "བོད", "ཡིག",
 168                                     "མི", "ཉམས", "གོང", "འཕེལ", "དུ", "གཏོང", "བར",
 169                                     "ཧ", "ཅང", "དགེ", "མཚན", "མཆིས", "སོ" });
 170   }
 171
 172   /*
 173    * For chinese, tokenize as char (these can later form bigrams or whatever)
 174    */
 175   public void testChinese() throws Exception {
 176     BaseTokenStreamTestCase.assertAnalyzesTo(a, "我是中国人。 １２３４ Ｔｅｓｔｓ ",
 177         new String[] { "我", "是", "中", "国", "人", "１２３４", "Ｔｅｓｔｓ"});
 178   }
 179
 180   public void testEmpty() throws Exception {
 181     BaseTokenStreamTestCase.assertAnalyzesTo(a, "", new String[] {});
 182     BaseTokenStreamTestCase.assertAnalyzesTo(a, ".", new String[] {});
 183     BaseTokenStreamTestCase.assertAnalyzesTo(a, " ", new String[] {});
 184   }
 185
 186   /* test various jira issues this analyzer is related to */
 187
 188   public void testLUCENE1545() throws Exception {
 189     /*
 190      * Standard analyzer does not correctly tokenize combining character U+0364 COMBINING LATIN SMALL LETTRE E.
 191      * The word "moͤchte" is incorrectly tokenized into "mo" "chte", the combining character is lost.
 192      * Expected result is only on token "moͤchte".
 193      */
 194     BaseTokenStreamTestCase.assertAnalyzesTo(a, "moͤchte", new String[] { "moͤchte" });
 195   }
 196
 197   /* Tests from StandardAnalyzer, just to show behavior is similar */
 198   public void testAlphanumericSA() throws Exception {
 199     // alphanumeric tokens
 200     BaseTokenStreamTestCase.assertAnalyzesTo(a, "B2B", new String[]{"B2B"});
 201     BaseTokenStreamTestCase.assertAnalyzesTo(a, "2B", new String[]{"2B"});
 202   }
 203
 204   public void testDelimitersSA() throws Exception {
 205     // other delimiters: "-", "/", ","
 206     BaseTokenStreamTestCase.assertAnalyzesTo(a, "some-dashed-phrase", new String[]{"some", "dashed", "phrase"});
 207     BaseTokenStreamTestCase.assertAnalyzesTo(a, "dogs,chase,cats", new String[]{"dogs", "chase", "cats"});
 208     BaseTokenStreamTestCase.assertAnalyzesTo(a, "ac/dc", new String[]{"ac", "dc"});
 209   }
 210
 211   public void testApostrophesSA() throws Exception {
 212     // internal apostrophes: O'Reilly, you're, O'Reilly's
 213     BaseTokenStreamTestCase.assertAnalyzesTo(a, "O'Reilly", new String[]{"O'Reilly"});
 214     BaseTokenStreamTestCase.assertAnalyzesTo(a, "you're", new String[]{"you're"});
 215     BaseTokenStreamTestCase.assertAnalyzesTo(a, "she's", new String[]{"she's"});
 216     BaseTokenStreamTestCase.assertAnalyzesTo(a, "Jim's", new String[]{"Jim's"});
 217     BaseTokenStreamTestCase.assertAnalyzesTo(a, "don't", new String[]{"don't"});
 218     BaseTokenStreamTestCase.assertAnalyzesTo(a, "O'Reilly's", new String[]{"O'Reilly's"});
 219   }
 220
 221   public void testNumericSA() throws Exception {
 222     // floating point, serial, model numbers, ip addresses, etc.
 223     BaseTokenStreamTestCase.assertAnalyzesTo(a, "21.35", new String[]{"21.35"});
 224     BaseTokenStreamTestCase.assertAnalyzesTo(a, "R2D2 C3PO", new String[]{"R2D2", "C3PO"});
 225     BaseTokenStreamTestCase.assertAnalyzesTo(a, "216.239.63.104", new String[]{"216.239.63.104"});
 226   }
 227
 228   public void testTextWithNumbersSA() throws Exception {
 229     // numbers
 230     BaseTokenStreamTestCase.assertAnalyzesTo(a, "David has 5000 bones", new String[]{"David", "has", "5000", "bones"});
 231   }
 232
 233   public void testVariousTextSA() throws Exception {
 234     // various
 235     BaseTokenStreamTestCase.assertAnalyzesTo(a, "C embedded developers wanted", new String[]{"C", "embedded", "developers", "wanted"});
 236     BaseTokenStreamTestCase.assertAnalyzesTo(a, "foo bar FOO BAR", new String[]{"foo", "bar", "FOO", "BAR"});
 237     BaseTokenStreamTestCase.assertAnalyzesTo(a, "foo      bar .  FOO <> BAR", new String[]{"foo", "bar", "FOO", "BAR"});
 238     BaseTokenStreamTestCase.assertAnalyzesTo(a, "\"QUOTED\" word", new String[]{"QUOTED", "word"});
 239   }
 240
 241   public void testKoreanSA() throws Exception {
 242     // Korean words
 243     BaseTokenStreamTestCase.assertAnalyzesTo(a, "안녕하세요 한글입니다", new String[]{"안녕하세요", "한글입니다"});
 244   }
 245
 246   public void testOffsets() throws Exception {
 247     BaseTokenStreamTestCase.assertAnalyzesTo(a, "David has 5000 bones",
 248         new String[] {"David", "has", "5000", "bones"},
 249         new int[] {0, 6, 10, 15},
 250         new int[] {5, 9, 14, 20});
 251   }
 252
 253   public void testTypes() throws Exception {
 254     BaseTokenStreamTestCase.assertAnalyzesTo(a, "David has 5000 bones",
 255         new String[] {"David", "has", "5000", "bones"},
 256         new String[] { "<ALPHANUM>", "<ALPHANUM>", "<NUM>", "<ALPHANUM>" });
 257   }
 258
 259   public void testWikiURLs() throws Exception {
 260     Reader reader = null;
 261     String luceneResourcesWikiPage;
 262     try {
 263       reader = new InputStreamReader(getClass().getResourceAsStream
 264         ("LuceneResourcesWikiPage.html"), "UTF-8");
 265       StringBuilder builder = new StringBuilder();
 266       char[] buffer = new char[1024];
 267       int numCharsRead;
 268       while (-1 != (numCharsRead = reader.read(buffer))) {
 269         builder.append(buffer, 0, numCharsRead);
 270       }
 271       luceneResourcesWikiPage = builder.toString();
 272     } finally {
 273       if (null != reader) {
 274         reader.close();
 275       }
 276     }
 277     assertTrue(null != luceneResourcesWikiPage
 278                && luceneResourcesWikiPage.length() > 0);
 279     BufferedReader bufferedReader = null;
 280     String[] urls;
 281     try {
 282       List<String> urlList = new ArrayList<String>();
 283       bufferedReader = new BufferedReader(new InputStreamReader
 284         (getClass().getResourceAsStream("LuceneResourcesWikiPageURLs.txt"), "UTF-8"));
 285       String line;
 286       while (null != (line = bufferedReader.readLine())) {
 287         line = line.trim();
 288         if (line.length() > 0) {
 289           urlList.add(line);
 290         }
 291       }
 292       urls = urlList.toArray(new String[urlList.size()]);
 293     } finally {
 294       if (null != bufferedReader) {
 295         bufferedReader.close();
 296       }
 297     }
 298     assertTrue(null != urls && urls.length > 0);
 299     BaseTokenStreamTestCase.assertAnalyzesTo
 300       (urlAnalyzer, luceneResourcesWikiPage, urls);
 301   }
 302
 303   public void testEmails() throws Exception {
 304     Reader reader = null;
 305     String randomTextWithEmails;
 306     try {
 307       reader = new InputStreamReader(getClass().getResourceAsStream
 308         ("random.text.with.email.addresses.txt"), "UTF-8");
 309       StringBuilder builder = new StringBuilder();
 310       char[] buffer = new char[1024];
 311       int numCharsRead;
 312       while (-1 != (numCharsRead = reader.read(buffer))) {
 313         builder.append(buffer, 0, numCharsRead);
 314       }
 315       randomTextWithEmails = builder.toString();
 316     } finally {
 317       if (null != reader) {
 318         reader.close();
 319       }
 320     }
 321     assertTrue(null != randomTextWithEmails
 322                && randomTextWithEmails.length() > 0);
 323     BufferedReader bufferedReader = null;
 324     String[] emails;
 325     try {
 326       List<String> emailList = new ArrayList<String>();
 327       bufferedReader = new BufferedReader(new InputStreamReader
 328         (getClass().getResourceAsStream
 329           ("email.addresses.from.random.text.with.email.addresses.txt"), "UTF-8"));
 330       String line;
 331       while (null != (line = bufferedReader.readLine())) {
 332         line = line.trim();
 333         if (line.length() > 0) {
 334           emailList.add(line);
 335         }
 336       }
 337       emails = emailList.toArray(new String[emailList.size()]);
 338     } finally {
 339       if (null != bufferedReader) {
 340         bufferedReader.close();
 341       }
 342     }
 343     assertTrue(null != emails && emails.length > 0);
 344     BaseTokenStreamTestCase.assertAnalyzesTo
 345       (emailAnalyzer, randomTextWithEmails, emails);
 346   }
 347
 348   public void testURLs() throws Exception {
 349     Reader reader = null;
 350     String randomTextWithURLs;
 351     try {
 352       reader = new InputStreamReader(getClass().getResourceAsStream
 353         ("random.text.with.urls.txt"), "UTF-8");
 354       StringBuilder builder = new StringBuilder();
 355       char[] buffer = new char[1024];
 356       int numCharsRead;
 357       while (-1 != (numCharsRead = reader.read(buffer))) {
 358         builder.append(buffer, 0, numCharsRead);
 359       }
 360       randomTextWithURLs = builder.toString();
 361     } finally {
 362       if (null != reader) {
 363         reader.close();
 364       }
 365     }
 366     assertTrue(null != randomTextWithURLs
 367                && randomTextWithURLs.length() > 0);
 368     BufferedReader bufferedReader = null;
 369     String[] urls;
 370     try {
 371       List<String> urlList = new ArrayList<String>();
 372       bufferedReader = new BufferedReader(new InputStreamReader
 373         (getClass().getResourceAsStream
 374           ("urls.from.random.text.with.urls.txt"), "UTF-8"));
 375       String line;
 376       while (null != (line = bufferedReader.readLine())) {
 377         line = line.trim();
 378         if (line.length() > 0) {
 379           urlList.add(line);
 380         }
 381       }
 382       urls = urlList.toArray(new String[urlList.size()]);
 383     } finally {
 384       if (null != bufferedReader) {
 385         bufferedReader.close();
 386       }
 387     }
 388     assertTrue(null != urls && urls.length > 0);
 389     BaseTokenStreamTestCase.assertAnalyzesTo
 390       (urlAnalyzer, randomTextWithURLs, urls);
 391   }
 392
 393   public void testUnicodeWordBreaks() throws Exception {
 394     WordBreakTestUnicode_6_0_0 wordBreakTest = new WordBreakTestUnicode_6_0_0();
 395     wordBreakTest.test(a);
 396   }
 397
 398   public void testSupplementary() throws Exception {
 399     BaseTokenStreamTestCase.assertAnalyzesTo(a, "𩬅艱鍟䇹愯瀛",
 400         new String[] {"𩬅", "艱", "鍟", "䇹", "愯", "瀛"},
 401         new String[] { "<IDEOGRAPHIC>", "<IDEOGRAPHIC>", "<IDEOGRAPHIC>", "<IDEOGRAPHIC>", "<IDEOGRAPHIC>", "<IDEOGRAPHIC>" });
 402   }
 403
 404   public void testKorean() throws Exception {
 405     BaseTokenStreamTestCase.assertAnalyzesTo(a, "훈민정음",
 406         new String[] { "훈민정음" },
 407         new String[] { "<HANGUL>" });
 408   }
 409
 410   public void testJapanese() throws Exception {
 411     BaseTokenStreamTestCase.assertAnalyzesTo(a, "仮名遣い カタカナ",
 412         new String[] { "仮", "名", "遣", "い", "カタカナ" },
 413         new String[] { "<IDEOGRAPHIC>", "<IDEOGRAPHIC>", "<IDEOGRAPHIC>", "<HIRAGANA>", "<KATAKANA>" });
 414   }
 415
 416   /** blast some random strings through the analyzer */
 417   public void testRandomStrings() throws Exception {
 418     checkRandomData(random, a, 10000*RANDOM_MULTIPLIER);
 419   }
 420 }