add --shared
[pylucene.git] / lucene-java-3.4.0 / lucene / backwards / src / test / org / apache / lucene / analysis / TestUAX29URLEmailTokenizer.java
1 package org.apache.lucene.analysis;
2
3 import org.apache.lucene.analysis.standard.UAX29URLEmailTokenizer;
4 import org.apache.lucene.analysis.tokenattributes.TypeAttribute;
5
6 import java.io.BufferedReader;
7 import java.io.IOException;
8 import java.io.InputStreamReader;
9 import java.io.Reader;
10 import java.io.StringReader;
11 import java.util.ArrayList;
12 import java.util.Arrays;
13 import java.util.List;
14
15 /**
16  * Licensed to the Apache Software Foundation (ASF) under one or more
17  * contributor license agreements.  See the NOTICE file distributed with
18  * this work for additional information regarding copyright ownership.
19  * The ASF licenses this file to You under the Apache License, Version 2.0
20  * (the "License"); you may not use this file except in compliance with
21  * the License.  You may obtain a copy of the License at
22  *
23  *     http://www.apache.org/licenses/LICENSE-2.0
24  *
25  * Unless required by applicable law or agreed to in writing, software
26  * distributed under the License is distributed on an "AS IS" BASIS,
27  * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
28  * See the License for the specific language governing permissions and
29  * limitations under the License.
30  */
31
32 public class TestUAX29URLEmailTokenizer extends BaseTokenStreamTestCase {
33   
34   public void testHugeDoc() throws IOException {
35     StringBuilder sb = new StringBuilder();
36     char whitespace[] = new char[4094];
37     Arrays.fill(whitespace, ' ');
38     sb.append(whitespace);
39     sb.append("testing 1234");
40     String input = sb.toString();
41     UAX29URLEmailTokenizer tokenizer = new UAX29URLEmailTokenizer(new StringReader(input));
42     BaseTokenStreamTestCase.assertTokenStreamContents(tokenizer, new String[] { "testing", "1234" });
43   }
44
45   private Analyzer a = new ReusableAnalyzerBase() {
46     @Override
47     protected TokenStreamComponents createComponents
48       (String fieldName, Reader reader) {
49
50       Tokenizer tokenizer = new UAX29URLEmailTokenizer(reader);
51       return new TokenStreamComponents(tokenizer);
52     }
53   };
54
55
56   /** Passes through tokens with type "<URL>" and blocks all other types. */
57   private class URLFilter extends TokenFilter {
58     private final TypeAttribute typeAtt = addAttribute(TypeAttribute.class);
59     public URLFilter(TokenStream in) {
60       super(in);
61     }
62     @Override
63     public final boolean incrementToken() throws java.io.IOException {
64       boolean isTokenAvailable = false;
65       while (input.incrementToken()) {
66         if (typeAtt.type() == UAX29URLEmailTokenizer.URL_TYPE) {
67           isTokenAvailable = true;
68           break;
69         }
70       }
71       return isTokenAvailable;
72     }
73   }
74   
75   /** Passes through tokens with type "<EMAIL>" and blocks all other types. */
76   private class EmailFilter extends TokenFilter {
77     private final TypeAttribute typeAtt = addAttribute(TypeAttribute.class);
78     public EmailFilter(TokenStream in) {
79       super(in);
80     }
81     @Override
82     public final boolean incrementToken() throws java.io.IOException {
83       boolean isTokenAvailable = false;
84       while (input.incrementToken()) {
85         if (typeAtt.type() == UAX29URLEmailTokenizer.EMAIL_TYPE) {
86           isTokenAvailable = true;
87           break;
88         }
89       }
90       return isTokenAvailable;
91     }
92   }
93
94   private Analyzer urlAnalyzer = new ReusableAnalyzerBase() {
95     @Override
96     protected TokenStreamComponents createComponents(String fieldName, Reader reader) {
97       UAX29URLEmailTokenizer tokenizer = new UAX29URLEmailTokenizer(reader);
98       tokenizer.setMaxTokenLength(Integer.MAX_VALUE);  // Tokenize arbitrary length URLs
99       TokenFilter filter = new URLFilter(tokenizer);
100       return new TokenStreamComponents(tokenizer, filter);
101     }
102   };
103
104   private Analyzer emailAnalyzer = new ReusableAnalyzerBase() {
105     @Override
106     protected TokenStreamComponents createComponents(String fieldName, Reader reader) {
107       UAX29URLEmailTokenizer tokenizer = new UAX29URLEmailTokenizer(reader);
108       TokenFilter filter = new EmailFilter(tokenizer);
109       return new TokenStreamComponents(tokenizer, filter);
110     }
111   };
112   
113   
114   public void testArmenian() throws Exception {
115     BaseTokenStreamTestCase.assertAnalyzesTo(a, "Վիքիպեդիայի 13 միլիոն հոդվածները (4,600` հայերեն վիքիպեդիայում) գրվել են կամավորների կողմից ու համարյա բոլոր հոդվածները կարող է խմբագրել ցանկաց մարդ ով կարող է բացել Վիքիպեդիայի կայքը։",
116         new String[] { "Վիքիպեդիայի", "13", "միլիոն", "հոդվածները", "4,600", "հայերեն", "վիքիպեդիայում", "գրվել", "են", "կամավորների", "կողմից", 
117         "ու", "համարյա", "բոլոր", "հոդվածները", "կարող", "է", "խմբագրել", "ցանկաց", "մարդ", "ով", "կարող", "է", "բացել", "Վիքիպեդիայի", "կայքը" } );
118   }
119   
120   public void testAmharic() throws Exception {
121     BaseTokenStreamTestCase.assertAnalyzesTo(a, "ዊኪፔድያ የባለ ብዙ ቋንቋ የተሟላ ትክክለኛና ነጻ መዝገበ ዕውቀት (ኢንሳይክሎፒዲያ) ነው። ማንኛውም",
122         new String[] { "ዊኪፔድያ", "የባለ", "ብዙ", "ቋንቋ", "የተሟላ", "ትክክለኛና", "ነጻ", "መዝገበ", "ዕውቀት", "ኢንሳይክሎፒዲያ", "ነው", "ማንኛውም" } );
123   }
124   
125   public void testArabic() throws Exception {
126     BaseTokenStreamTestCase.assertAnalyzesTo(a, "الفيلم الوثائقي الأول عن ويكيبيديا يسمى \"الحقيقة بالأرقام: قصة ويكيبيديا\" (بالإنجليزية: Truth in Numbers: The Wikipedia Story)، سيتم إطلاقه في 2008.",
127         new String[] { "الفيلم", "الوثائقي", "الأول", "عن", "ويكيبيديا", "يسمى", "الحقيقة", "بالأرقام", "قصة", "ويكيبيديا",
128         "بالإنجليزية", "Truth", "in", "Numbers", "The", "Wikipedia", "Story", "سيتم", "إطلاقه", "في", "2008" } ); 
129   }
130   
131   public void testAramaic() throws Exception {
132     BaseTokenStreamTestCase.assertAnalyzesTo(a, "ܘܝܩܝܦܕܝܐ (ܐܢܓܠܝܐ: Wikipedia) ܗܘ ܐܝܢܣܩܠܘܦܕܝܐ ܚܐܪܬܐ ܕܐܢܛܪܢܛ ܒܠܫܢ̈ܐ ܣܓܝܐ̈ܐ܂ ܫܡܗ ܐܬܐ ܡܢ ܡ̈ܠܬܐ ܕ\"ܘܝܩܝ\" ܘ\"ܐܝܢܣܩܠܘܦܕܝܐ\"܀",
133         new String[] { "ܘܝܩܝܦܕܝܐ", "ܐܢܓܠܝܐ", "Wikipedia", "ܗܘ", "ܐܝܢܣܩܠܘܦܕܝܐ", "ܚܐܪܬܐ", "ܕܐܢܛܪܢܛ", "ܒܠܫܢ̈ܐ", "ܣܓܝܐ̈ܐ", "ܫܡܗ",
134         "ܐܬܐ", "ܡܢ", "ܡ̈ܠܬܐ", "ܕ", "ܘܝܩܝ", "ܘ", "ܐܝܢܣܩܠܘܦܕܝܐ"});
135   }
136   
137   public void testBengali() throws Exception {
138     BaseTokenStreamTestCase.assertAnalyzesTo(a, "এই বিশ্বকোষ পরিচালনা করে উইকিমিডিয়া ফাউন্ডেশন (একটি অলাভজনক সংস্থা)। উইকিপিডিয়ার শুরু ১৫ জানুয়ারি, ২০০১ সালে। এখন পর্যন্ত ২০০টিরও বেশী ভাষায় উইকিপিডিয়া রয়েছে।",
139         new String[] { "এই", "বিশ্বকোষ", "পরিচালনা", "করে", "উইকিমিডিয়া", "ফাউন্ডেশন", "একটি", "অলাভজনক", "সংস্থা", "উইকিপিডিয়ার",
140         "শুরু", "১৫", "জানুয়ারি", "২০০১", "সালে", "এখন", "পর্যন্ত", "২০০টিরও", "বেশী", "ভাষায়", "উইকিপিডিয়া", "রয়েছে" });
141   }
142   
143   public void testFarsi() throws Exception {
144     BaseTokenStreamTestCase.assertAnalyzesTo(a, "ویکی پدیای انگلیسی در تاریخ ۲۵ دی ۱۳۷۹ به صورت مکملی برای دانشنامهٔ تخصصی نوپدیا نوشته شد.",
145         new String[] { "ویکی", "پدیای", "انگلیسی", "در", "تاریخ", "۲۵", "دی", "۱۳۷۹", "به", "صورت", "مکملی",
146         "برای", "دانشنامهٔ", "تخصصی", "نوپدیا", "نوشته", "شد" });
147   }
148   
149   public void testGreek() throws Exception {
150     BaseTokenStreamTestCase.assertAnalyzesTo(a, "Γράφεται σε συνεργασία από εθελοντές με το λογισμικό wiki, κάτι που σημαίνει ότι άρθρα μπορεί να προστεθούν ή να αλλάξουν από τον καθένα.",
151         new String[] { "Γράφεται", "σε", "συνεργασία", "από", "εθελοντές", "με", "το", "λογισμικό", "wiki", "κάτι", "που",
152         "σημαίνει", "ότι", "άρθρα", "μπορεί", "να", "προστεθούν", "ή", "να", "αλλάξουν", "από", "τον", "καθένα" });
153   }
154
155   public void testThai() throws Exception {
156     BaseTokenStreamTestCase.assertAnalyzesTo(a, "การที่ได้ต้องแสดงว่างานดี. แล้วเธอจะไปไหน? ๑๒๓๔",
157         new String[] { "การที่ได้ต้องแสดงว่างานดี", "แล้วเธอจะไปไหน", "๑๒๓๔" });
158   }
159   
160   public void testLao() throws Exception {
161     BaseTokenStreamTestCase.assertAnalyzesTo(a, "ສາທາລະນະລັດ ປະຊາທິປະໄຕ ປະຊາຊົນລາວ", 
162         new String[] { "ສາທາລະນະລັດ", "ປະຊາທິປະໄຕ", "ປະຊາຊົນລາວ" });
163   }
164   
165   public void testTibetan() throws Exception {
166     BaseTokenStreamTestCase.assertAnalyzesTo(a, "སྣོན་མཛོད་དང་ལས་འདིས་བོད་ཡིག་མི་ཉམས་གོང་འཕེལ་དུ་གཏོང་བར་ཧ་ཅང་དགེ་མཚན་མཆིས་སོ། །",
167                      new String[] { "སྣོན", "མཛོད", "དང", "ལས", "འདིས", "བོད", "ཡིག", 
168                                     "མི", "ཉམས", "གོང", "འཕེལ", "དུ", "གཏོང", "བར", 
169                                     "ཧ", "ཅང", "དགེ", "མཚན", "མཆིས", "སོ" });
170   }
171   
172   /*
173    * For chinese, tokenize as char (these can later form bigrams or whatever)
174    */
175   public void testChinese() throws Exception {
176     BaseTokenStreamTestCase.assertAnalyzesTo(a, "我是中国人。 1234 Tests ",
177         new String[] { "我", "是", "中", "国", "人", "1234", "Tests"});
178   }
179   
180   public void testEmpty() throws Exception {
181     BaseTokenStreamTestCase.assertAnalyzesTo(a, "", new String[] {});
182     BaseTokenStreamTestCase.assertAnalyzesTo(a, ".", new String[] {});
183     BaseTokenStreamTestCase.assertAnalyzesTo(a, " ", new String[] {});
184   }
185   
186   /* test various jira issues this analyzer is related to */
187   
188   public void testLUCENE1545() throws Exception {
189     /*
190      * Standard analyzer does not correctly tokenize combining character U+0364 COMBINING LATIN SMALL LETTRE E.
191      * The word "moͤchte" is incorrectly tokenized into "mo" "chte", the combining character is lost.
192      * Expected result is only on token "moͤchte".
193      */
194     BaseTokenStreamTestCase.assertAnalyzesTo(a, "moͤchte", new String[] { "moͤchte" }); 
195   }
196   
197   /* Tests from StandardAnalyzer, just to show behavior is similar */
198   public void testAlphanumericSA() throws Exception {
199     // alphanumeric tokens
200     BaseTokenStreamTestCase.assertAnalyzesTo(a, "B2B", new String[]{"B2B"});
201     BaseTokenStreamTestCase.assertAnalyzesTo(a, "2B", new String[]{"2B"});
202   }
203
204   public void testDelimitersSA() throws Exception {
205     // other delimiters: "-", "/", ","
206     BaseTokenStreamTestCase.assertAnalyzesTo(a, "some-dashed-phrase", new String[]{"some", "dashed", "phrase"});
207     BaseTokenStreamTestCase.assertAnalyzesTo(a, "dogs,chase,cats", new String[]{"dogs", "chase", "cats"});
208     BaseTokenStreamTestCase.assertAnalyzesTo(a, "ac/dc", new String[]{"ac", "dc"});
209   }
210
211   public void testApostrophesSA() throws Exception {
212     // internal apostrophes: O'Reilly, you're, O'Reilly's
213     BaseTokenStreamTestCase.assertAnalyzesTo(a, "O'Reilly", new String[]{"O'Reilly"});
214     BaseTokenStreamTestCase.assertAnalyzesTo(a, "you're", new String[]{"you're"});
215     BaseTokenStreamTestCase.assertAnalyzesTo(a, "she's", new String[]{"she's"});
216     BaseTokenStreamTestCase.assertAnalyzesTo(a, "Jim's", new String[]{"Jim's"});
217     BaseTokenStreamTestCase.assertAnalyzesTo(a, "don't", new String[]{"don't"});
218     BaseTokenStreamTestCase.assertAnalyzesTo(a, "O'Reilly's", new String[]{"O'Reilly's"});
219   }
220
221   public void testNumericSA() throws Exception {
222     // floating point, serial, model numbers, ip addresses, etc.
223     BaseTokenStreamTestCase.assertAnalyzesTo(a, "21.35", new String[]{"21.35"});
224     BaseTokenStreamTestCase.assertAnalyzesTo(a, "R2D2 C3PO", new String[]{"R2D2", "C3PO"});
225     BaseTokenStreamTestCase.assertAnalyzesTo(a, "216.239.63.104", new String[]{"216.239.63.104"});
226   }
227
228   public void testTextWithNumbersSA() throws Exception {
229     // numbers
230     BaseTokenStreamTestCase.assertAnalyzesTo(a, "David has 5000 bones", new String[]{"David", "has", "5000", "bones"});
231   }
232
233   public void testVariousTextSA() throws Exception {
234     // various
235     BaseTokenStreamTestCase.assertAnalyzesTo(a, "C embedded developers wanted", new String[]{"C", "embedded", "developers", "wanted"});
236     BaseTokenStreamTestCase.assertAnalyzesTo(a, "foo bar FOO BAR", new String[]{"foo", "bar", "FOO", "BAR"});
237     BaseTokenStreamTestCase.assertAnalyzesTo(a, "foo      bar .  FOO <> BAR", new String[]{"foo", "bar", "FOO", "BAR"});
238     BaseTokenStreamTestCase.assertAnalyzesTo(a, "\"QUOTED\" word", new String[]{"QUOTED", "word"});
239   }
240
241   public void testKoreanSA() throws Exception {
242     // Korean words
243     BaseTokenStreamTestCase.assertAnalyzesTo(a, "안녕하세요 한글입니다", new String[]{"안녕하세요", "한글입니다"});
244   }
245   
246   public void testOffsets() throws Exception {
247     BaseTokenStreamTestCase.assertAnalyzesTo(a, "David has 5000 bones", 
248         new String[] {"David", "has", "5000", "bones"},
249         new int[] {0, 6, 10, 15},
250         new int[] {5, 9, 14, 20});
251   }
252   
253   public void testTypes() throws Exception {
254     BaseTokenStreamTestCase.assertAnalyzesTo(a, "David has 5000 bones", 
255         new String[] {"David", "has", "5000", "bones"},
256         new String[] { "<ALPHANUM>", "<ALPHANUM>", "<NUM>", "<ALPHANUM>" });
257   }
258   
259   public void testWikiURLs() throws Exception {
260     Reader reader = null;
261     String luceneResourcesWikiPage;
262     try {
263       reader = new InputStreamReader(getClass().getResourceAsStream
264         ("LuceneResourcesWikiPage.html"), "UTF-8");
265       StringBuilder builder = new StringBuilder();
266       char[] buffer = new char[1024];
267       int numCharsRead;
268       while (-1 != (numCharsRead = reader.read(buffer))) {
269         builder.append(buffer, 0, numCharsRead);
270       }
271       luceneResourcesWikiPage = builder.toString(); 
272     } finally {
273       if (null != reader) {
274         reader.close();
275       }
276     }
277     assertTrue(null != luceneResourcesWikiPage 
278                && luceneResourcesWikiPage.length() > 0);
279     BufferedReader bufferedReader = null;
280     String[] urls;
281     try {
282       List<String> urlList = new ArrayList<String>();
283       bufferedReader = new BufferedReader(new InputStreamReader
284         (getClass().getResourceAsStream("LuceneResourcesWikiPageURLs.txt"), "UTF-8"));
285       String line;
286       while (null != (line = bufferedReader.readLine())) {
287         line = line.trim();
288         if (line.length() > 0) {
289           urlList.add(line);
290         }
291       }
292       urls = urlList.toArray(new String[urlList.size()]);
293     } finally {
294       if (null != bufferedReader) {
295         bufferedReader.close();
296       }
297     }
298     assertTrue(null != urls && urls.length > 0);
299     BaseTokenStreamTestCase.assertAnalyzesTo
300       (urlAnalyzer, luceneResourcesWikiPage, urls);
301   }
302   
303   public void testEmails() throws Exception {
304     Reader reader = null;
305     String randomTextWithEmails;
306     try {
307       reader = new InputStreamReader(getClass().getResourceAsStream
308         ("random.text.with.email.addresses.txt"), "UTF-8");
309       StringBuilder builder = new StringBuilder();
310       char[] buffer = new char[1024];
311       int numCharsRead;
312       while (-1 != (numCharsRead = reader.read(buffer))) {
313         builder.append(buffer, 0, numCharsRead);
314       }
315       randomTextWithEmails = builder.toString(); 
316     } finally {
317       if (null != reader) {
318         reader.close();
319       }
320     }
321     assertTrue(null != randomTextWithEmails 
322                && randomTextWithEmails.length() > 0);
323     BufferedReader bufferedReader = null;
324     String[] emails;
325     try {
326       List<String> emailList = new ArrayList<String>();
327       bufferedReader = new BufferedReader(new InputStreamReader
328         (getClass().getResourceAsStream
329           ("email.addresses.from.random.text.with.email.addresses.txt"), "UTF-8"));
330       String line;
331       while (null != (line = bufferedReader.readLine())) {
332         line = line.trim();
333         if (line.length() > 0) {
334           emailList.add(line);
335         }
336       }
337       emails = emailList.toArray(new String[emailList.size()]);
338     } finally {
339       if (null != bufferedReader) {
340         bufferedReader.close();
341       }
342     }
343     assertTrue(null != emails && emails.length > 0);
344     BaseTokenStreamTestCase.assertAnalyzesTo
345       (emailAnalyzer, randomTextWithEmails, emails);
346   }
347
348   public void testURLs() throws Exception {
349     Reader reader = null;
350     String randomTextWithURLs;
351     try {
352       reader = new InputStreamReader(getClass().getResourceAsStream
353         ("random.text.with.urls.txt"), "UTF-8");
354       StringBuilder builder = new StringBuilder();
355       char[] buffer = new char[1024];
356       int numCharsRead;
357       while (-1 != (numCharsRead = reader.read(buffer))) {
358         builder.append(buffer, 0, numCharsRead);
359       }
360       randomTextWithURLs = builder.toString(); 
361     } finally {
362       if (null != reader) {
363         reader.close();
364       }
365     }
366     assertTrue(null != randomTextWithURLs 
367                && randomTextWithURLs.length() > 0);
368     BufferedReader bufferedReader = null;
369     String[] urls;
370     try {
371       List<String> urlList = new ArrayList<String>();
372       bufferedReader = new BufferedReader(new InputStreamReader
373         (getClass().getResourceAsStream
374           ("urls.from.random.text.with.urls.txt"), "UTF-8"));
375       String line;
376       while (null != (line = bufferedReader.readLine())) {
377         line = line.trim();
378         if (line.length() > 0) {
379           urlList.add(line);
380         }
381       }
382       urls = urlList.toArray(new String[urlList.size()]);
383     } finally {
384       if (null != bufferedReader) {
385         bufferedReader.close();
386       }
387     }
388     assertTrue(null != urls && urls.length > 0);
389     BaseTokenStreamTestCase.assertAnalyzesTo
390       (urlAnalyzer, randomTextWithURLs, urls);
391   }
392
393   public void testUnicodeWordBreaks() throws Exception {
394     WordBreakTestUnicode_6_0_0 wordBreakTest = new WordBreakTestUnicode_6_0_0();
395     wordBreakTest.test(a);
396   }
397   
398   public void testSupplementary() throws Exception {
399     BaseTokenStreamTestCase.assertAnalyzesTo(a, "𩬅艱鍟䇹愯瀛", 
400         new String[] {"𩬅", "艱", "鍟", "䇹", "愯", "瀛"},
401         new String[] { "<IDEOGRAPHIC>", "<IDEOGRAPHIC>", "<IDEOGRAPHIC>", "<IDEOGRAPHIC>", "<IDEOGRAPHIC>", "<IDEOGRAPHIC>" });
402   }
403   
404   public void testKorean() throws Exception {
405     BaseTokenStreamTestCase.assertAnalyzesTo(a, "훈민정음",
406         new String[] { "훈민정음" },
407         new String[] { "<HANGUL>" });
408   }
409   
410   public void testJapanese() throws Exception {
411     BaseTokenStreamTestCase.assertAnalyzesTo(a, "仮名遣い カタカナ",
412         new String[] { "仮", "名", "遣", "い", "カタカナ" },
413         new String[] { "<IDEOGRAPHIC>", "<IDEOGRAPHIC>", "<IDEOGRAPHIC>", "<HIRAGANA>", "<KATAKANA>" });
414   }
415   
416   /** blast some random strings through the analyzer */
417   public void testRandomStrings() throws Exception {
418     checkRandomData(random, a, 10000*RANDOM_MULTIPLIER);
419   }
420 }