PyLucene 3.4.0-1 import
[pylucene.git] / lucene-java-3.4.0 / lucene / src / java / overview.html
1 <!--
2  Licensed to the Apache Software Foundation (ASF) under one or more
3  contributor license agreements.  See the NOTICE file distributed with
4  this work for additional information regarding copyright ownership.
5  The ASF licenses this file to You under the Apache License, Version 2.0
6  (the "License"); you may not use this file except in compliance with
7  the License.  You may obtain a copy of the License at
8
9      http://www.apache.org/licenses/LICENSE-2.0
10
11  Unless required by applicable law or agreed to in writing, software
12  distributed under the License is distributed on an "AS IS" BASIS,
13  WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
14  See the License for the specific language governing permissions and
15  limitations under the License.
16 -->
17 <html>
18 <!--
19  Licensed to the Apache Software Foundation (ASF) under one or more
20  contributor license agreements.  See the NOTICE file distributed with
21  this work for additional information regarding copyright ownership.
22  The ASF licenses this file to You under the Apache License, Version 2.0
23  (the "License"); you may not use this file except in compliance with
24  the License.  You may obtain a copy of the License at
25
26      http://www.apache.org/licenses/LICENSE-2.0
27
28  Unless required by applicable law or agreed to in writing, software
29  distributed under the License is distributed on an "AS IS" BASIS,
30  WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
31  See the License for the specific language governing permissions and
32  limitations under the License.
33 -->
34 <head>
35    <title>Apache Lucene API</title>
36 </head>
37 <body>
38
39 <p>Apache Lucene is a high-performance, full-featured text search engine library.
40 Here's a simple example how to use Lucene for indexing and searching (using JUnit
41 to check if the results are what we expect):</p>
42
43 <!-- code comes from org.apache.lucene.TestDemo: -->
44 <!-- ======================================================== -->
45 <!-- = Java Sourcecode to HTML automatically converted code = -->
46 <!-- =   Java2Html Converter 5.0 [2006-03-04] by Markus Gebhard  markus@jave.de   = -->
47 <!-- =     Further information: http://www.java2html.de     = -->
48 <pre class="prettyprint">
49     Analyzer analyzer = new StandardAnalyzer(Version.LUCENE_CURRENT);
50
51     // Store the index in memory:
52     Directory directory = new RAMDirectory();
53     // To store an index on disk, use this instead:
54     //Directory directory = FSDirectory.open("/tmp/testindex");
55     IndexWriter iwriter = new IndexWriter(directory, analyzer, true,
56                                           new IndexWriter.MaxFieldLength(25000));
57     Document doc = new Document();
58     String text = "This is the text to be indexed.";
59     doc.add(new Field("fieldname", text, Field.Store.YES,
60         Field.Index.ANALYZED));
61     iwriter.addDocument(doc);
62     iwriter.close();
63     
64     // Now search the index:
65     IndexSearcher isearcher = new IndexSearcher(directory, true); // read-only=true
66     // Parse a simple query that searches for "text":
67     QueryParser parser = new QueryParser("fieldname", analyzer);
68     Query query = parser.parse("text");
69     ScoreDoc[] hits = isearcher.search(query, null, 1000).scoreDocs;
70     assertEquals(1, hits.length);
71     // Iterate through the results:
72     for (int i = 0; i < hits.length; i++) {
73       Document hitDoc = isearcher.doc(hits[i].doc);
74       assertEquals("This is the text to be indexed.", hitDoc.get("fieldname"));
75     }
76     isearcher.close();
77     directory.close();</pre>
78 <!-- =       END of automatically generated HTML code       = -->
79 <!-- ======================================================== -->
80
81
82
83 <p>The Lucene API is divided into several packages:</p>
84
85 <ul>
86 <li>
87 <b><a href="org/apache/lucene/analysis/package-summary.html">org.apache.lucene.analysis</a></b>
88 defines an abstract <a href="org/apache/lucene/analysis/Analyzer.html">Analyzer</a>
89 API for converting text from a <a href="http://java.sun.com/products/jdk/1.2/docs/api/java/io/Reader.html">java.io.Reader</a>
90 into a <a href="org/apache/lucene/analysis/TokenStream.html">TokenStream</a>,
91 an enumeration of token <a href="org/apache/lucene/util/Attribute.html">Attribute</a>s.&nbsp;
92 A TokenStream can be composed by applying <a href="org/apache/lucene/analysis/TokenFilter.html">TokenFilter</a>s
93 to the output of a <a href="org/apache/lucene/analysis/Tokenizer.html">Tokenizer</a>.&nbsp;
94 Tokenizers and TokenFilters are strung together and applied with an <a href="org/apache/lucene/analysis/Analyzer.html">Analyzer</a>.&nbsp;
95 A handful of Analyzer implementations are provided, including <a href="org/apache/lucene/analysis/StopAnalyzer.html">StopAnalyzer</a>
96 and the grammar-based <a href="org/apache/lucene/analysis/standard/StandardAnalyzer.html">StandardAnalyzer</a>.</li>
97
98 <li>
99 <b><a href="org/apache/lucene/document/package-summary.html">org.apache.lucene.document</a></b>
100 provides a simple <a href="org/apache/lucene/document/Document.html">Document</a>
101 class.&nbsp; A Document is simply a set of named <a href="org/apache/lucene/document/Field.html">Field</a>s,
102 whose values may be strings or instances of <a href="http://java.sun.com/products/jdk/1.2/docs/api/java/io/Reader.html">java.io.Reader</a>.</li>
103
104 <li>
105 <b><a href="org/apache/lucene/index/package-summary.html">org.apache.lucene.index</a></b>
106 provides two primary classes: <a href="org/apache/lucene/index/IndexWriter.html">IndexWriter</a>,
107 which creates and adds documents to indices; and <a href="org/apache/lucene/index/IndexReader.html">IndexReader</a>,
108 which accesses the data in the index.</li>
109
110 <li>
111 <b><a href="org/apache/lucene/search/package-summary.html">org.apache.lucene.search</a></b>
112 provides data structures to represent queries (ie <a href="org/apache/lucene/search/TermQuery.html">TermQuery</a>
113 for individual words, <a href="org/apache/lucene/search/PhraseQuery.html">PhraseQuery</a>
114 for phrases, and <a href="org/apache/lucene/search/BooleanQuery.html">BooleanQuery</a>
115 for boolean combinations of queries) and the abstract <a href="org/apache/lucene/search/Searcher.html">Searcher</a>
116 which turns queries into <a href="org/apache/lucene/search/TopDocs.html">TopDocs</a>.
117 <a href="org/apache/lucene/search/IndexSearcher.html">IndexSearcher</a>
118 implements search over a single IndexReader.</li>
119
120 <li>
121 <b><a href="org/apache/lucene/queryParser/package-summary.html">org.apache.lucene.queryParser</a></b>
122 uses <a href="http://javacc.dev.java.net">JavaCC</a> to implement a
123 <a href="org/apache/lucene/queryParser/QueryParser.html">QueryParser</a>.</li>
124
125 <li>
126 <b><a href="org/apache/lucene/store/package-summary.html">org.apache.lucene.store</a></b>
127 defines an abstract class for storing persistent data, the <a href="org/apache/lucene/store/Directory.html">Directory</a>,
128 which is a collection of named files written by an <a href="org/apache/lucene/store/IndexOutput.html">IndexOutput</a>
129 and read by an <a href="org/apache/lucene/store/IndexInput.html">IndexInput</a>.&nbsp;
130 Multiple implementations are provided, including <a href="org/apache/lucene/store/FSDirectory.html">FSDirectory</a>,
131 which uses a file system directory to store files, and <a href="org/apache/lucene/store/RAMDirectory.html">RAMDirectory</a>
132 which implements files as memory-resident data structures.</li>
133
134 <li>
135 <b><a href="org/apache/lucene/util/package-summary.html">org.apache.lucene.util</a></b>
136 contains a few handy data structures and util classes, ie <a href="org/apache/lucene/util/BitVector.html">BitVector</a>
137 and <a href="org/apache/lucene/util/PriorityQueue.html">PriorityQueue</a>.</li>
138 </ul>
139 To use Lucene, an application should:
140 <ol>
141 <li>
142 Create <a href="org/apache/lucene/document/Document.html">Document</a>s by
143 adding
144 <a href="org/apache/lucene/document/Field.html">Field</a>s;</li>
145
146 <li>
147 Create an <a href="org/apache/lucene/index/IndexWriter.html">IndexWriter</a>
148 and add documents to it with <a href="org/apache/lucene/index/IndexWriter.html#addDocument(org.apache.lucene.document.Document)">addDocument()</a>;</li>
149
150 <li>
151 Call <a href="org/apache/lucene/queryParser/QueryParser.html#parse(java.lang.String)">QueryParser.parse()</a>
152 to build a query from a string; and</li>
153
154 <li>
155 Create an <a href="org/apache/lucene/search/IndexSearcher.html">IndexSearcher</a>
156 and pass the query to its <a href="org/apache/lucene/search/Searcher.html#search(org.apache.lucene.search.Query)">search()</a>
157 method.</li>
158 </ol>
159 Some simple examples of code which does this are:
160 <ul>
161 <li>
162 &nbsp;<a href="http://svn.apache.org/repos/asf/lucene/dev/branches/branch_3x/lucene/contrib/demo/src/java/org/apache/lucene/demo/IndexFiles.java">IndexFiles.java</a> creates an
163 index for all the files contained in a directory.</li>
164
165 <li>
166 &nbsp;<a href="http://svn.apache.org/repos/asf/lucene/dev/branches/branch_3x/lucene/demo/src/java/org/apache/lucene/demo/SearchFiles.java">SearchFiles.java</a> prompts for
167 queries and searches an index.</li>
168 </ul>
169 To demonstrate these, try something like:
170 <blockquote><tt>> <b>java -cp lucene.jar:lucene-demo.jar:lucene-analyzers-common.jar org.apache.lucene.demo.IndexFiles rec.food.recipes/soups</b></tt>
171 <br><tt>adding rec.food.recipes/soups/abalone-chowder</tt>
172 <br><tt>&nbsp; </tt>[ ... ]
173
174 <p><tt>> <b>java -cp lucene.jar:lucene-demo.jar:lucene-analyzers-common.jar org.apache.lucene.demo.SearchFiles</b></tt>
175 <br><tt>Query: <b>chowder</b></tt>
176 <br><tt>Searching for: chowder</tt>
177 <br><tt>34 total matching documents</tt>
178 <br><tt>1. rec.food.recipes/soups/spam-chowder</tt>
179 <br><tt>&nbsp; </tt>[ ... thirty-four documents contain the word "chowder" ... ]
180
181 <p><tt>Query: <b>"clam chowder" AND Manhattan</b></tt>
182 <br><tt>Searching for: +"clam chowder" +manhattan</tt>
183 <br><tt>2 total matching documents</tt>
184 <br><tt>1. rec.food.recipes/soups/clam-chowder</tt>
185 <br><tt>&nbsp; </tt>[ ... two documents contain the phrase "clam chowder"
186 and the word "manhattan" ... ]
187 <br>&nbsp;&nbsp;&nbsp; [ Note: "+" and "-" are canonical, but "AND", "OR"
188 and "NOT" may be used. ]</blockquote>
189
190 </body>
191 </html>