less fields to index

[wolnelektury.git] / apps / search / index.py
diff --git a/apps/search/index.py b/apps/search/index.py

index 312cf94..e8b7a5c 100644 (file)
--- a/apps/search/index.py
+++ b/apps/search/index.py
@@ -339,7 +339,10 @@ class Index(BaseIndex):
              self.remove_book(book, remove_snippets=False)
  
          book_doc = self.create_book_doc(book)
              self.remove_book(book, remove_snippets=False)
  
          book_doc = self.create_book_doc(book)
-        meta_fields = self.extract_metadata(book, book_info)
+        meta_fields = self.extract_metadata(book, book_info, dc_only=['source_name', 'authors', 'title'])
+        # let's not index it - it's only used for extracting publish date
+        del meta_fields['source_name']
+        
          for f in meta_fields.values():
              if isinstance(f, list) or isinstance(f, tuple):
                  for elem in f:
          for f in meta_fields.values():
              if isinstance(f, list) or isinstance(f, tuple):
                  for elem in f:
@@ -373,7 +376,7 @@ class Index(BaseIndex):
  
      published_date_re = re.compile("([0-9]+)[\]. ]*$")
  
  
      published_date_re = re.compile("([0-9]+)[\]. ]*$")
  
-    def extract_metadata(self, book, book_info=None):
+    def extract_metadata(self, book, book_info=None, dc_only=None):
          """
          Extract metadata from book and returns a map of fields keyed by fieldname
          """
          """
          Extract metadata from book and returns a map of fields keyed by fieldname
          """
@@ -388,6 +391,8 @@ class Index(BaseIndex):
  
          # validator, name
          for field in dcparser.BookInfo.FIELDS:
  
          # validator, name
          for field in dcparser.BookInfo.FIELDS:
+            if dc_only and field.name not in dc_only:
+                continue
              if hasattr(book_info, field.name):
                  if not getattr(book_info, field.name):
                      continue
              if hasattr(book_info, field.name):
                  if not getattr(book_info, field.name):
                      continue
@@ -1371,13 +1376,13 @@ class Search(IndexStore):
          if terms:
              return JArray('object')(terms, Term)
  
          if terms:
              return JArray('object')(terms, Term)
  
-    def search_tags(self, query, filter=None, max_results=40, pdcounter=False):
+    def search_tags(self, query, filt=None, max_results=40, pdcounter=False):
          """
          Search for Tag objects using query.
          """
          if not pdcounter:
          """
          Search for Tag objects using query.
          """
          if not pdcounter:
-            filters = self.chain_filters([filter, self.term_filter(Term('is_pdcounter', 'true'), inverse=True)])
-        tops = self.searcher.search(query, filter, max_results)
+            filters = self.chain_filters([filt, self.term_filter(Term('is_pdcounter', 'true'), inverse=True)])
+        tops = self.searcher.search(query, filt, max_results)
  
          tags = []
          for found in tops.scoreDocs:
  
          tags = []
          for found in tops.scoreDocs:
@@ -1406,12 +1411,12 @@ class Search(IndexStore):
  
          return tags
  
  
          return tags
  
-    def search_books(self, query, filter=None, max_results=10):
+    def search_books(self, query, filt=None, max_results=10):
          """
          Searches for Book objects using query
          """
          bks = []
          """
          Searches for Book objects using query
          """
          bks = []
-        tops = self.searcher.search(query, filter, max_results)
+        tops = self.searcher.search(query, filt, max_results)
          for found in tops.scoreDocs:
              doc = self.searcher.doc(found.doc)
              try:
          for found in tops.scoreDocs:
              doc = self.searcher.doc(found.doc)
              try: