fix for empty editors
[librarian.git] / librarian / pdf.py
index 94441db..5f28547 100644 (file)
@@ -19,24 +19,24 @@ from Texml.processor import process
 from lxml import etree
 from lxml.etree import XMLSyntaxError, XSLTApplyError
 
 from lxml import etree
 from lxml.etree import XMLSyntaxError, XSLTApplyError
 
+from librarian.dcparser import Person
 from librarian.parser import WLDocument
 from librarian.parser import WLDocument
-from librarian import ParseError
+from librarian import ParseError, DCNS, get_resource
 from librarian import functions
 
 
 from librarian import functions
 
 
-
 functions.reg_substitute_entities()
 functions.reg_substitute_entities()
-functions.reg_person_name()
 functions.reg_strip()
 functions.reg_starts_white()
 functions.reg_ends_white()
 functions.reg_strip()
 functions.reg_starts_white()
 functions.reg_ends_white()
+functions.reg_texcommand()
 
 STYLESHEETS = {
 
 STYLESHEETS = {
-    'wl2tex': 'xslt/wl2tex.xslt',
+    'wl2tex': 'pdf/wl2tex.xslt',
 }
 
 
 }
 
 
-def insert_tags(doc, split_re, tagname):
+def insert_tags(doc, split_re, tagname, exclude=None):
     """ inserts <tagname> for every occurence of `split_re' in text nodes in the `doc' tree 
 
     >>> t = etree.fromstring('<a><b>A-B-C</b>X-Y-Z</a>');
     """ inserts <tagname> for every occurence of `split_re' in text nodes in the `doc' tree 
 
     >>> t = etree.fromstring('<a><b>A-B-C</b>X-Y-Z</a>');
@@ -45,46 +45,47 @@ def insert_tags(doc, split_re, tagname):
     <a><b>A<d/>B<d/>C</b>X<d/>Y<d/>Z</a>
     """
 
     <a><b>A<d/>B<d/>C</b>X<d/>Y<d/>Z</a>
     """
 
-    for elem in doc.iter():
-        try:
-            if elem.text:
-                chunks = split_re.split(elem.text)
-                while len(chunks) > 1:
-                    ins = etree.Element(tagname)
-                    ins.tail = chunks.pop()
-                    elem.insert(0, ins)
-                elem.text = chunks.pop(0)
-            if elem.tail:
-                chunks = split_re.split(elem.tail)
-                parent = elem.getparent()
-                ins_index = parent.index(elem) + 1
-                while len(chunks) > 1:
-                    ins = etree.Element(tagname)
-                    ins.tail = chunks.pop()
-                    parent.insert(ins_index, ins)
-                elem.tail = chunks.pop(0)
-        except TypeError, e:
-            # element with no children, like comment
-            pass
+    for elem in doc.iter(tag=etree.Element):
+        if exclude and elem.tag in exclude:
+            continue
+        if elem.text:
+            chunks = split_re.split(elem.text)
+            while len(chunks) > 1:
+                ins = etree.Element(tagname)
+                ins.tail = chunks.pop()
+                elem.insert(0, ins)
+            elem.text = chunks.pop(0)
+        if elem.tail:
+            chunks = split_re.split(elem.tail)
+            parent = elem.getparent()
+            ins_index = parent.index(elem) + 1
+            while len(chunks) > 1:
+                ins = etree.Element(tagname)
+                ins.tail = chunks.pop()
+                parent.insert(ins_index, ins)
+            elem.tail = chunks.pop(0)
 
 
 def substitute_hyphens(doc):
     insert_tags(doc, 
                 re.compile("(?<=[^-\s])-(?=[^-\s])"),
 
 
 def substitute_hyphens(doc):
     insert_tags(doc, 
                 re.compile("(?<=[^-\s])-(?=[^-\s])"),
-                "dywiz")
+                "dywiz",
+                exclude=[DCNS("identifier.url"), DCNS("rights.license")]
+                )
 
 
 def fix_hanging(doc):
     insert_tags(doc, 
                 re.compile("(?<=\s\w)\s+"),
 
 
 def fix_hanging(doc):
     insert_tags(doc, 
                 re.compile("(?<=\s\w)\s+"),
-                "nbsp")
+                "nbsp",
+                exclude=[DCNS("identifier.url"), DCNS("rights.license")]
+                )
 
 
 def move_motifs_inside(doc):
     """ moves motifs to be into block elements """
     for master in doc.xpath('//powiesc|//opowiadanie|//liryka_l|//liryka_lp|//dramat_wierszowany_l|//dramat_wierszowany_lp|//dramat_wspolczesny'):
         for motif in master.xpath('motyw'):
 
 
 def move_motifs_inside(doc):
     """ moves motifs to be into block elements """
     for master in doc.xpath('//powiesc|//opowiadanie|//liryka_l|//liryka_lp|//dramat_wierszowany_l|//dramat_wierszowany_lp|//dramat_wspolczesny'):
         for motif in master.xpath('motyw'):
-            print motif.text
             for sib in motif.itersiblings():
                 if sib.tag not in ('sekcja_swiatlo', 'sekcja_asterysk', 'separator_linia', 'begin', 'end', 'motyw', 'extra', 'uwaga'):
                     # motif shouldn't have a tail - it would be untagged text
             for sib in motif.itersiblings():
                 if sib.tag not in ('sekcja_swiatlo', 'sekcja_asterysk', 'separator_linia', 'begin', 'end', 'motyw', 'extra', 'uwaga'):
                     # motif shouldn't have a tail - it would be untagged text
@@ -126,8 +127,20 @@ def hack_motifs(doc):
                 break
 
 
                 break
 
 
-def get_resource(path):
-    return os.path.join(os.path.dirname(__file__), path)
+def parse_creator(doc):
+    """ find all dc:creator and dc.contributor tags and add *_parsed versions with forenames first """
+    for person in doc.xpath("|".join('//dc:'+(tag) for tag in (
+                    'creator', 'contributor.translator', 'contributor.editor', 'contributor.technical_editor')),
+                    namespaces = {'dc': str(DCNS)})[::-1]:
+        if not person.text:
+            continue
+        p = Person.from_text(person.text)
+        person_parsed = deepcopy(person)
+        person_parsed.tag = person.tag + '_parsed'
+        person_parsed.set('sortkey', person.text)
+        person_parsed.text = p.readable()
+        person.getparent().insert(0, person_parsed)
+
 
 def get_stylesheet(name):
     return get_resource(STYLESHEETS[name])
 
 def get_stylesheet(name):
     return get_resource(STYLESHEETS[name])
@@ -153,34 +166,42 @@ def package_available(package, args='', verbose=False):
     return p == 0
 
 
     return p == 0
 
 
-def transform(provider, slug, output_file=None, output_dir=None, make_dir=False, verbose=False, save_tex=None):
+def transform(provider, slug=None, file_path=None, 
+              output_file=None, output_dir=None, make_dir=False, verbose=False, save_tex=None, morefloats=None):
     """ produces a PDF file with XeLaTeX
 
     provider: a DocProvider
     slug: slug of file to process, available by provider
     """ produces a PDF file with XeLaTeX
 
     provider: a DocProvider
     slug: slug of file to process, available by provider
+    file_path can be provided instead of a slug
     output_file: file-like object or path to output file
     output_dir: path to directory to save output file to; either this or output_file must be present
     make_dir: writes output to <output_dir>/<author>/<slug>.pdf istead of <output_dir>/<slug>.pdf
     verbose: prints all output from LaTeX
     save_tex: path to save the intermediary LaTeX file to
     output_file: file-like object or path to output file
     output_dir: path to directory to save output file to; either this or output_file must be present
     make_dir: writes output to <output_dir>/<author>/<slug>.pdf istead of <output_dir>/<slug>.pdf
     verbose: prints all output from LaTeX
     save_tex: path to save the intermediary LaTeX file to
+    morefloats (old/new/none): force specific morefloats
     """
 
     # Parse XSLT
     try:
     """
 
     # Parse XSLT
     try:
-        # check for latex packages
-        if not package_available('morefloats', 'maxfloats=19', verbose=verbose):
-            document.edoc.getroot().set('old-morefloats', 'yes')
-            print >> sys.stderr, """
-==============================================================================
-LaTeX `morefloats' package is older than v.1.0c or not available at all.
-Some documents with many motifs in long stanzas or paragraphs may not compile.
-=============================================================================="""
+        if file_path:
+            if slug:
+                raise ValueError('slug or file_path should be specified, not both')
+            document = load_including_children(provider, file_path=file_path)
+        else:
+            if not slug:
+                raise ValueError('either slug or file_path should be specified')
+            document = load_including_children(provider, slug=slug)
 
 
-        document = load_including_children(provider, slug)
+        # check for LaTeX packages
+        if morefloats:
+            document.edoc.getroot().set('morefloats', morefloats.lower())
+        elif package_available('morefloats', 'maxfloats=19'):
+            document.edoc.getroot().set('morefloats', 'new')
 
         # hack the tree
         move_motifs_inside(document.edoc)
         hack_motifs(document.edoc)
 
         # hack the tree
         move_motifs_inside(document.edoc)
         hack_motifs(document.edoc)
+        parse_creator(document.edoc)
         substitute_hyphens(document.edoc)
         fix_hanging(document.edoc)
 
         substitute_hyphens(document.edoc)
         fix_hanging(document.edoc)
 
@@ -208,7 +229,7 @@ Some documents with many motifs in long stanzas or paragraphs may not compile.
 
         # LaTeX -> PDF
         shutil.copy(get_resource('pdf/wl.sty'), temp)
 
         # LaTeX -> PDF
         shutil.copy(get_resource('pdf/wl.sty'), temp)
-        shutil.copy(get_resource('pdf/wl-logo.png'), temp)
+        shutil.copy(get_resource('res/wl-logo.png'), temp)
 
         cwd = os.getcwd()
         os.chdir(temp)
 
         cwd = os.getcwd()
         os.chdir(temp)
@@ -229,7 +250,10 @@ Some documents with many motifs in long stanzas or paragraphs may not compile.
                 os.makedirs(output_dir)
             except OSError:
                 pass
                 os.makedirs(output_dir)
             except OSError:
                 pass
-            output_path = os.path.join(output_dir, '%s.pdf' % slug)
+            if slug:
+                output_path = os.path.join(output_dir, '%s.pdf' % slug)
+            else:
+                output_path = os.path.join(output_dir, os.path.splitext(os.path.basename(file_path))[0] + '.pdf')
             shutil.move(pdf_path, output_path)
         else:
             if hasattr(output_file, 'write'):
             shutil.move(pdf_path, output_path)
         else:
             if hasattr(output_file, 'write'):
@@ -246,7 +270,7 @@ Some documents with many motifs in long stanzas or paragraphs may not compile.
         raise ParseError(e)
 
 
         raise ParseError(e)
 
 
-def load_including_children(provider, slug=None, uri=None):
+def load_including_children(provider, slug=None, uri=None, file_path=None):
     """ makes one big xml file with children inserted at end 
     either slug or uri must be provided
     """
     """ makes one big xml file with children inserted at end 
     either slug or uri must be provided
     """
@@ -255,15 +279,20 @@ def load_including_children(provider, slug=None, uri=None):
         f = provider.by_uri(uri)
     elif slug:
         f = provider[slug]
         f = provider.by_uri(uri)
     elif slug:
         f = provider[slug]
+    elif file_path:
+        f = open(file_path, 'r')
     else:
     else:
-        raise ValueError('Neither slug nor URI provided for a book.')
+        raise ValueError('Neither slug, URI nor file path provided for a book.')
 
 
-    document = WLDocument.from_file(f, True,
-        parse_dublincore=True,
-        preserve_lines=False)
+    text = f.read().decode('utf-8')
+    text = re.sub(ur"([\u0400-\u04ff]+)", ur"<alien>\1</alien>", text)
 
 
+    document = WLDocument.from_string(text, True,
+        parse_dublincore=True)
+
+    f.close()
     for child_uri in document.book_info.parts:
     for child_uri in document.book_info.parts:
+        print child_uri
         child = load_including_children(provider, uri=child_uri)
         document.edoc.getroot().append(child.edoc.getroot())
         child = load_including_children(provider, uri=child_uri)
         document.edoc.getroot().append(child.edoc.getroot())
-
     return document
     return document