Revert "Revert "[epub, mobi] Fix for a problem with epubs, mobi in drama ebooks witho...

[librarian.git] / librarian / epub.py
diff --git a/librarian/epub.py b/librarian/epub.py

index 10922d4..4855de8 100644 (file)
--- a/librarian/epub.py
+++ b/librarian/epub.py
@@ -17,11 +17,12 @@ from tempfile import mkdtemp, NamedTemporaryFile
  from shutil import rmtree
  
  from librarian import RDFNS, WLNS, NCXNS, OPFNS, XHTMLNS, OutputFile
-from librarian.cover import WLCover
+from librarian.cover import DefaultEbookCover
  
  from librarian import functions, get_resource
  
  functions.reg_person_name()
+functions.reg_lang_code_3to2()
  
  
  def inner_xml(node):
@@ -117,10 +118,10 @@ class Stanza(object):
      Slashes may only occur directly in the stanza. Any slashes in subelements
      will be ignored, and the subelements will be put inside verse elements.
  
-    >>> s = etree.fromstring("<strofa>a/\\nb<x>x/\\ny</x>c/ \\nd</strofa>")
+    >>> s = etree.fromstring("<strofa>a <b>c</b> <b>c</b>/\\nb<x>x/\\ny</x>c/ \\nd</strofa>")
      >>> Stanza(s).versify()
      >>> print etree.tostring(s)
-    <strofa><wers_normalny>a</wers_normalny><wers_normalny>b<x>x/
+    <strofa><wers_normalny>a <b>c</b> <b>c</b></wers_normalny><wers_normalny>b<x>x/
      y</x>c</wers_normalny><wers_normalny>d</wers_normalny></strofa>
      
      """
@@ -149,16 +150,16 @@ class Stanza(object):
          return self.open_verse
  
      def push_text(self, text):
-        if not text or not text.strip():
+        if not text:
              return
          for i, verse_text in enumerate(re.split(r"/\s*\n", text)):
              if i:
                  self.open_normal_verse()
              verse = self.get_open_verse()
              if len(verse):
-                verse[-1].tail = (verse[-1].tail or "") + verse_text.strip()
+                verse[-1].tail = (verse[-1].tail or "") + verse_text
              else:
-                verse.text = (verse.text or "") + verse_text.strip()
+                verse.text = (verse.text or "") + verse_text
  
      def push_elem(self, elem):
          if elem.tag.startswith("wers"):
@@ -290,18 +291,47 @@ def chop(main_text):
      main_xml_part = part_xml[0] # master
  
      last_node_part = False
+    
+    # the below loops are workaround for a problem with epubs in drama ebooks without acts
+    is_scene = False
+    for one_part in main_text:
+       name = one_part.tag
+        if name in ('naglowek_scena'):
+            is_scene = True
+            break
+    if is_scene is True:
+        is_scene_with_acts = False
+        for one_part in main_text:
+            if one_part.tag == 'naglowek_akt':
+                is_scene_with_acts = True
+                break
+    else:
+        is_scene_with_acts = False
+    
      for one_part in main_text:
          name = one_part.tag
-        if name == 'naglowek_czesc':
-            yield part_xml
-            last_node_part = True
-            main_xml_part[:] = [deepcopy(one_part)]
-        elif not last_node_part and name in ("naglowek_rozdzial", "naglowek_akt", "srodtytul"):
-            yield part_xml
-            main_xml_part[:] = [deepcopy(one_part)]
+        if is_scene_with_acts is False and is_scene is True:
+            if name == 'naglowek_czesc':
+                yield part_xml
+                last_node_part = True
+                main_xml_part[:] = [deepcopy(one_part)]
+            elif not last_node_part and name in ("naglowek_scena"):
+                yield part_xml
+                main_xml_part[:] = [deepcopy(one_part)]
+            else:
+                main_xml_part.append(deepcopy(one_part))
+                last_node_part = False
          else:
-            main_xml_part.append(deepcopy(one_part))
-            last_node_part = False
+            if name == 'naglowek_czesc':
+                yield part_xml
+                last_node_part = True
+                main_xml_part[:] = [deepcopy(one_part)]
+            elif not last_node_part and name in ("naglowek_rozdzial", "naglowek_akt", "srodtytul"):
+                yield part_xml
+                main_xml_part[:] = [deepcopy(one_part)]
+            else:
+                main_xml_part.append(deepcopy(one_part))
+                last_node_part = False            
      yield part_xml
  
  
@@ -310,7 +340,9 @@ def transform_chunk(chunk_xml, chunk_no, annotations, empty=False, _empty_html_s
  
      toc = TOC()
      for element in chunk_xml[0]:
-        if element.tag in ("naglowek_czesc", "naglowek_rozdzial", "naglowek_akt", "srodtytul"):
+        if element.tag in ("naglowek_czesc"):
+            toc.add(node_name(element), "part%d.html#book-text" % chunk_no)
+        elif element.tag in ("naglowek_rozdzial", "naglowek_akt", "srodtytul"):
              toc.add(node_name(element), "part%d.html" % chunk_no)
          elif element.tag in ('naglowek_podrozdzial', 'naglowek_scena'):
              subnumber = toc.add(node_name(element), "part%d.html" % chunk_no, level=1, is_part=False)
@@ -336,7 +368,7 @@ def transform(wldoc, verbose=False,
  
      sample=n: generate sample e-book (with at least n paragraphs)
      cover: a cover.Cover factory or True for default
-    flags: less-advertising, without-fonts, working-copy
+    flags: less-advertising, without-fonts, working-copy, with-full-fonts
      """
  
      def transform_file(wldoc, chunk_counter=1, first=True, sample=None):
@@ -415,6 +447,11 @@ def transform(wldoc, verbose=False,
      # add editors info
      document.edoc.getroot().set('editors', u', '.join(sorted(
          editor.readable() for editor in document.editors())))
+    if document.book_info.funders:
+        document.edoc.getroot().set('funders', u', '.join(
+            document.book_info.funders))
+    if document.book_info.thanks:
+        document.edoc.getroot().set('thanks', document.book_info.thanks)
  
      opf = xslt(document.book_info.to_etree(), get_resource('epub/xsltContent.xsl'))
      manifest = opf.find('.//' + OPFNS('manifest'))
@@ -443,7 +480,7 @@ def transform(wldoc, verbose=False,
  
      if cover:
          if cover is True:
-            cover = WLCover
+            cover = DefaultEbookCover
  
          cover_file = StringIO()
          bound_cover = cover(document.book_info)
@@ -506,6 +543,15 @@ def transform(wldoc, verbose=False,
          zip.writestr('OPS/annotations.html', etree.tostring(
                              html_tree, method="html", pretty_print=True))
  
+    toc.add("Wesprzyj Wolne Lektury", "support.html")
+    manifest.append(etree.fromstring(
+        '<item id="support" href="support.html" media-type="application/xhtml+xml" />'))
+    spine.append(etree.fromstring(
+        '<itemref idref="support" />'))
+    html_string = open(get_resource('epub/support.html')).read()
+    chars.update(used_chars(etree.fromstring(html_string)))
+    zip.writestr('OPS/support.html', html_string)
+
      toc.add("Strona redakcyjna", "last.html")
      manifest.append(etree.fromstring(
          '<item id="last" href="last.html" media-type="application/xhtml+xml" />'))
@@ -526,21 +572,23 @@ def transform(wldoc, verbose=False,
  
          os.chdir(os.path.join(os.path.dirname(os.path.realpath(__file__)), 'font-optimizer'))
          for fname in 'DejaVuSerif.ttf', 'DejaVuSerif-Bold.ttf', 'DejaVuSerif-Italic.ttf', 'DejaVuSerif-BoldItalic.ttf':
-            optimizer_call = ['perl', 'subset.pl', '--chars', ''.join(chars).encode('utf-8'),
-                              get_resource('fonts/' + fname), os.path.join(tmpdir, fname)]
-            if verbose:
-                print "Running font-optimizer"
-                subprocess.check_call(optimizer_call)
+            if not flags or not 'with-full-fonts' in flags:
+                optimizer_call = ['perl', 'subset.pl', '--chars', ''.join(chars).encode('utf-8'),
+                              get_resource('fonts/' + fname), os.path.join(tmpdir, fname)]              
+                if verbose:
+                    print "Running font-optimizer"
+                    subprocess.check_call(optimizer_call)
+                else:
+                    subprocess.check_call(optimizer_call, stdout=subprocess.PIPE, stderr=subprocess.PIPE)
+                    zip.write(os.path.join(tmpdir, fname), os.path.join('OPS', fname))
              else:
-                subprocess.check_call(optimizer_call, stdout=subprocess.PIPE, stderr=subprocess.PIPE)
-            zip.write(os.path.join(tmpdir, fname), os.path.join('OPS', fname))
+                zip.write(get_resource('fonts/' + fname), os.path.join('OPS', fname))
              manifest.append(etree.fromstring(
-                '<item id="%s" href="%s" media-type="font/ttf" />' % (fname, fname)))
+                '<item id="%s" href="%s" media-type="application/x-font-truetype" />' % (fname, fname)))
          rmtree(tmpdir)
          if cwd is not None:
              os.chdir(cwd)
-
-    zip.writestr('OPS/content.opf', etree.tostring(opf, pretty_print=True))
+    zip.writestr('OPS/content.opf', etree.tostring(opf, pretty_print=True, xml_declaration = True, encoding='UTF-8'))
      title = document.book_info.title
      attributes = "dtb:uid", "dtb:depth", "dtb:totalPageCount", "dtb:maxPageNumber"
      for st in attributes:
@@ -548,7 +596,7 @@ def transform(wldoc, verbose=False,
          meta.set('name', st)
          meta.set('content', '0')
          toc_file[0].append(meta)
-    toc_file[0][0].set('content', ''.join((title, 'WolneLektury.pl')))
+    toc_file[0][0].set('content', str(document.book_info.url))
      toc_file[0][1].set('content', str(toc.depth()))
      set_inner_xml(toc_file[1], ''.join(('<text>', title, '</text>')))
  
@@ -557,7 +605,7 @@ def transform(wldoc, verbose=False,
          toc.add(u"Spis treści", "toc.html", index=1)
          zip.writestr('OPS/toc.html', toc.html().encode('utf-8'))
      toc.write_to_xml(nav_map)
-    zip.writestr('OPS/toc.ncx', etree.tostring(toc_file, pretty_print=True))
+    zip.writestr('OPS/toc.ncx', etree.tostring(toc_file, pretty_print=True, xml_declaration = True, encoding='UTF-8'))
      zip.close()
  
      return OutputFile.from_filename(output_file.name)