X-Git-Url: https://git.mdrn.pl/wolnelektury.git/blobdiff_plain/f8228cc6712f9a71f877b0ea60719c256519f16e..f49f480ec083dbd9300b354c1730bdae564beaf0:/lib/librarian/bin/book2txt.py

diff --git a/lib/librarian/bin/book2txt.py b/lib/librarian/bin/book2txt.py
index 413ff674b..d3c2d0121 100755
--- a/lib/librarian/bin/book2txt.py
+++ b/lib/librarian/bin/book2txt.py
@@ -5,6 +5,24 @@ import os
 import optparse
 import codecs
 
+from librarian import dcparser
+
+
+HEADER = u"""\
+Kodowanie znakÃ³w w dokumencie: UTF-8.
+-----
+Publikacja zrealizowana w ramach projektu Wolne Lektury (http://wolnelektury.pl/). Reprodukcja cyfrowa wykonana przez
+BibliotekÄ NarodowÄ z egzemplarza pochodzÄcego ze zbiorÃ³w BN. Ten utwÃ³r nie jest chroniony prawem autorskim i znajduje
+siÄ w domenie publicznej, co oznacza, Å¼e moÅ¼esz go swobodnie wykorzystywaÄ, publikowaÄ i rozpowszechniaÄ.
+
+Wersja lektury w opracowaniu merytorycznym i krytycznym (przypisy i motywy) dostÄpna jest na stronie %s.
+-----
+
+"""
+
+def get_header(filename):
+    return HEADER % dcparser.parse(filename).url
+
 
 REGEXES = [
     (r'<rdf:RDF[^>]*>(.|\n)*?</rdf:RDF>', ''),
@@ -14,7 +32,7 @@ REGEXES = [
     (r'<uwaga>(.|\n)*?</uwaga>', ''),
     (r'<p[a|e|r|t]>(.|\n)*?</p[a|e|r|t]>', ''),
     (r'<[^>]+>', ''),
-    (r'/\n', ''),
+    (r'/\n', '\n'),
     (r'---', u'â'),
     (r'--', u'-'),
     (r',,', u'â'),
@@ -47,10 +65,9 @@ if __name__ == '__main__':
         
         xml = codecs.open(input_filename, 'r', encoding='utf-8').read()
         for pattern, repl in REGEXES:
-            # print pattern, repl
             xml, n = re.subn(pattern, repl, xml)
-            # print n
-            
+        
         output = codecs.open(output_filename, 'w', encoding='utf-8')
+        output.write(get_header(input_filename))
         output.write(xml)